大家好,我是猫先生!!AI技术爱好者与深耕者!!!
2023年是生成式AI大爆发的一年,各种技术层出不穷!!!AI一天,人间一年!一点也不夸张!!!这一年,可谓是精彩纷呈,那么你是不是在更加期待接下来的2024年呢?
不要着急,可以先回头看一看,2023年都发生了哪些AI大事件!!!
2023年生成式AI(GenAI)发展大事记
回顾2023年AI产品发布日历
图片来源:
https://twitter.com/itisclear/status/1739954027771883603/photo/1
本文重点总结2023年AI领域的一些非常重要的产品发布节点以及展望2024年的趋势预测!!
二、2024年的趋势
—— 2023年的冲击 ——
1. GPT-4
能够生成歌词、创意文本,实现风格变化。
同时,GPT-4 在视觉能力上也得到了大幅度提升,可以接受文本和图像形式的 prompt,新能力与纯文本设置并行,允许用户指定任何视觉或语言任务。
2. 文心一言
34. 通义千问
4. ChatGLM
代码地址:
https://github.com/THUDM/ChatGLM-6B.git
https://github.com/THUDM/ChatGLM2-6B.git
https://github.com/THUDM/ChatGLM3.git
自 2019 年成立以来,智谱 AI 致力于大模型技术的研究和推广工作。在 2023 年,智谱AI推出并开源了多款模型(如下图所示) ,它们具有不同的能力,开发者可以对这些模型进行使用和定制。
经过不断地的迭代更新,ChatGLM终于迎来它的第三代大模型,拥有10B以下最强的基础模型,支持工具调用(Function Call)、代码执行(Code Interpreter)、Agent 任务等功能。在实用性、性能、功能等方面上可以说是国内最好用的开源多模态大模型了。
更强大的基础模型: ChatGLM3-6B 的基础模型 ChatGLM3-6B-Base 采用了更多样的训练数据、更充分的训练步数和更合理的训练策略。在语义、数学、推理、代码、知识等不同角度的数据集上测评显示,ChatGLM3-6B-Base 具有在 10B 以下的基础模型中最强的性能。
更完整的功能支持: ChatGLM3-6B 采用了全新设计的 Promp t 格式 ,除正常的多轮对话外。同时原生支持工具调用(Function Call)、代码执行(Code Interpreter)和 Agent 任务等复杂场景。
更全面的开源序列: 除了对话模型 ChatGLM3-6B 外,还开源了基础模型 ChatGLM3-6B-Base 、长文本对话模型 ChatGLM3-6B-32K。
5. Llama 2
上图所示:在训练Llama 2-Chat过程中,首先使用公开的在线数据对Llama 2进行预训练。通过应用监督微调,创建了一个初始版本的Llama 2-Chat。随后,使用强化学习与人类反馈强化学习(RLHF)方法,特别是通过拒绝抽样和最近策略优化(PPO)的模型进行迭代优化。
6. Gemini
Gemini模型具有三个不同的版本:
Gemini Ultra:这是最大型且功能最全面的版本,擅长处理大规模多任务语言理解。它在数学、物理、历史、法律、医学和伦理等多个科目上的表现超过了人类专家。预计Gemini Ultra将支持Google的产品,如Bard聊天机器人和搜索生成体验。
Gemini Pro:设计用于处理各种任务,Google计划通过其云服务向客户提供其服务,用于他们的应用程序。
Gemini Nano:此版本针对特定任务和移动设备进行了优化,特别适用于像Google Pixel 8这样的智能手机。它专为高效的AI处理和设备上的任务而设计。
1. DALL·E 3
官方地址:https://openai.com/dall-e-3
论文地址:
https://cdn.openai.com/papers/DALL_E_3_System_Card.pdf
DALLE3是OpenAI在今年9月21日发布的最新产品,用户通过文本问答方式就能生成二次元、平面、创意、朋克、3D等多种类型的图片。值得一提的是,DALLE3在语义理解、图片二次修改、大段文本输入等方面,比Midjourney强很多,并且图片质量比DALL·E 2实现了巨大提升。
2. Stable Diffusion
代码地址:
https://github.com/Stability-AI/generative-models
3. Midjourney
官方地址:https://www.midjourney.com/home
在2023年年末,Midjourney推出v6版本,网友惊呼效果太逼真!!当你真的使用上Midjourney的V6版本时,你真的会被生成的图片震撼到!!
输入提示:「电影镜头,一个 50 岁留着灰胡子、穿着棕色夹克、戴着红色围巾的黑人男子站在一个 20 岁左右的白人女子旁边,她穿着深蓝和乳白色千鸟格外套,戴着黑色针织帽。午夜,他们走在街道中央,被路灯柔和的橙色光芒照亮。」
图片来源:https://twitter.com/nickfloats/status/1737957980736258280
2022年是AIGC(生成式AI)元年!从这一年开始,可谓是百家争鸣,各种技术层出不穷,再次迸发出AI的活力。从DALL·E 2、Stable Diffusion、Midjourney等文生图应用点燃了大众的热情,再到ChatGPT的横空出世,更是掀起了一股AI浪潮。2023年是AIGC爆发的一年,经过一年多的发展,AI绘画可以说已得到了长足的发展,而这也进一步促进了AI视频生成的发展。
更多关于AI视频生成相关内容,推荐阅读《AIGC|一文梳理「AI视频生成」技术核心基础知识和模型应用》
1. Pika 1.0
官方地址:https://pika.art/
2023年 7 月,Pika Labs在 Discord 推出服务器,并在几个月时间内收获了 50 万用户,大家开始将视线转向这家被称为视频生成领域“黑马”的公司。
2023年11月29日,Pika1.0正式发布,用户可以在网页端排队等候测试名额。
2023年12月26 日凌晨,Pika 团队在社交平台上宣布 Pika 1.0 网页端访问权限将在今天内向所有用户开放,而且这个阶段是所有用户都可以免费使用的。
Pika1.0目前支持文生视频、图生视频、视频生视频和视频编辑等主要功能。
使用Pika1.0快速上手生成视频,推荐阅读:《AIGC | Pika1.0免费开放网页版「体验经验分享」》
2. Runway Gen 2
官方地址:https://research.runwayml.com/gen2
2.Stable Video Diffusion(SVD)
代码地址:
https://github.com/Stability-AI/generative-models
Stability AI这项研究进一步定义出训练视频LDM的三个阶段,分别是文本到图像的预训练、视频预训练,最后则是高品质视频的微调。
研究人员强调,经过良好整理的预训练数据集,对于产生高品质视频非常重要,甚至还提出一套包括标题制作和过滤策略的系统性整理流程。
1. 周鸿祎预测2024大模型十大趋势
2024年1月5日,在「2023年风马牛年终秀」,360集团创始人周鸿伟分享了对2024年大模型发展趋势的十大预测,呼吁企业树立AI信仰,AIl in AI。他认为,创新才能破局,未来最大的创新机会在大模型。
2. 福布斯发布2024年10个AI预测
在2023年12月28日,福布斯发布了2024年的10大AI趋势预测:
Nvidia将大幅加大努力成为云服务提供商
Stability AI将面临倒闭风险
“大型语言模型”和“LLM”这些术语将变得不那么常见
最先进的封闭模型将继续以显著优势胜过最先进的开放模型
一些《财富》500强公司将设立新的C级职位:首席人工智能官
另一种替代transformer架构将得到有意义的采用
云服务提供商对人工智能初创公司的战略投资,以及相关的会计影响,将受到监管机构的挑战
微软与Open AI的关系面临考验
2023年从加密货币转移到人工智能的一些炒作和群体心态行为将在2024年转回加密货币
至少有一家美国法院将裁定在互联网上训练的生成式人工智能模型构成侵犯版权。这一问题将开始上升至美国最高法院
英文地址:https://quail.ink/op7418/p/forbes-2024-10-ai-predictions
3. a16z年终回顾:生成式AI如何改变每个人生活
a16z,全称Andreessen Horowitz,近期公布了一份报告,阐述了2024年的科技趋势和未来展望。该报告基于40多家合作伙伴的见解,涵盖领域包括生物健康、基础设施与企业、金融科技、消费科技、游戏、加密货币及成长期技术等。
AI赋能医疗行业
AI语音应用程序将成为我们生活的一部分
AI垂类定制、专门构建的AI agents垂直定制的AI
教育领域AI的应用
无代码AI生成器
AI创新创作
AI+游戏:游戏将成为“一切模拟器”
AI情感陪伴
消费者人工智能的转变
AI推动机器人自动化
更多趋势预测内容:https://a16z.com/big-ideas-in-tech-2024/
4. 李飞飞、吴恩达对谈:这一次,AI冬天不会到来
两位专家都确认,这次由大模型引发的 AI 浪潮,并不会像 7 年前那波 AI 热潮一样,热闹几年后进入「冰河期」。
—— 结 尾 ——
推荐阅读
1、加入「AIGCmagic社区」知识星球
AIGCmagic社区知识星球不同于市面上其他的AI知识星球,AIGCmagic社区知识星球是国内首个以AIGC全栈技术与应用为主线的学习交流平台,涉及AI绘画、AI视频、ChatGPT等大模型、数字人、全行业AIGC赋能等50+应用方向,内部包含海量学习资源、专业问答、前沿资讯、内推招聘、AIGC模型、AIGC数据集和源码等。
那该如何加入星球呢?很简单,我们只需要扫下方的二维码即可。知识星球原价:299元/年,目前限量活动价,第一年只需要199元/年。大家只需要扫描下面的星球优惠卷即可享受最大优惠:
2、系统性梳理AI视频生成技术的相关内容和前沿模型应用《AIGC|一文梳理「AI视频生成」技术核心基础知识和模型应用》
2022年是AIGC(生成式AI)元年!从这一年开始,可谓是百家争鸣,各种技术层出不穷,再次迸发出AI的活力。从DALL·E 2、Stable Diffusion、Midjourney等文生图应用点燃了大众的热情,再到ChatGPT的横空出世,更是掀起了一股AI浪潮。2023年是AIGC大爆发的一年,经过一年多的发展,AI绘画可以说已得到了长足的发展,而这也进一步促进了AI视频生成的发展。
3、在本文中,全方位分析和介绍视频生成生态系统「VGen」《AIGC|深入浅出一个完整的视频生成系统「VGen」核心基础知识》
「VGen」是一个基于扩散模型的视频生成系统,提供以视频生成扩散模型为中心的强大代码库,具有先进的视频生成模型。VGen的整体架构主要围绕三个关键领域:基本模型、创造性合成和高效合成。
4、快速构建属于自己的AI大模型《AIGC | 快速上手教程ChatGLM2-6B部署与微调实战》
ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型,基于 General Language Model (GLM) 架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。
5、通俗的理解AI绘画Stable Diffusion核心基础原理《AIGC | 深入浅出Stable-Diffusion技术绘画原理》
Stable-Diffusion是一种深度学习模型。在最简单的形式中,Stable-Diffusion是一种文本到图像的模式,给它一个文本提示(Text Prompt),会返回与其相匹配的图像。通过这张图,我们能快速地理解StableDiffusion的大体处理流程。
6、关注「魔方AI空间」后台回复「视频生成」领取几十篇视频生成技术方向前沿论文!!!