【每周精选资讯 | 第 4 期】2024-04-01 ~ 2024-04-08

本周,阿里巴巴推出了Qwen1.5-32B模型,寻求性能与效率的平衡;百度文心一言支持AI声音定制;南洋理工大学开发了动画线条图自动填色技术;SWE-agent作为AI程序员助手展现实力;OpenAI收集大量训练数据并开放GPT3.5;GRM提供快速3D建模;Cohere发布企业级大模型CommandR+。

前言

大家好,我是翼同学。这里是【每周精选资讯】的第四期内容。

阿里巴巴:推出Qwen1.5-32B 模型

Qwen1.5-32B 是Qwen1.5语言模型系列的最新成员,致力于在性能、效率和内存占用之间找到理想的平衡。Qwen1.5-32B拥有大约300亿参数,采用了分组查询注意力机制,具有强大的对话能力,并在多项基准测试中表现出竞争性能。

在这里插入图片描述

此外,该模型在12种不同语言上进行了测试,展现了其在多语言理解和生成方面的能力。与具有更多参数的模型相比,Qwen1.5-32B的内存占用更少,运行速度更快。

文心一言:定制自己的 AI 声音

百度文心一言近日上线了新功能,用户只需几秒钟就可以定制自己的AI声音。用户只需打开文心一言App,按照系统提示读出一段话,系统就能在大约两秒的时间内捕捉到用户的声音特点,生成一个独特的“语音助手”。确认声音质量后,用户的专属“语音库”即可立即构建完成。此外,用户还可以点击对话框上的通话按钮,与自己构建的数字分身实时对话,音色和音调都与用户本人完全一致。

动画线条图自动填色

南洋理工大学的S-lab团队开发了一种新型的动画填色桶彩色化技术,通过仅需对一帧进行手动彩色化,算法便能自动将颜色传播到后续的所有帧。这一过程极大地简化了动画制作中繁琐的手动上色步骤,即使是人物在转身阴影或者被遮挡部分也能完美解决。

在这里插入图片描述

该方法采用了一种新的基于学习的包含匹配流程,使网络理解段落之间的包含关系,而不仅仅依赖于直接的视觉对应关系。为了方便这个网络的训练,他们开发了一个独特的数据集,称为PaintBucket-Character,包括渲染的线条艺术和他们的彩色对应物,具有各种3D角色。大量的实验证明了该方法相比现有技术的有效性和优越性。

Learning Inclusion Matching for Animation Paint Bucket Colorization

SWE-agent:AI程序员

SWE-agent,一种基于GPT-4的软件工程代理,已经能够修复GitHub存储库中的实际错误和问题。在SWE-bench测试集上,其得分仅次于Devin和Claude3 opus。

在这里插入图片描述

SWE-agent的特性包括:在执行编辑指令时运行代码检查器,提供专门的文件查看器和全目录字符串搜索命令,以及在没有输出的情况下返回提示信息。

SWE-Agent

OpenAI:收集高质量训练数据

据《纽约时报》报道,OpenAI已经使用其Whisper音频转录模型转录了超过一百万小时的YouTube视频,以训练其GPT-4模型。OpenAI总裁Greg Brockman亲自参与了这项工作。报道指出,OpenAI在2021年就已经耗尽了所有可获取的有用数据,并在耗尽其他资源后开始讨论转录YouTube视频、播客和有声读物。

在这里插入图片描述

此外,OpenAI还在包括GitHub上的计算机代码、象棋移动数据库和Quizlet上的学校作业内容在内的数据上训练了其模型。OpenAI发言人Lindsay Held表示,公司为每个模型策划了“独特”的数据集,以帮助它们理解世界并保持其全球研究竞争力。

Stability AI 发布 Stable Audio 2.0

Stability AI推出了新型模型Stable Audio 2.0,能从单一的自然语言提示生成高质量、具有连贯音乐结构的完整音轨,最长可达三分钟,音质为44.1 kHz立体声。

在这里插入图片描述

与之前的版本相比,Stable Audio 2.0不仅支持文本到音频的转换,还新增了音频到音频的功能,允许用户上传音频样本并将其转换为各种声音。此外,该模型还扩展了声效生成和风格转换功能,提供了更大的灵活性和控制权。

OpenAI:开放GPT3.5,无需注册

OpenAI宣布开放GPT3.5功能,任何人都可以立即免费使用ChatGPT,无需注册,可以直接与GPT进行对话聊天。

在这里插入图片描述

但是,如果不注册使用ChatGPT,用户将无法保存和回顾聊天历史、分享聊天,以及体验一些高级功能,如语音对话和自定义指令。

GRM:0.1秒内从少量图片构建3D模型

GRM(Gaussian Reconstruction Model)是一个基于高斯模型的3D重建工具,它能够利用多视角信息,在大约0.1秒内重建出精确的3D模型。

在这里插入图片描述

GRM技术的核心在于其高效的信息整合能力。通过分析从不同角度拍摄的少量图片,GRM能够迅速构建出物体的三维模型,甚至可以复原整个场景的三维结构。同时也它支持将文本或图像直接转换成3D模型。

GRM: Large Gaussian Reconstruction Model
for Efficient 3D Reconstruction and Generation

Cohere 推出 Command R+ 企业级大模型

Cohere,一家领先的企业级人工智能解决方案提供商,近日推出了其最新、可扩展的大型语言模型Command R+。这款新模型是专为实际业务应用程序设计的,建立在其前身Command R的优势之上,同时提供增强的性能、多语言支持和高级检索增强生成(RAG)功能。

在这里插入图片描述

根据Cohere提供的评估结果,Command R+在ToolTalk和Berkeley Function Calling等关键企业AI基准测试中,优于Claude 3、GPT-4 Turbo和Mistral Large等大模型。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

翼同学

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值