3 个令人惊艳的 AI 项目,开源了!

本文介绍了 GitHub 上近期发布的三个AI开源项目:Meta的AI音乐生成模型Audiocraft,Diffusers的最新版本,以及复旦大学与OPPO合作的图像识别模型RAM。Audiocraft使用Python库生成音乐,Diffusers提供了先进的扩散模型,而RAM则是一个强大的图像标记基础模型,能高精度识别常见类别。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

公众号关注 “GitHubDaily”

设为 “星标”,每天带你逛 GitHub!

1789f4bcdc6052ccbeb37d5a8e94e4f4.jpeg

过去一周,从外界看,AI 貌似放缓了进步速度,但只有身处其中的人才能知道,AI 一直没有停下进化的脚步。

以下是 GitHub 过去一周,诞生的多个实用的 AI 开源项目,今天给大家做下介绍。

1. Meta 开源 AI 生成音乐模型

Meta 今天在 GitHub 开源了一个 Python 库:Audiocraft,可直接用 AI 生成音乐。

点击播放下方视频,查看音乐生成效果:

GitHub:https://github.com/facebookresearch/audiocraft

里面主要用到了一个名为 MusicGen 的音乐生成模型,MusicGen 是一个单级自回归 Transformer 模型,在 32kHz EnCodec 分词器上训练,具有 4 个以 50Hz 采样的码本。

与 MusicLM 等现有方法不同,MusicGen 不需要自我监督的语义表示,它一次生成所有 4 个码本。

卷完了文生文和文生图,接下来就看文本生成音乐要怎么发力了。

2. Diffusers 发布重磅更新

Diffusers v0.17.0 正式发布,改进了 LoRA、Kandinsky 2.1、Torch 编译加速等特性。

Diffusers 是 GitHub 上一个知名的预训练扩散模型首选库,可用于生成图像、音频,甚至分子的 3D 结构。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值