【AI大模型前沿】CoGenAV:多模态语音表征新范式、通义联合深技大打造、噪声环境WER降低70%+

系列篇章💥

No.文章
1【AI大模型前沿】深度剖析瑞智病理大模型 RuiPath:如何革新癌症病理诊断技术
2【AI大模型前沿】清华大学 CLAMP-3:多模态技术引领音乐检索新潮流
3【AI大模型前沿】浙大携手阿里推出HealthGPT:医学视觉语言大模型助力智能医疗新突破
4【AI大模型前沿】阿里 QwQ-32B:320 亿参数推理大模型,性能比肩 DeepSeek-R1,免费开源
5【AI大模型前沿】TRELLIS:微软、清华、中科大联合推出的高质量3D生成模型
6【AI大模型前沿】Migician:清华、北大、华科联手打造的多图像定位大模型,一键解决安防监控与自动驾驶难题
7【AI大模型前沿】DeepSeek-V3-0324:AI 模型的全面升级与技术突破
8【AI大模型前沿】BioMedGPT-R1:清华联合水木分子打造的多模态生物医药大模型,开启智能研发新纪元
9【AI大模型前沿】DiffRhythm:西北工业大学打造的10秒铸就完整歌曲的AI歌曲生成模型
10【AI大模型前沿】R1-Omni:阿里开源全模态情感识别与强化学习的创新结合
11【AI大模型前沿】Qwen2.5-Omni:阿里巴巴的多模态大模型,实现看、听、说、写一体化
12【AI大模型前沿】SmolDocling:256M参数的轻量级多模态文档处理利器,10分钟搞定百页PDF
13【AI大模型前沿】Stable Virtual Camera:Stability AI 推出的2D图像转3D视频模型,一键生成沉浸式视频
14【AI大模型前沿】阿里 Qwen3 震撼开源,模型新王诞生,开启全球大模型新纪元
15【AI大模型前沿】InternVL:OpenGVLab开源多模态大模型,解锁视觉问答与多语言翻译的全能应用图鉴
16【AI大模型前沿】Fin-R1:上海财经大学联合财跃星辰推出的金融推理大模型,凭7B参数拿下评测第二,离行业第一仅差3分
17【AI大模型前沿】Med-R1:基于强化学习的医疗视觉语言模型,突破跨模态医学推理的普适性
18【AI大模型前沿】Baichuan-M1-14B:百川智能推出专为医疗优化的开源大语言模型
19【AI大模型前沿】一键生成宫崎骏动画风,EasyControl Ghibli 让照片秒变吉卜力艺术品
20【AI大模型前沿】TxGemma:谷歌推出的高效药物研发大模型,临床试验预测准确率超90%
21【AI大模型前沿】F5R-TTS:腾讯推出TTS领域的新王者,又快又准又自然,零样本语音克隆新高度
22【AI大模型前沿】MiniMind-V:低成本打造超小多模态视觉语言模型(仅需1.3元人民币和1小时)
23【AI大模型前沿】MoCha:端到端对话角色视频生成模型、电影级对话角色合成黑科技、重新定义动画创作
24【AI大模型前沿】HuatuoGPT-o1-7B:中英文双语医学推理,打破语言障碍的AI大模型
25【AI大模型前沿】MedReason:大规模医学推理数据集、借用知识图谱将大模型打造成“医术”专家
26【AI大模型前沿】SkyReels-V2:昆仑万维开源的无限时长电影生成模型,开启视频生成新纪元
27【AI大模型前沿】Dia:Nari Labs开源16亿参数TTS模型,只需文本输入,生成媲美真人对话的语音
28【AI大模型前沿】阿里巴巴开源LHM:单图生成可动画3D人体模型,开启3D建模新纪元
29【AI大模型前沿】TinyLLaVA-Video-R1:北航开源视频推理模型、小尺寸大智慧、参数少一半,性能翻一番
30【AI大模型前沿】TTRL:测试时强化学习,开启无标签数据推理新篇章
31【AI大模型前沿】Aero-1-Audio:Qwen2.5架构加持,轻量级音频模型天花板、吊打Whisper
32【AI大模型前沿】DianJin-R1:阿里云通义点金联合苏大推出的金融推理增强大模型
33【AI大模型前沿】VITA-Audio:腾讯开源的高效语音交互多模态大语言模型
34【AI大模型前沿】Multiverse:全球首个AI多人游戏世界模型,低成本高效率新突破
35【AI大模型前沿】Seed1.5-VL:多模态理解的效率革新者,以小博大,性能惊艳
36【AI大模型前沿】ViLAMP:蚂蚁集团和人民大学联手打造的长视频理解利器,单卡处理3小时视频
37【AI大模型前沿】Muyan-TTS:开源零样本语音合成模型、0.33秒极速生成播客级语音、小白也能玩转AI配音
38【AI大模型前沿】Dolphin:字节跳动开源文档解析大模型,轻量级、高效、多格式,开启文档处理新时代
39【AI大模型前沿】ChatTS:字节跳动联合清华大学开源、多模态时序大模型助力时序数据对话与推理
40【AI大模型前沿】Index-AniSora:B站开源的动漫视频生成模型,助力高效创作
41【AI大模型前沿】RelightVid:上海 AI Lab联合复旦等高校推出的视频重照明模型
42【AI大模型前沿】BAGEL:字节跳动开源、多模态大模型的创新突破与实践指南
43【AI大模型前沿】Matrix-Game:昆仑万维开源大模型,一键生成你的专属虚拟世界
44【AI大模型前沿】Pixel Reasoner:滑铁卢联合港科大等高校推出的视觉语言模型,助力视觉推理新突破
45【AI大模型前沿】CoGenAV:多模态语音表征新范式、通义联合深技大打造、噪声环境WER降低70%+


前言

在人工智能领域,语音识别和处理一直是研究热点。然而,传统的语音识别系统在复杂环境下的表现往往不尽如人意,尤其是在高噪声或多人说话的场景中。近年来,多模态学习逐渐成为解决这一问题的关键。通义联合深圳技术大学推出的CoGenAV模型,通过融合音频和视觉信息,为语音识别和处理带来了新的突破。
在这里插入图片描述

一、项目概述

CoGenAV(Contrastive-Generative Audio-Visual Representation Learning)是由通义联合深圳技术大学共同开发的多模态学习模型,专注于音频和视觉信号的对齐与融合。该模型通过对比特征对齐和生成文本预测的双重目标进行训练,利用同步音频、视频和文本数据,学习捕捉时间对应关系和语义信息。CoGenAV仅需223小时的标记数据即可训练,展现出极高的数据效率,并在多种语音处理任务中表现出色。
在这里插入图片描述

二、技术原理

(一)特征提取

CoGenAV采用ResNet3D CNN分析视频中说话人的唇部动作,捕捉声音与口型之间的动态关联。同时,使用Transformer编码器从音频中提取语音信息,将音视频特征精确对齐。

(二)对比同步

CoGenAV采用Seq2Seq Contrastive Learning方法,通过最大化音频和视频特征之间的余弦相似性,增强两者之间的对应关系。引入ReLU激活函数过滤干扰帧,提升模型在复杂环境下的稳定性。

(三)生成同步

借助预训练的ASR模型(如Whisper),将音视频特征与其声学-文本表示对齐。通过设计轻量级适配模块(Delta Upsampler + GatedFFN MHA),有效提升跨模态融合效率。

三、主要功能

(一)音频视觉语音识别(AVSR)

CoGenAV 能够将音频和视觉信息(如说话者的嘴部动作)相结合,从而提高语音识别的准确率。在嘈杂的环境中,这种方法尤其有效,因为它可以利用视觉线索来补充音频信息,使得语音识别更加准确。

(二)视觉语音识别(VSR)

在某些特殊情况下,如在嘈杂的环境中或者当音频信号不可用时,CoGenAV 可以仅使用视觉信息(如说话者的嘴部动作)进行语音识别。这项功能拓展了语音识别的应用场景,使得在没有音频输入的情况下也能进行一定程度的语音识别。

(三)噪声环境下的语音处理

面对高噪声环境,CoGenAV 通过融合视觉信息辅助音频信号,提高语音处理的鲁棒性。视觉信息能够为语音处理提供额外的上下文,帮助模型更好地理解语音内容,减少噪声的干扰。

(四)语音重建与增强

CoGenAV 还可以用于语音重建和增强任务。通过多模态信息融合,它能够改善语音质量,使得语音更加清晰、自然。这对于语音通信、语音助手等应用具有重要意义,可以提升用户体验。

(五)主动说话人检测(ASD)

通过分析音频和视觉信号,CoGenAV 能够检测当前正在说话的人。这对于多说话人的场景,如会议、访谈等,具有重要的应用价值。它可以自动识别出正在说话的人,为后续的语音处理和分析提供基础。

四、应用场景

(一)智能助手与机器人

CoGenAV 的多模态表征可以集成到智能助手和机器人中。在复杂环境中,例如在嘈杂的工厂车间,CoGenAV 能够更好地理解和响应语音指令。它可以通过分析说话者的嘴部动作和语音信号,准确地识别出指令内容,从而实现更加自然、高效的人机交互。

(二)视频内容分析

CoGenAV 在视频内容分析和理解方面具有广泛的应用前景。通过分析视频中的音频和视觉信息,CoGenAV 可以为视频生成更准确的字幕。这对于听障人士或者在嘈杂环境中观看视频的用户来说是一个巨大的福音。同时,CoGenAV 还可以用于内容推荐系统。根据视频中的语音内容和视觉信息,为用户推荐更加符合其兴趣的视频。例如,在一个视频平台上,CoGenAV 可以分析用户观看的视频中的主题、情感等信息,然后推荐类似的视频,提高用户的观看体验。

(三)工业应用

在工业环境中,CoGenAV 可以用于语音控制设备和语音监控等场景。例如,在一个繁忙的工厂车间,工人可以通过语音指令控制设备的运行,而 CoGenAV 可以通过多模态信息融合提高语音控制的准确性和鲁棒性。同时,在工业监控方面,CoGenAV 可以对工厂内的语音和视频信息进行实时分析,及时发现异常情况并发出警报,提高生产的安全性和效率。

(四)医疗健康

CoGenAV 在医疗设备中的语音交互方面具有重要的应用价值。例如,智能医疗助手可以通过 CoGenAV 更好地理解医护人员或患者的语音指令,从而提供更加准确的服务。此外,在语音控制的医疗设备中,CoGenAV 可以提高语音控制的可靠性,减少误操作的风险。例如,在手术室中,医生可以通过语音指令控制设备的参数设置,而 CoGenAV 可以确保语音指令的准确识别,提高手术的安全性和效率。

五、快速使用

(一)环境准备

安装必要的依赖库,确保Whisper和fairseq已正确安装:

pip install -r requirements.txt
pip install -U openai-whisper
git clone https://github.com/pytorch/fairseq
cd fairseq
pip install --editable ./

(二)推理实践

音频视觉语音识别(AVSR)

import whisper
from whisper.model import AudioEncoder
from infer_vsr_avsr import cogenav_forward
from models.cogenav import CoGenAV

# 加载CoGenAV模型
cogenav = CoGenAV(cfg_file="config/base.yaml", model_tensor="weights/base_cogenav.pt")
# 加载Whisper模型作为SR头
SR_Head = whisper.load_model("small", download_root="weights/whisper/")
SR_Head.encoder.adapter = cogenav.adapter.half()

# 准备输入数据
input_ids = cogenav(video, audio).permute(0, 2, 1)  # 音频和视频输入
# 使用Whisper模型进行解码
result = whisper.decode(SR_Head, input_ids, options)[0]
  1. 音频视觉语音分离(AVSS)
from models.cogenav import CoGenAV
from models.sepformer import build_Sepformer

# 加载CoGenAV模型
cogenav = CoGenAV(cfg_file="config/base.yaml", model_tensor="weights/base_cogenav.pt")
# 加载Sepformer模型作为分离头
sepformer_head = build_Sepformer().cuda()

# 使用唇部特征分离目标语音
lip_feature = cogenav(video, None, use_upsampler=False)
sep_wav = sepformer_head.forward(audio_mix, lip_feature)

(三)运行脚本

使用以下命令运行推理脚本:

python infer_vsr_avsr.py --input_type cogenav_av --model_size large --cogenav_ckpt weights/large_cogenav.pt
python infer_avse_avss.py --task_type avse

六、结语

CoGenAV作为一款先进的多模态语音表征模型,通过融合音频和视觉信息,显著提升了语音识别和处理的性能。其在多种任务中的出色表现,展示了多模态学习在语音领域的巨大潜力。未来,随着技术的进一步发展,CoGenAV有望在更多场景中发挥重要作用。

七、项目地址

  • 技术论文:https://arxiv.org/pdf/2505.03186
  • 开源仓库:https://github.com/HumanMLLM/CoGenAV

在这里插入图片描述

🎯🔖更多专栏系列文章:AI大模型提示工程完全指南AI大模型探索之路(零基础入门)AI大模型预训练微调进阶AI大模型开源精选实践AI大模型RAG应用探索实践🔥🔥🔥 其他专栏可以查看博客主页📑

😎 作者介绍:资深程序老猿,从业10年+、互联网系统架构师,目前专注于AIGC的探索(CSDN博客之星|AIGC领域优质创作者)
📖专属社群:欢迎关注【小兵的AI视界】公众号或扫描下方👇二维码,回复‘入群’ 即刻上车,获取邀请链接。
💘领取三大专属福利:1️⃣免费赠送AI+编程📚500本,2️⃣AI技术教程副业资料1套,3️⃣DeepSeek资料教程1套🔥(限前500人)
如果文章内容对您有所触动,别忘了点赞、⭐关注,收藏!加入我们,一起携手同行AI的探索之旅,开启智能时代的大门!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

寻道AI小兵

🐳 感谢你的巨浪支持!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值