当下开源的语音大模型(最好是端到端)有哪些
Web-Search
Poe
当前开源的端到端语音大模型主要有以下几种:
Mini-Omni
这是全球首个开源的端到端实时语音多模态模型,支持语音输入和流式语音输出。Mini-Omni通过文本和语音的同时生成,降低了语音推理的难度,并且避免了传统模型在生成完整文本后再生成语音的延迟问题。该模型在使用较小参数(0.5B)和少量数据的情况下,表现出色,尤其在实时语音问答和语音识别方面[1]。
GLM-4-Voice
这是智谱推出的端到端语音模型,具备直接理解和生成中英文语音的能力。GLM-4-Voice支持情感表达、语速调节和实时打断,能够根据用户的指令灵活调整语音输出。该模型通过音频token的形式直接建模语音,避免了传统的ASR(语音识别)和TTS(语音合成)级联方案带来的信息损失[3]。
Megrez-3B-Omni
这是一个全模态理解的开源模型,能够处理图片、音频和文本数据。Megrez-3B-Omni在语音理解方面表现优异,支持中文和英文的语音输入,并能够处理复杂的多轮对话场景。该模型在多个基准测试中表现出色,推理速度比同精度模型快300%[2]。
这些模型的开源使得研究人员和开发者能够在多模态交互和语音理解领域进行更深入的探索和应用。
Learn more:
让大模型能听会说,国内机构开源全球首个端到端语音对话模型Mini-Omni | 机器之心
全球首个全模态理解开源端模型:长语音自动总结,图文音啥都会!300%推理速度领先,来自无问芯穹...-CSDN博客
GLM-4-Voice:智谱新一代端到端语音大模型,同步开源。 - 文章 - 开发者社区 - 火山引擎