亚马逊推出Nova Sonic：语音AI模型加入竞争_亚马逊ova sonic 模型接入-CSDN博客

当人工智能感知到你语音中的沮丧或喜悦时会发生什么？

亚马逊新推出的名为Nova Sonic的语音到语音AI模型，整合了语音识别和生成功能，可实现更自然的语音交互。这是该西雅图科技巨头为了与谷歌、OpenAI等公司竞争，在开发类人智能方面所做的更广泛努力的一部分。

亚马逊表示，Nova Sonic的一大进步在于能够识别语音语调，从而适应用户的说话风格和情绪。例如，对于愤怒的客户服务来电，系统可能会以平静稳定的语音回应；而对于听起来兴奋的用户，则可能给出更加活跃的回应。

亚马逊人工通用智能高级副总裁Rohit Prasad表示："我认为智能与上下文是密不可分的。"他领导着公司最先进AI技术的核心团队。他举例说明："如果你对夏威夷感到兴奋，它也会表现得很兴奋。如果你不感兴趣，它就会建议其他目的地。"

Nova Sonic将通过亚马逊的Bedrock服务向第三方开发者开放。亚马逊已经在内部产品中使用了该模型的部分组件，包括最近发布的Alexa+语音助手。

与传统语音系统将语音识别、语言处理和文本转语音等模型分开的做法不同，Nova Sonic在单一架构中集成了这三个功能。

亚马逊表示，这种集成使模型能够保留对话的完整上下文——包括语调、节奏和意图，从而使交互更加自然和灵敏。

它还可以在对话过程中执行操作，如查找航班选项或检查账户，而不会中断交互流程。

亚马逊正通过一个为实时语音应用设计的新流媒体API提供Nova Sonic服务。目前支持英语，并提供几种不同的声音和口音。亚马逊表示正在努力支持更多语言。

随着各公司竞相开发更像人类的数字助手，Nova Sonic加入了日益扩大的语音和多模态AI模型阵营。OpenAI最近推出了自己的实时语音模型GPT-4o，而谷歌则为其Gemini助手添加了会话语音功能。

根据测试结果，亚马逊表示Nova Sonic在速度和成本方面优于竞争对手，具有更低的延迟和更好的定价。

例如，亚马逊称Nova Sonic的平均响应时间仅略超过一秒——根据研究机构Artificial Analysis的测试，这比OpenAI的GPT-4o和谷歌的Gemini Flash 2.0都要快。该公司表示，在实时语音交互方面，Nova Sonic的使用成本比GPT-4o低近80%。

曾任Alexa首席科学家的Prasad现在负责亚马逊的AGI（通用人工智能）团队，直接向亚马逊CEO Andy Jassy汇报。

Prasad在采访中表示，长期目标是创建能处理任何类型输入并以最自然方式响应的统一模型——实现人工通用智能中"通用"的特性。

"我认为这实际上是在将人类和机器的能力融合在一起，"Prasad谈到AGI计划时说，"这就是为什么这项工作如此重要。"

他称Nova Sonic在这个方向上迈出了"巨大的一步"。

目前正在测试Nova Sonic的公司包括：将其用于客户服务电话的ASAPP、将其应用于语言学习工具的Education First，以及使用它通过语音提供实时体育资讯的Stats Perform。

亚马逊表示，Nova Sonic的设计可以与企业系统集成，访问价格、库存或时间表等实时信息。该模型还可以在对话过程中执行任务，包括预订或提供替代选项。

Nova Sonic是亚马逊Nova系列AI模型的最新成员，该系列由Jassy在12月的AWS re:Invent大会上推出，包含用于生成和理解文本、图像和视频的AI。这紧随亚马逊最近发布的用于构建基于网络的AI代理的Nova Act研究预览版之后。