百度蒸汽机(MuseSteamer)音视频一体化模型完成重大升级,Turbo 版、Lite 版、Pro 版及有声版全面开放,首次实现多人有声音视频一体化生成,为 AI 视频领域开辟新赛道。
百度蒸汽机_百度百科(1)
作为全球首个中文音视频一体化生成的 I2V 模型,2.0 版本的突破在于对底层架构的重塑。其多人有声视频技术,实现了复杂场景下语音与唇形、表情动作的毫秒级对齐,融合动作捕捉、语音识别合成等技术,大幅提升真实感。
视频+语音AIGC新体验
百度在功能性上做了很大的提升,百度蒸汽机2.0本次搭载了首创的多模态潜在空间规划技术,能自主协调多角色身份、情感与互动逻辑。如多人办公室对话场景,模型可依据角色职位、性格及对话内容,生成匹配的肢体语言与语音语调,保障叙事连贯性。
画质上,端到端电影级生成理念精准刻画主体动态,人物发丝飘动、皮肤质感等细节清晰,动作轨迹符合物理规律,带来极致视觉体验。大师级运镜控制内置推、拉、摇等数十种镜头语言,能精准响应文本指令,将创意视觉化。
成本层面,技术突破颠覆传统模式。国际视效指导姚骐用其制作的科幻短片《归途》,40 多个镜头生成超 120 个片段,成本仅百元,远低于传统制作费用。一汽 - 大众揽境的七夕营销视频、伊利倍畅的品牌宣传片,均通过该技术压缩周期、降低成本,实现创意高效呈现,兼顾内容与营销属性。
实际体验
让我们一起来看看实际使用效果吧:
百度蒸汽机测试
官方创作案例
官方宣传的视频里可见可生成视频类型非常多样,人物之间的对话、动作、神态都非常的稳定,只需配合简单的提示语就可以生成很好的效果,但可生成时长只有5或10秒,来看看小编实际个人生成效果:
绘想有声视频_20250822153131
小编个人创作案例
小编个人使用下来发现,视频生成的质量和官方宣传片中的接近,个人体验感受:
画面:人物和场景保持的非常好,没有明显的变形崩坏,而且在表情动态上赋予了人物很自然的情绪,但使用中发现如果提示词文本过长,人物会出现崩坏的情况;
音频:人物语音节奏很自然,但音色会有股AI味,背景配音是让我比较惊喜的一部分,背景的风声、鸟叫都非常的真实而且与画面动态对齐且符合逻辑;
总体来说生成效果是不错的,相比于以往市面上的同类产品,提升最明显的莫过于视频+语音一体化生成的模式,再加上大师级运镜优化,接近一键生成电影片段的体验,但可惜的是在体验过程中,大部分时候都因为生成时长的限制,效果和内容量都大打折扣。
或成未来主流趋势
当今越来越多AI电影项目出现在网络上,各大厂商也在举办各种AI电影的制作大赛,可见音视频一体化生成已是AIGC发展的一大趋势,未来也许会做到输入一段文字给AI就能生成出音效震撼、画面出彩的电影。