blog
2025-08-21

百度蒸汽机视频生成大模型升级2.0版本,价格低

《凤凰WEEKLY财经》获悉,8月21日,百度蒸汽机(MuseSteamer)音视频一体化模型完成重大升级,在行业内首次实现多人有声视频一体化生成。其Turbo版、Lite版、Pro版及全系有声版全面开放,用户可通过百度搜索“百度蒸汽机”或登录“绘想”平台体验,企业用户可在千帆平台享受高性能视频生成服务。

据介绍,百度蒸汽机是全球首个中文音视频一体化生成的I2V模型,不仅支持环境音效,更支持多角色语音的一体化生成。百度蒸汽机2.0有声版模型让AIGC视频创作彻底告别了配音,创作者只需要一张图和提示词。

国际知名视效指导姚骐使用百度蒸汽机模型制作了科幻短片《归途》后表示,“它让好莱坞级大片镜头不再需要百万预算。”据他介绍,该作品共有40多个镜头,每个镜头生成3次,共用AI生成超120个片段素材,成本低至百元。

百度同时表示,该系列大模型已经在百度搜索、营销等多个场景落地应用,针对不同需求用户,平台提供了梯度会员服务,价格低至行业同类产品的70%。

百度商业研发首席架构师李双龙对《凤凰WEEKLY财经》透露,在百度蒸汽机研发过程中,主要面临两大核心技术难点:一方面,由于需要实现“生成与应用一体化”,且要适配多角色场景,如何构建有效的规划机制,将多角色的语音、动作与声音进行精准匹配和统筹协调,确保整体呈现的一致性与流畅性,是首要攻克的难题;另一方面,鉴于产品采用一体化生成模式,整个流程并非将模型拆分为多个独立环节分步处理,而是通过端到端的技术路径完成,因此如何在该技术路径下实现高效渲染并保障最终效果,成为了另一关键挑战。

而在需求收集过程中,百度也发现,除质量外,成本是用户核心关切点。百度副总裁、移动生态商业体系负责人陈一凡表示,若成本居高不下,用户接受度低,质量优势也难以落地。因此,团队在模型训练阶段便注重成本控制。依托在 GPU 计算领域的深厚积累,团队通过调整训练集、优化相关流程等大量工作,实现了效率提升。相较于上一代更侧重算法策略的思路,本次充分发挥商业团队在大模型工程领域的丰富经验,仅用几十天便同步达成质量提升与成本降低,更好满足用户需求。

来源于:https://www.163.com/dy/article/K7GVD65F0531SC48.html    如有侵权请联系我们