
IT之家 8 月 27 日消息,科技媒体 marktechpost 于 8 月 25 日发布博文,报道称微软发布开源文本转语音(TTS)模型 VibeVoice-1.5B,可一次生成最长 90 分钟、最多 4 位不同说话者的自然语音,并支持跨语言及歌声合成。
在架构方面,VibeVoice-1.5B 基于 1.5B 参数的 Qwen2.5 语言模型,结合声学(Acoustic)与语义(Semantic)双分词器(Tokenizer),以 7.5Hz 低帧率处理。
声学分词器使用 σ-VAE 结构,将 24kHz 原始音频压缩至 3200 分之一;语义分词器则通过语音识别代理任务训练,保留对话语义。解码端采用 1.23 亿参数的扩散解码器,结合分类器自由引导和 DPM-Solver,来提升音质与细节表现。
该模型为确保在长篇对话中保持语音连贯性与说话人一致性,在训练中逐步扩展上下文长度,从 4k 至 65k Tokens,其架构支持多说话者的轮流发言,模拟自然对话场景,且可在流式模式下生成长音频,为未来实时 TTS 奠定基础。
VibeVoice-1.5B 也有局限,目前仅支持英语与中文,其他语言可能出现不准确或不当内容;不支持说话人语音重叠,也无法生成背景音效或音乐。微软明确禁止将该模型用于声音冒充、虚假信息传播或绕过身份验证等用途,并提醒用户遵守法律并标明 AI 生成来源。
微软表示,该模型主要面向科研和开发者社区,适合播客制作、对话式 AI、语音内容生成等领域。未来将推出参数更大的 7B 版本,支持低延迟交互和更高保真度的实时合成,进一步拓展应用场景。
IT之家附上参考地址
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。
猜你喜欢

IEM成都站直邀战队名单正式公布
所有参赛战队都是根据截止至2025年8月4日的Valve地区排名(VRS)而获得邀请的。这16支队伍将分成2组进行双败淘汰赛,每组...
READ MORE
官宣:Spirit将参加FISSURE裂...
FISSURE裂变天地S2将于9月12日至9月21日进行,16支参赛队伍将在塞尔维亚的贝尔格莱德展开角逐,争夺125万美元的奖金池,其...
READ MORE
BLAST伦敦公开赛参赛战队、赛程等一览
BLAST伦敦公开赛将以一场16支战队参与的线上小组赛开始,比赛定于8月27日至9月1日进行。战队已被分为两个小组,每个小组将有三个...
READ MORE

新技术可对废塑料进行无害化处理
俄罗斯国立卡巴尔达—巴尔卡尔大学等机构的研究人员日前报告说,其团队正在开发通过充分燃烧和中和有毒气体,对聚乙烯废料进行无害化处理的新技术并获得进展。研究人员...
READ MORE最新发布
-
IEM成都站直邀战队名单正式公布
综合新闻, 2025-08-27 -
官宣:Spirit将参加FISSURE裂变天地S2赛事签名会
综合新闻, 2025-08-27 -
BLAST伦敦公开赛参赛战队、赛程等一览
综合新闻, 2025-08-27 -
CS更新0827:刀具动画效果优化
综合新闻, 2025-08-27 -
新技术可对废塑料进行无害化处理
综合新闻, 2025-08-27
热门
-
IEM成都站直邀战队名单正式公布
- 作者
- 2025-08-27
-
官宣:Spirit将参加FISSURE裂...
- 作者
- 2025-08-27
-
BLAST伦敦公开赛参赛战队、赛程等一览
- 作者
- 2025-08-27
-
CS更新0827:刀具动画效果优化
- 作者
- 2025-08-27
-
新技术可对废塑料进行无害化处理
- 作者
- 2025-08-27
-
IEM成都站直邀战队名单正式公布
- 作者
- 2025-08-27
-
官宣:Spirit将参加FISSURE裂...
- 作者
- 2025-08-27
-
BLAST伦敦公开赛参赛战队、赛程等一览
- 作者
- 2025-08-27
-
CS更新0827:刀具动画效果优化
- 作者
- 2025-08-27
-
新技术可对废塑料进行无害化处理
- 作者
- 2025-08-27