每日AI快讯 | 微软开源语音AI家族VibeVoice：支持90分钟超长语音多说话人解析

发布时间： 2026-03-31 文章分类： AI快讯

阅读量： 0

微软研究院今日在GitHub上正式开源了名为“VibeVoice”的前沿语音AI模型家族，瞬间引爆开发者社区，不到12小时便斩获2.7万个Star。VibeVoice的核心突破在于其能够单次处理长达90分钟的超长音频，并实现精准的多说话人识别（Diarization）与转录。

在过去的语音模型中，长音频的处理往往伴随着上下文丢失或说话人混淆的问题。VibeVoice采用了创新的长程注意力机制（Long-range Attention）以及全新的神经解耦技术，能够自动捕捉每个说话人的特征谱。实测数据显示，在复杂的圆桌会议场景中，其说话人识别准确率达到了惊人的98.5%，远超现有的开源同类模型。

微软此次开源不仅提供了预训练模型，还包含了完整的微调工具链。开发者可以根据自身需求，对特定口音或专业领域词汇进行快速适配。微软表示，VibeVoice旨在降低企业构建智能化会议系统、播客分析工具以及长视频自动字幕生成的门槛。目前，该项目已支持包括中文、英文、西班牙语在内的30余种主流语言。

点赞 | 16

Lumevalley——全栈AI服务领航者，以“战略-应用-算力”三位一体服务框架，为企业提供从顶层战略规划、场景化AI智能体（AI Agent）开发/搭建/部署，到企业级AI应用开发、AI+行业场景解决方案的全链路服务，并配套AI大模型部署与高性能AI算力底座支撑，助力客户在营销、服务、运营等核心环节实现效率倍增与模式创新。