微软研究院今日在GitHub上正式开源了名为“VibeVoice”的前沿语音AI模型家族,瞬间引爆开发者社区,不到12小时便斩获2.7万个Star。VibeVoice的核心突破在于其能够单次处理长达90分钟的超长音频,并实现精准的多说话人识别(Diarization)与转录。
在过去的语音模型中,长音频的处理往往伴随着上下文丢失或说话人混淆的问题。VibeVoice采用了创新的长程注意力机制(Long-range Attention)以及全新的神经解耦技术,能够自动捕捉每个说话人的特征谱。实测数据显示,在复杂的圆桌会议场景中,其说话人识别准确率达到了惊人的98.5%,远超现有的开源同类模型。
微软此次开源不仅提供了预训练模型,还包含了完整的微调工具链。开发者可以根据自身需求,对特定口音或专业领域词汇进行快速适配。微软表示,VibeVoice旨在降低企业构建智能化会议系统、播客分析工具以及长视频自动字幕生成的门槛。目前,该项目已支持包括中文、英文、西班牙语在内的30余种主流语言。

