Cohere于2026年3月26日发布其最新的开源自动语音识别(ASR)模型Transcribe,宣称其在真实场景下的词错误率(WER)仅为5.42%,目前在HuggingFace Open ASR Leaderboard上排名第一,超越OpenAI的Whisper Large v3、ElevenLabs Scribe v2等闭源和开源模型。该模型基于Conformer架构,参数规模达20亿,支持包括英语、中文、阿拉伯语在内的14种语言,标志着企业在高精度语音识别领域迈出关键一步。
Key Details
Transcribe模型从零开始训练,专注于在实际使用条件下最小化词错误率,而非仅追求实验室性能。根据Cohere提供的数据,其在多个权威数据集上表现优异,例如在AMI(会议录音)数据集上WER为8.13%,在Voxpopuli(多口音)数据集上低至5.87%,显示出对复杂语音环境、多说话人及口音差异的强鲁棒性。与竞争对手相比,Transcribe不仅在基准测试中领先,还在人工评估中获得更高偏好评分,尤其在语义保真度、命名实体识别和格式准确性方面表现突出。
"我们对Cohere在Transcribe上取得的成果印象深刻。速度极快——几分钟的音频几秒内即可转录,立即为实时产品打开了新可能," Radical Ventures副总裁Paige Dickie表示。
该模型提供两种部署方式:一是通过Hugging Face免费下载,支持本地或边缘设备运行;二是通过Cohere的Model Vault平台进行私有化、低延迟云端推理,适用于企业级生产环境。Model Vault按实例小时计费,长期使用可享折扣,满足不同规模企业的部署需求。
What This Means
Cohere此次发布不仅是技术突破,更反映出AI基础设施向企业深度集成的趋势。随着语音成为AI工作流的核心输入方式,高精度、可控性强的ASR模型对会议记录、客户服务、合规审计等场景至关重要。Transcribe采用Apache 2.0许可,允许企业完全掌控数据与模型,契合金融、医疗等对数据主权敏感的行业需求,与OpenAI等闭源方案形成差异化竞争。
此前,主流ASR模型如Whisper虽开源但优化不足,而企业级方案常受限于成本与数据外泄风险。Transcribe在精度、效率与可控性之间取得平衡,或将加速语音智能在企业中的普及。未来,Cohere计划将其与旗下AI代理编排平台North深度整合,推动从“转录”向“语音智能”的演进,实现语义理解、实时决策等更高阶功能。
随着全球多语言AI需求上升,支持14种语言的Transcribe具备显著国际化潜力。其在中文、阿拉伯语等非拉丁语系语言上的表现,可能为跨国企业与本地化服务提供新工具。语音识别正从辅助功能转变为AI交互的基础设施,Cohere的入场或将重塑开源ASR生态格局。