Cohere发布开源语音识别模型Transcribe，准确率创纪录

Cohere于2026年3月26日发布其最新的开源自动语音识别（ASR）模型Transcribe，宣称其在真实场景下的词错误率（WER）仅为5.42%，目前在HuggingFace Open ASR Leaderboard上排名第一，超越OpenAI的Whisper Large v3、ElevenLabs Scribe v2等闭源和开源模型。该模型基于Conformer架构，参数规模达20亿，支持包括英语、中文、阿拉伯语在内的14种语言，标志着企业在高精度语音识别领域迈出关键一步。

Key Details

Transcribe模型从零开始训练，专注于在实际使用条件下最小化词错误率，而非仅追求实验室性能。根据Cohere提供的数据，其在多个权威数据集上表现优异，例如在AMI（会议录音）数据集上WER为8.13%，在Voxpopuli（多口音）数据集上低至5.87%，显示出对复杂语音环境、多说话人及口音差异的强鲁棒性。与竞争对手相比，Transcribe不仅在基准测试中领先，还在人工评估中获得更高偏好评分，尤其在语义保真度、命名实体识别和格式准确性方面表现突出。

"我们对Cohere在Transcribe上取得的成果印象深刻。速度极快——几分钟的音频几秒内即可转录，立即为实时产品打开了新可能，" Radical Ventures副总裁Paige Dickie表示。

该模型提供两种部署方式：一是通过Hugging Face免费下载，支持本地或边缘设备运行；二是通过Cohere的Model Vault平台进行私有化、低延迟云端推理，适用于企业级生产环境。Model Vault按实例小时计费，长期使用可享折扣，满足不同规模企业的部署需求。

What This Means

Cohere此次发布不仅是技术突破，更反映出AI基础设施向企业深度集成的趋势。随着语音成为AI工作流的核心输入方式，高精度、可控性强的ASR模型对会议记录、客户服务、合规审计等场景至关重要。Transcribe采用Apache 2.0许可，允许企业完全掌控数据与模型，契合金融、医疗等对数据主权敏感的行业需求，与OpenAI等闭源方案形成差异化竞争。

此前，主流ASR模型如Whisper虽开源但优化不足，而企业级方案常受限于成本与数据外泄风险。Transcribe在精度、效率与可控性之间取得平衡，或将加速语音智能在企业中的普及。未来，Cohere计划将其与旗下AI代理编排平台North深度整合，推动从“转录”向“语音智能”的演进，实现语义理解、实时决策等更高阶功能。

随着全球多语言AI需求上升，支持14种语言的Transcribe具备显著国际化潜力。其在中文、阿拉伯语等非拉丁语系语言上的表现，可能为跨国企业与本地化服务提供新工具。语音识别正从辅助功能转变为AI交互的基础设施，Cohere的入场或将重塑开源ASR生态格局。

Cohere发布开源语音识别模型Transcribe，准确率创纪录

评论

继续阅读

更多科技

最新消息

Cohere发布开源语音识别模型Transcribe，准确率创纪录

继续阅读

更多科技

墨西哥收紧智能手机进口限制，旨在遏制“灰色市场”

墨西哥移动电话实名登记告急：82.5% 用户面临逾期风险

非政府组织警告：电子游戏正取代墨西哥传统游戏模式

最新消息

墨西哥城历史中心珠宝商抗议：要求拆除围栏，恢复正常通行

圣地亚哥·涅托正式宣布将代表莫雷纳党角逐克雷塔罗州州长

辛鲍姆与约翰逊外交关系紧张，正值《美墨加协定》审查期