国内厂商语音识别与Whisper评测：现状与概况对比

随着人工智能技术的飞速发展，语音识别已经成为了现代社会中一个重要的研究领域。语音识别技术不仅可以应用于智能助手、语音控制、自动化客服等领域，还有望为残障人士提供更便捷的沟通工具。国内的科技企业在语音识别领域也在不断迭代和创新，其中不乏一些具有竞争力的语音识别技术，如讯飞、百度、阿里巴巴等，这些厂商的技术在一定程度上已经接近或达到了国际领先水平。同时，Whisper（飞思卡尔语音识别技术）作为一项国际上也备受关注的语音识别技术，在语音识别领域也有着广泛的应用。Whisper技术在噪声环境下依然能够准确识别并理解语音指令，因此在汽车、智能家居等领域有着广泛的应用前景。本文旨在通过对国内几家主要厂商的语音识别技术与 Whisper 技术进行评测和对比，以期更全面地了解国内语音识别技术的现状与概况。通过对技术性能、准确度、适应性等方面的对比，帮助读者更好地认识到语音识别技术的发展趋势和应用前景。

一、语音识别现状

二、评测意义与预期成果

三、评测方案

四、评测结果

一、语音识别现状

得益于近年来深度学习技术的快速发展，人工智能的主要分支(图像、语音、自然语言处理等)都相继进入了大规模落地应用阶段。梳理市场上的语音产品及服务，我们可以看到，其中既包括国际巨头:

· Google：Google Cloud语音API、 Google Home、音箱、Google移动端、网页端语音搜索

· Amazon：Alexa平台、Echo智能音箱

· Apple：Siri语音助手，HomePod智能音箱

· Microsoft：Azure平台感知服务语音API、Cortana智能助理

· Nuance：医疗、车载、智能硬件等垂直领域语音解决方案

也包括国内的大牌企业:

· 阿里巴巴：阿里云平台语音服务、天猫精灵

· 腾讯：腾讯云平台语音服务、微信、王者荣耀语音转文字

· 百度：AIl开放平台、智能云、语音搜索、地图、小度音响、语音输入法

· 科大讯飞：讯飞语音云、语音输入法、讯飞听见

· 小米：小爱开放平台、小爱音箱、电视语音控制

· 搜狗：知音平台、语音输入法、翻译机、录音笔
除此之外还有思必驰、出门问问、云知声、声智、地平线、依图等诸多的创业公司在探索语音技术的应用市场。

二、评测意义与预期成果

语音识别（speech recognition）技术，也被称为自动语音识别（Automatic Speech Recognition, ASR）、电脑语音识别（Computer Speech Recognition）或语音转文本识别（Speech To Text, STT），其目标是以电脑自动将人类的语音内容转换为相应的文字。与说话人识别（Speaker recognition）及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

语音识别，也就是我们常说的“语音转文字”功能，已经悄然进入到人们的生产和生活中。面对上述如此之多的产品和服务，我们会很自然的产生疑问: “哪家的语音识别技术比较领先，识别准确率比较好?” 这是一个难以回答的问题。

· 第一：从近年来各家公司发布的令人眼花缭乱的宣传报告中，我们很难提取出足够的可靠信息做出判断；

· 第二：实际上，如果说这个问题真的存在正确答案的话，那应该是“没有正确答案”。

于是本次评测的意义就有了。本文将从客观的角度出发，深入分析国内几家主要厂商的语音识别技术与Whisper技术在不同方面的性能，旨在为读者提供一个全面的语音识别技术现状和概况。通过对比与评测，读者将能够更好地认识到各技术的优劣势，为他们在实际应用中做出明智的选择提供参考。同时，本文也有助于推动国内语音识别技术的发展，促进技术创新和产业升级。

通过深入研究和对比分析，我们有望更全面地认识到语音识别技术的现状和概况，为技术研究、应用开发以及产业发展提供有益的指导和参考。

三、评测方案

测试方案：全厂商 × 全场景
厂商：微软、腾讯、讯飞、阿里、百度、依图、OpenAI、思必驰

本次评测的开源数据集总共有18种，具体如下：

评测方法与指标

常用一系列客观的评测方法和指标，包括但不限于以下几个方面：

· 技术性能：对各厂商的语音识别技术进行性能测试，包括识别速度、实时性、延迟等方面的评估。

· 准确度：在不同语境和场景下，对语音识别结果进行对比分析，以验证各厂商技术在准确度方面的优劣。

· 噪声环境适应性：通过模拟不同噪声环境，评估各技术在复杂背景噪声下的表现。

· 语音多样性：使用不同口音、方言、语速等条件进行测试，探究各技术在语音多样性方面的表现。

· 应用场景适应性：结合智能家居、汽车导航等具体应用场景，分析各技术在不同场景下的适应性。

常用度量指标

1. WER（Word Error Rate 词错率，常用于英文识别）

1. CER（ Character Error Rate 字错率，常用于中文识别）将语音识别的输出字符序列与正确的字符序列进行比较，结果以 S（substitution）表示替换的字符数目, D（deletion）表示删除的字符数目，I（insertion）表示插入的字符数目，N 表示参考序列中字符总数来计算WER和CER。计算公式：

1. 响应速度、延迟识别的速度与准确率，在一定区间存在相互制约的关系。耗费更多的计算资源总是可以换取一定的准确率提升。在这里，我们假设各家的公共识别服务已经选取了相对合适的操作点,即保证了对外服务的准确率，也兼顾了其背后的服务成本。同时，速度、延迟等指标还会受到服务外围工程实现、客户端网络条件、服务端负载等因素影响。所以本次更侧重对准确率的评测，短期内不会在评测中加入速度、延迟等指标。

四、评测结果

· Whisper原始模型字错率测试结果

· 微调Whisper后字错率测试结果

· 未加速和加速后的推理速度测试结果（GPU为A100）

重要说明： 在评估的时候移除模型输出的标点符号，并把繁体中文转成简体中文。aishell_test为AIShell的测试集， RTF= 所有音频总时间(单位秒) / ASR识别所有音频处理时间(单位秒)。测试速度的音频为dataset/test.wav，时长为8秒。训练数据使用的是带标点符号的数据，字错率会上升。

部分关注厂商评测结果

不同厂商在不同场景下的ASR评测结果

总结：本次主角 OpenAI 开源的 Whisper 模型(large-v2) 进行了全面的中文ASR测试，具体结果见上面对比图。中文识别作为 whisper 模型的支持的语种之一，在开源的 SpeechIO 评测集上，准确率已经超越了百度的付费商用服务，但目前看 Whisper 的中文准确率仍略低于其它头部厂商。

https://mp.weixin.qq.com/s/yCNbfeQ9z4uFPGZcYnwoug