国内厂商语音识别与Whisper评测:现状与概况对比
AI魔法学院
2023-12-04
分享海报

随着人工智能技术的飞速发展,语音识别已经成为了现代社会中一个重要的研究领域。语音识别技术不仅可以应用于智能助手、语音控制、自动化客服等领域,还有望为残障人士提供更便捷的沟通工具。国内的科技企业在语音识别领域也在不断迭代和创新,其中不乏一些具有竞争力的语音识别技术,如讯飞、百度、阿里巴巴等,这些厂商的技术在一定程度上已经接近或达到了国际领先水平。同时,Whisper(飞思卡尔语音识别技术)作为一项国际上也备受关注的语音识别技术,在语音识别领域也有着广泛的应用。Whisper技术在噪声环境下依然能够准确识别并理解语音指令,因此在汽车、智能家居等领域有着广泛的应用前景。本文旨在通过对国内几家主要厂商的语音识别技术与 Whisper 技术进行评测和对比,以期更全面地了解国内语音识别技术的现状与概况。通过对技术性能、准确度、适应性等方面的对比,帮助读者更好地认识到语音识别技术的发展趋势和应用前景。

一、语音识别现状

二、评测意义与预期成果

三、评测方案

四、评测结果

一、语音识别现状

得益于近年来深度学习技术的快速发展,人工智能的主要分支(图像、语音、自然语言处理等)都相继进入了大规模落地应用阶段。梳理市场上的语音产品及服务,我们可以看到,其中既包括国际巨头:

·         GoogleGoogle Cloud语音API Google Home、音箱、Google移动端、网页端语音搜索

·         AmazonAlexa平台、Echo智能音箱

·         AppleSiri语音助手,HomePod智能音箱

·         MicrosoftAzure平台感知服务语音APICortana智能助理

·         Nuance:医疗、车载、智能硬件等垂直领域语音解决方案

也包括国内的大牌企业:

·         阿里巴巴:阿里云平台语音服务、天猫精灵

·         腾讯:腾讯云平台语音服务、微信、王者荣耀语音转文字

·         百度:AIl开放平台、智能云、语音搜索、地图、小度音响、语音输入法

·         科大讯飞:讯飞语音云、语音输入法、讯飞听见

·         小米:小爱开放平台、小爱音箱、电视语音控制

·         搜狗:知音平台、语音输入法、翻译机、录音笔
除此之外还有思必驰、出门问问、云知声、声智、地平线、依图等诸多的创业公司在探索语音技术的应用市场。

二、评测意义与预期成果

语音识别(speech recognition)技术,也被称为自动语音识别(Automatic Speech Recognition, ASR)、电脑语音识别(Computer Speech Recognition)或 语音转文本识别(Speech To Text, STT),其目标是以电脑自动将人类的语音内容转换为相应的文字。与说话人识别(Speaker recognition)及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

语音识别,也就是我们常说的语音转文字功能,已经悄然进入到人们的生产和生活中。面对上述如此之多的产品和服务,我们会很自然的产生疑问: 哪家的语音识别技术比较领先,识别准确率比较好?”这是一个难以回答的问题。

·         第一:从近年来各家公司发布的令人眼花缭乱的宣传报告中,我们很难提取出足够的可靠信息做出判断;

·         第二:实际上,如果说这个问题真的存在正确答案的话,那应该是没有正确答案

于是本次评测的意义就有了。本文将从客观的角度出发,深入分析国内几家主要厂商的语音识别技术与Whisper技术在不同方面的性能,旨在为读者提供一个全面的语音识别技术现状和概况。通过对比与评测,读者将能够更好地认识到各技术的优劣势,为他们在实际应用中做出明智的选择提供参考。同时,本文也有助于推动国内语音识别技术的发展,促进技术创新和产业升级。

通过深入研究和对比分析,我们有望更全面地认识到语音识别技术的现状和概况,为技术研究、应用开发以及产业发展提供有益的指导和参考。

三、评测方案

测试方案:全厂商 × 全场景
厂商:微软、腾讯、讯飞、阿里、百度、依图、OpenAI、思必驰

本次评测的开源数据集总共有18种,具体如下:

IMG_256

评测方法与指标

常用一系列客观的评测方法和指标,包括但不限于以下几个方面:

·         技术性能:对各厂商的语音识别技术进行性能测试,包括识别速度、实时性、延迟等方面的评估。

·         准确度:在不同语境和场景下,对语音识别结果进行对比分析,以验证各厂商技术在准确度方面的优劣。

·         噪声环境适应性:通过模拟不同噪声环境,评估各技术在复杂背景噪声下的表现。

·         语音多样性:使用不同口音、方言、语速等条件进行测试,探究各技术在语音多样性方面的表现。

·         应用场景适应性:结合智能家居、汽车导航等具体应用场景,分析各技术在不同场景下的适应性。

常用度量指标

·        

1.      WERWord Error Rate 词错率,常用于英文识别)

·        

1.      CER Character Error Rate 字错率,常用于中文识别) 将语音识别的输出字符序列与正确的字符序列进行比较,结果以 Ssubstitution) 表示替换的字符数目, Ddeletion)表示删除的字符数目,Iinsertion)表示插入的字符数目,N 表示参考序列中字符总数来计算WERCER。计算公式:

IMG_257

·        

1.      响应速度、延迟 识别的速度与准确率,在一定区间存在相互制约的关系。耗费更多的计算资源总是可以换取一定的准确率提升。在这里,我们假设各家的公共识别服务已经选取了相对合适的操作点,即保证了对外服务的准确率,也兼顾了其背后的服务成本。同时,速度、延迟等指标还会受到服务外围工程实现、客户端网络条件、服务端负载等因素影响。所以本次更侧重对准确率的评测,短期内不会在评测中加入速度、延迟等指标。

四、评测结果

·         Whisper原始模型字错率测试结果

·         微调Whisper后字错率测试结果

·         未加速和加速后的推理速度测试结果(GPUA100

IMG_260

重要说明:在评估的时候移除模型输出的标点符号,并把繁体中文转成简体中文。aishell_testAIShell的测试集, RTF= 所有音频总时间(单位秒) / ASR识别所有音频处理时间(单位秒)。测试速度的音频为dataset/test.wav,时长为8秒。训练数据使用的是带标点符号的数据,字错率会上升。

·        

部分关注厂商评测结果IMG_261

不同厂商在不同场景下的ASR评测结果IMG_262

·        

总结:本次主角 OpenAI 开源的 Whisper 模型(large-v2) 进行了全面的中文ASR测试,具体结果见上面对比图。中文识别作为 whisper 模型的支持的语种之一,在开源的 SpeechIO 评测集上,准确率已经超越了百度的付费商用服务,但目前看 Whisper 的中文准确率仍略低于其它头部厂商。

https://mp.weixin.qq.com/s/yCNbfeQ9z4uFPGZcYnwoug

© THE END

转载请联系本网站获得授权

投稿或版权问题请加微信:skillupvip