AI魔法学院客服
两天star量破千:OpenAI的Whisper被蒸馏后,语音识别数倍加速
前段时间,「霉霉大秀中文」的视频在各个社交媒体走红,随后又出现了「郭德纲大秀英语」等类似视频。这些视频很多都出自一个名叫「HeyGen」的 AI 应用之手。
 2024-03-20
收藏 复制地址分享海报

前段时间,「霉霉大秀中文」的视频在各个社交媒体走红,随后又出现了「郭德纲大秀英语」等类似视频。这些视频很多都出自一个名叫「HeyGen」的 AI 应用之手。


不过,从 HeyGen 现在的火爆程度来看,想用它制作类似视频可能要排很久。好在,这并不是唯一的制作方法。懂技术的小伙伴也可以寻找其他替代方案,比如语音转文字模型 Whisper、文字翻译 GPT、声音克隆 + 生成音频 so-vits-svc、生成符合音频的嘴型视频 GeneFace++dengdeng
其中,这个语音转文字的 Whisper 模型非常好用。Whisper  OpenAI 研发并开源的一个自动语音识别(ASRAutomatic Speech Recognition)模型,他们通过从网络上收集了 68 万小时的多语言(98 种语言)和多任务(multitask)监督数据对 Whisper 进行了训练。OpenAI 认为使用这样一个庞大而多样的数据集,可以提高模型对口音、背景噪音和技术术语的识别能力。除了可以用于语音识别,Whisper 还能实现多种语言的转录,以及将这些语言翻译成英语。目前,Whisper 已经有了很多变体,也成为很多 AI 应用构建时的必要组件。
最近,来自 HuggingFace 的团队提出了一种新变体 —— Distil-Whisper。这个变体是 Whisper 模型的蒸馏版,特点是模型小、速度快,而且准确度还很高,非常适合在要求低延迟或资源有限的环境中运行。不过,与能够处理多种语言的原始 Whisper 模型不同,Distil-Whisper 只能处理英文。

IMG_256


论文地址:https://arxiv.org/pdf/2311.00430.pdf
具体来说,Distil-Whisper 有两个版本,参数量分别为 756Mdistil-large-v2)和 394Mdistil-medium.en)。
OpenAI Whisper-large-v2 相比,756M 版本的 distil-large-v2 参数量减少了一半还多,但实现了 6 倍的加速,而且在准确程度上非常接近 Whisper-large-v2,在短音频的 Word Error RateWER)这个指标上相差在 1% 以内,甚至在长音频上优于 Whisper-large-v2。这是因为通过仔细的数据选择和过滤,Whisper 的稳健性得以保持,幻觉得以减少。

IMG_257

IMG_258

网页版WhisperDistil-Whisper速度的直观对比。图源:https://twitter.com/xenovacom/status/1720460890560975103

所以,虽然刚刚发布两三天,Distil-Whisper star 量已经破千。

IMG_259

·         项目地址:https://github.com/huggingface/distil-whisper#1-usage

·         模型地址:https://huggingface.co/models?other=arxiv:2311.00430


此外,有项测试结果表明,在处理 150 分钟的音频时,Distil-Whisper 的速度可以达到 Faster-Whisper 2.5 倍。

IMG_260

IMG_261


测试链接:https://github.com/Vaibhavs10/insanely-fast-whisper#insanely-fast-whisper
那么,这么好的结果是怎么实现的呢?作者在论文中表示,他们利用伪标签技术构建了一个大规模开源数据集,然后利用这个数据集将 Whisper 模型蒸馏成了 Distil-Whisper。利用简单的 WER 启发式,他们只选择质量最高的伪标签进行训练。
下图 1 展示了 Distil-Whisper 的架构。研究者通过从教师模型中复制整个编码器来初始化学生模型,并在训练过程中冻结它。他们通过复制第一个和最后一个解码器层,从 OpenAI Whisper-medium.en Whisper-large-v2 模型中蒸馏出 2 层解码器检查点,分别取名为 distil-medium.en distil-large-v2

IMG_262


蒸馏得到的模型的维度细节如表 3 所示。

IMG_263


在数据方面,模型在 9 个不同的开源数据集(见表 2)上训练了 22,000 小时。伪标签由 Whisper 生成。重要的是,他们使用了 WER 过滤器,只有 WER 得分超过 10% 的标签才会被保留。作者表示,这是保持性能的关键!  

IMG_264


下表 5 展示了 Distil-Whisper 的主要性能结果。

IMG_265


作者表示,冻结编码器的操作使得 Distil-Whisper 在对抗噪声时非常稳健。如下图所示,Distil-Whisper 遵循与 Whisper 相似的鲁棒性曲线,在噪声条件下优于 Wav2vec2 等其他模型。

IMG_266


此外,在处理比较长的音频文件时,与 Whisper 相比,Distil-Whisper 还有效减少了幻觉,作者认为这主要归功于 WER 过滤。
通过共享相同的编码器,Distil-Whisper 可以与 Whisper 配对进行推测解码Speculative Decoding)。这样,在参数仅增加 8% 的情况下,速度提高了 2 倍,同时输出结果与 Whisper 完全相同。

出自:https://mp.weixin.qq.com/s/cx2GzkA7XzTmZ24TwTWQkw

本文档由网友提供,仅限参考学习,如有不妥或产生版权问题,请联系我们及时删除。 客服请加微信:skillupvip
评论
1 评论
悟空2024/3/20 11:00:57
太强了!Distil-Whisper这新变体简直是为低资源环境量身定做的神器!英文处理优秀,处理长音频更佳,还稳健抗噪声,减少了幻觉
20秒读懂全文
伴读
**文章摘要**:
近期,AI应用HeyGen走红,用于制作名人模仿视频的AI技术受到关注。除了HeyGen,还有其他技术如OpenAI的Whisper模型可用于语音转文字。最近,HuggingFace团队提出了Whisper的轻量级变体Distil-Whisper,该模型小、速度快且准确度高,适合低延迟或资源有限的环境。Distil-Whisper使用伪标签技术和WER过滤
One More Thing
One More Thing again ...

找组织,加入AI魔法学院群