OpenAI 开源语音识别 Whisper 的使用体验怎么样？

作者：知乎用户
链接：https://www.zhihu.com/question/575983499/answer/3055288368
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

近期，AI 领域异常热门，众多惊人且令人担忧的工具不断涌现。今天，我们将向大家推荐一款能够提升我们工作效率的 AI 工具（下载地址见文末）。

关于Buzz

　　Buzz 是一款基于 OpenAI 开源 Whisper 自动语音识别模型的软件工具，能够将音频或视频中的语音自动识别为带有时间戳的文本字幕。这款工具具有很高的速度，能够在批量处理中大幅提高生产效率。

Buzz 语音转文字工具的特点

高度精确：基于 OpenAI 提供的 Whisper 自动语音识别技术，这是一款功能强大的机器学习模型。
快速转换：Buzz 的模型在本地离线运行，无需互联网连接，因此转换速度非常快，适用于大量语音转换。
跨平台兼容：支持 Windows / macOS / Linux。
多语言支持：不仅支持中文，还支持许多其他国家的语言，并能够将结果翻译成英文，但只限于英文翻译。

Buzz上手体验

　　自今年初以来，ChatGPT 的热度一直居高不下，而与之相伴的 AI 内容和工具也备受关注。今年，我们向大家推荐一款效率软件 Buzz。它是基于人工智能公司「OpenAI」（开发了 ChatGPT）所开源的 Whisper 模型制作的。这款软件能够高效地将视频和音频自动转换为文本。

　　当您首次启动 Buzz 时，AI 模型将被下载到您的计算机上。一旦下载完成，所有的语音转录文本过程都将在您的电脑上运行，转换速度非常快。

　　Buzz 的软件界面非常简洁，仅提供英文界面，但是有限的几个功能按钮并不会影响到使用体验。

　　以 Buzz win版本为例，在打开软件后，我们可以点击 "+" 按钮选择文件，接着选择语言（也可以采用默认的自动识别选项）。在自动转录完成后，当进度达到 100% 时，双击即可查看识别内容。此外，Buzz 还支持将识别结果导出为 TXT 格式的纯文本或通用的 SRT 字幕文件，非常便捷。

　　我曾经向大家推荐过飞书秒记这款在线工具，虽然它的确方便易用，但不能进行批量转换，而且音频文件还需要在线上传，依赖网络，对效率产生了很大影响。

开源说明

　　Buzz 是一款开源且免费的软件，能够自动将语音识别成文本字幕。该软件基于 OpenAI 的 Whisper 语音识别模型，这款 AI 模型也是免费且开源的，大家可以放心下载并使用 Buzz。

　　请注意，在 Mac AppStore 上，Buzz 推出了高级版本 Buzz Captions，其完整度更高，但是需要付费购买。请大家在选择时注意区分。

　　Buzz 本身并没有官方网站，源代码和软件包仅在 Github 项目主页提供下载。对于非开发者来说，获取软件包可能比较麻烦。因此，我整理了适用于 Mac 和 Windows 的软件包放到网盘，便于大家在下载。至于 Linux 版本，考虑到使用 Linux 系统的用户访问 Github 不是难事，所以并未提供网盘链接。