OpenAI 开源语音识别 Whisper 的使用体验怎么样?
AI魔法学院
2023-09-12
分享海报

作者:知乎用户
链接:https://www.zhihu.com/question/575983499/answer/3055288368
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

近期,AI 领域异常热门,众多惊人且令人担忧的工具不断涌现。今天,我们将向大家推荐一款能够提升我们工作效率的 AI 工具(下载地址见文末)

关于Buzz

  Buzz 是一款基于 OpenAI 开源 Whisper 自动语音识别模型的软件工具,能够将音频或视频中的语音自动识别为带有时间戳的文本字幕。这款工具具有很高的速度,能够在批量处理中大幅提高生产效率。

IMG_256

Buzz 语音转文字工具的特点

  • 高度精确:基于 OpenAI 提供的 Whisper 自动语音识别技术,这是一款功能强大的机器学习模型。
  • 快速转换:Buzz 的模型在本地离线运行,无需互联网连接,因此转换速度非常快,适用于大量语音转换
  • 跨平台兼容:支持 Windows / macOS / Linux
  • 多语言支持:不仅支持中文,还支持许多其他国家的语言,并能够将结果翻译成英文,但只限于英文翻译。

Buzz上手体验

  自今年初以来,ChatGPT 的热度一直居高不下,而与之相伴的 AI 内容和工具也备受关注。今年,我们向大家推荐一款效率软件 Buzz。它是基于人工智能公司「OpenAI」(开发了 ChatGPT)所开源的 Whisper 模型制作的。这款软件能够高效地将视频和音频自动转换为文本。

IMG_258

  当您首次启动 Buzz 时,AI 模型将被下载到您的计算机上。一旦下载完成,所有的语音转录文本过程都将在您的电脑上运行,转换速度非常快。

  Buzz 软件界面非常简洁,仅提供英文界面,但是有限的几个功能按钮并不会影响到使用体验。

  以 Buzz win版本为例,在打开软件后,我们可以点击 "+" 按钮选择文件,接着选择语言(也可以采用默认的自动识别选项)。在自动转录完成后,当进度达到 100% 时,双击即可查看识别内容。此外,Buzz 还支持将识别结果导出为 TXT 格式的纯文本或通用的 SRT 字幕文件,非常便捷。

IMG_260

IMG_261

  我曾经向大家推荐过飞书秒记这款在线工具,虽然它的确方便易用,但不能进行批量转换,而且音频文件还需要在线上传,依赖网络,对效率产生了很大影响。

开源说明

  Buzz 是一款开源且免费的软件,能够自动将语音识别成文本字幕。该软件基于 OpenAI Whisper 语音识别模型,这款 AI 模型也是免费且开源的,大家可以放心下载并使用 Buzz

  请注意,在 Mac AppStore 上,Buzz 推出了高级版本 Buzz Captions,其完整度更高,但是需要付费购买。请大家在选择时注意区分。

  Buzz 本身并没有官方网站,源代码软件包仅在 Github 项目主页提供下载。对于非开发者来说,获取软件包可能比较麻烦。因此,我整理了适用于 Mac Windows 的软件包放到网盘,便于大家在下载。至于 Linux 版本,考虑到使用 Linux 系统的用户访问 Github 不是难事,所以并未提供网盘链接。

获取工具关键词
230601

IMG_262

发布于 2023-06-02 08:51IP 属地江苏

赞同 6​​1 条评论

分享

收藏喜欢收起

更多回答

IMG_264

协力办公

已认证账号

关注

2 人赞同了该回答

我尝试了下,从我的使用体验上说,这款语音识别工具十分强大。首先在准确度上,除了正常发音,我还尝试了不同的语言和口音,它都能准确识别出来。其次在速度上,它能极快地转换音频文件,无需等待太长时间。

但是Whisper对设备有一定要求,必须要有一块优秀的显卡提供良好的性能和效果,所以设备不支持的朋友就很难享用到它了。

别担心,除了Whisper我还使用过其他3款语音识别软件,它们也能很好地满足大家的使用需求,觉得不错的话记得点赞收藏哦~

一、网易见外

网易出品的一个可以实现音视频转写,字幕翻译,文档翻译的在线网站。

登录进入工作台后,使用语言识别功能,点击【新建项目】-【语音转写】。

将音频导入后,填写文件语言和出稿类型,最后点击【提交】,等待它转写完成就好啦~

IMG_265

二、录音识别王

它是一款功能十分强劲的音频软件,包括了录音机、语音翻译、文字转语音、视频转文字等热门工具。并且还有各种音频制作功能,例如音频格式转换、音频裁剪、音频合并、音频分割、音频压缩等。

要使用它的语音识别,点击【实时录音转文字】,当用户说话时,它就能实时把用户的声音实时转换为文字。

我自己试了一下,当我已经说了几百个字的时候,它处理的速度依然很快,并且识别准确

IMG_267

支持开启智能降噪功能,过滤噪音,让识别更加准确。支持修改输出格式,有MP3WAV可选。

识别完成后,支持编辑修改错误的地方,并且文本可以被导出为WordPDF等文档形式,录下来的音频也可以进行裁剪和修改倍速等操作。

IMG_269

三、WPS Office

它对于久经职场的各位肯定不陌生,现在的它不仅能编辑文档、演示文稿等,还拥有语音识别、视频剪辑等多种办公需要的工具。

进入软件主界面后,点击【应用】,在搜索栏搜索【音视频转文字】,点击后进入音视频转文字的窗口。

将文件导入后,设置转写语言和转写领域,点击【开始转写】即可,只不过该功能需要开通会员才能使用。

IMG_271

出自:https://www.zhihu.com/question/575983499/answer/3055288368

© THE END

转载请联系本网站获得授权

投稿或版权问题请加微信:skillupvip