AI魔法学院客服
whisper-live:OpenAI Whisper模型的近实时实现
本文介绍了OpenAI的Whisper的近乎实时实现项目——WhisperLive。该项目是一个实时转录应用程序,可以将语音输入转换为文本输出,支持实时音频输入和预录制的音频文件。WhisperLive使用语音活动检测(VAD)技术,仅在检测到语音时才发送音频数据,提高了转录输出的准确性和效率。用户可以通过安装PyAudio和ffmpeg,运行转录服务器和客户端程序,使用Whisper模型进行实时转录。此外,WhisperLive还支持多语言转录和翻译功能,用户可以通过设置选项来指定目标语言和任务。项目链接为https://github.com/collabora/WhisperLive。
 2024-04-28
收藏 复制地址分享海报

项目简介

 

OpenAI 的 Whisper 的近乎实时实现。

该项目是一个实时转录应用程序,使用 OpenAI Whisper 模型将语音输入转换为文本输出。它可用于转录来自麦克风的实时音频输入和预先录制的音频文件。

与依赖连续音频流的传统语音识别系统不同,我们使用语音活动检测(VAD)来检测语音的存在,并且仅在检测到语音时才发送音频数据以耳语。这有助于减少发送到耳语模型的数据量并提高转录输出的准确性。

安装

· 

安装 PyAudio 和 ffmpeg

 

 bash setup.sh

· 

pip 安装 Whisper-live

 

 pip install whisper-live

 

入门

· 

运行服务器

· 

 from whisper_live.server import TranscriptionServer

server = TranscriptionServer()

server.run("0.0.0.0", 9090)

 

在客户端

· 

要转录音频文件:

· 

  from whisper_live.client import TranscriptionClient  

client = TranscriptionClient("localhost", 9090, is_multilingual=True, lang="hi", translate=True)  client(audio_file_path)

此命令使用 Whisper 模型转录指定的音频文件 (audio.wav)。它通过端口 9090 连接到在本地主机上运行的服务器。它还启用了多语言功能,允许以多种语言进行转录。语言选项指定转录的目标语言,在本例中为印地语(“hi”)。如果我们想从源语言翻译成英语,则翻译选项应设置为 True ;如果我们想用源语言转录,则应将翻译选项设置为 False 。

· 

从麦克风转录:

· 

  from whisper_live.client import TranscriptionClient  

client = TranscriptionClient(host, port, is_multilingual=True, lang="hi", translate=True)  

client()

此命令从麦克风捕获音频并将其发送到服务器进行转录。它使用与上一个命令相同的选项,启用多语言功能并指定目标语言和任务。

· 

要从 HLS 流转录:

· 

· 

  client = TranscriptionClient(host, port, is_multilingual=True, lang="en", translate=False)   client(hls_url="http://as-hls-ww-live.akamaized.net/pool_904/live/ww/bbc_1xtra/bbc_1xtra.isml/bbc_1xtra-audio%3d96000.norewind.m3u8")

· 

此命令将音频从 HLS 流传输到服务器。它使用与上一个命令相同的选项,启用多语言功能并指定目标语言和任务。

· 

 

从浏览器转录音频

· 

运行服务器

· 

此命令将音频从 HLS 流传输到服务器。它使用与上一个命令相同的选项,启用多语言功能并指定目标语言和任务。
Transcribe audio from browser

从浏览器转录音频

Run the server 运行服务器

 

项目链接

https://github.com/collabora/WhisperLive

 

 

 

 

出自:https://mp.weixin.qq.com/s/iURRpcbZ63d-FfJLujSgIQ

 
本文档由网友提供,仅限参考学习,如有不妥或产生版权问题,请联系我们及时删除。 客服请加微信:skillupvip
评论
1 评论
智慧女孩要秃头2024/4/28 9:57:32
哈哈,这个WhisperLive项目真是太酷了!实时语音转文字,感觉就像科幻电影里的即时翻译器一样。而且,还支持多语言转录和翻译,简直是全球交流的神器啊!

安装PyAudio和ffmpeg,然后运行个服务器和客户端程序,就能享受这神奇的实时转录功能了。最厉害的是,它还能通过语音活动检测技术,只在检测到语音时才发送音频数据,大大提高了转录输出的准确性和效率。

这项目真是实用又好玩,强烈推荐给需要实时语音转文字的朋友们!赶紧去看看GitHub上的项目链接吧:https://github.com/collabora/WhisperLive。
20秒读懂全文
伴读
**文章摘要**:
本文介绍了OpenAI的Whisper模型的近实时实现——WhisperLive项目。这是一个实时转录应用程序,可将语音输入转换为文本输出,适用于实时音频输入和预录制的音频文件。文章详细说明了如何安装和入门使用该项目,并提供了从麦克风、音频文件和HLS流转录音频的示例代码。此外,还提供了从浏览器转录音频的说明和项目的链接。

**关键词**:
Ope
One More Thing
One More Thing again ...

找组织,加入AI魔法学院群