文章列表-AI魔法学院

文章列表

十大开源语音识别项目

Whisper Whisper 是一个通用的语音识别模型。

语音识别开源项目

关于AI声音生成的一切（语音+音乐+嘴型）

语音转文字 •Const-me/Whisper（

声音

开源语音大语言模型来了！阿里基于Qwen-Chat提出Qwen-Audio!

现有的代表性音频语言多任务语言模型，如SpeechNet、SpeechT5、VIOLA 、Whisper和Pengi，仅限于处理特定类型的音频，如人声或自然声音。

大模型语音

中文版开源Llama 2同时有了语言、多模态大模型，完全可商用

具体来讲，对于语音模态，采用 Whisper 作为特征编码器，冻结 Whisper [5] 并提取音频输入的特征。

开源模型

栩栩如生,音色克隆,Bert-vits2文字转语音打造鬼畜视频实践

https://huggingface.co/cl-tohoku/bert-base-japanese-v3/tree/main 语音标注接着我们需要对已经切好分片的语音进行标注，这里我们使用开源库whisper

Bert-vits 语音

【语音领域-又双叒更新】阿里开源FunAudioLLM: 2大核心模型、5大亮点功能！效果炸裂！手把手带你理论+实战部署推理!

高性能：与 Whisper-small(已开源) 和 Whisper-large 相比，SenseVoice-Small 的性能分别快 5 倍和 15 倍以上。

asr tts 声音

2023年人工智能行业总结（精简版）

此外，还有Meta的Whisper项目，能够转化声音为文本、Roop和FaceFusion的换脸软件、AnimateDiff的动画生成技术等。

人工智能行业总结

数字人之声音克隆：无样本，1分钟样本完美克隆声音，开源

接下来是，语音转文字，使用ASR，这个地方 ASR模型，你可以选中文或者多语种，多语种用的Faster Whisper，这个作者没有集成，使用时会自动下载输入上一步切割的语音，直接点击启动

数字人声音克隆 GPT-SoVITS

Stable Diffusion

OpenAI救了Stable Diffusion！开源Dall·E3同款解码器，来自Ilya宋飏等

开发者日的另一项重磅开源是语音大模型Whisper 3。

SD 文生图 DALLE

3 个令人惊艳的 GitHub 开源项目，诞生了！

利用 Whisper 能够自动生成字幕的视频，对一些空白字幕内容配合脚本，进行视频自动剪切，便能够节省很多视频剪辑的时间。

开源模型

GLM-4-Voice 9B——实时多语言语音对话 AI——几分钟内即可在本地安装

标记器基于 Whisper 的编码器，并添加了向量量化，使模型能够以结构化形式处理音频。

GLM-4-Voice 9B 语音安装

比GPT-4快18倍，世界最快大模型Groq登场！每秒500 token破纪录，自研LPU是英伟达GPU 10倍

在GroqInc硬件上运行Llama 70B，然后在提供给Whisper，几乎没有延迟。

Groq 大模型

2023年人工智能行业总结

例如，Meta开源的Whisper项目能够识别世界上大部分主要语言的视频语音；Roop和FaceFusion两款开源换脸软件不仅能直接给图片和视频换脸，还能将多张图片融合成一张脸；AnimateDiff

人工智能 AGI 思考总结

Suno音乐新手指南（手把手完整版教程）

Prologue of Thought [intrumental intro] [Verse 1] In the dawn of the digital age, a whisper

suno 歌曲教程

炸裂！百川开源第1个7B多模态大模型 Baichuan-Omni | 能够同时分析图像/视频/音频/文本

2.2.3 音频-语言分支音频语言分支通过结合来自Whisper-large-v3模型的音频编码器和新引入的音频 Projector ，扩展了一个在视觉和视频数据上预训练的LLM。

Baichuan-Omni 多模态大模型

<123 >

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1