文章列表-AI魔法学院

文章列表

「语音识别的未来已来」——探索Distil-Whisper，轻量级AI的强大力量

作为Whisper模型的蒸馏版，Distil-Whisper凭借轻量级架构和卓越的处理速度，成为了技术热潮中的新宠。

Distil-Whisper 语音识别

数字人之声音克隆：无样本，1分钟样本完美克隆声音，开源

接下来是，语音转文字，使用ASR，这个地方 ASR模型，你可以选中文或者多语种，多语种用的Faster Whisper，这个作者没有集成，使用时会自动下载输入上一步切割的语音，直接点击启动

数字人声音克隆 GPT-SoVITS

提高工作效率的 10 个高级Prompt

Learn faster than ever with the 80/20 technique Prompt:"I want to learn about [insert topic].

工作大模型 GPT prompt 提示词

十大开源语音识别项目

Whisper Whisper 是一个通用的语音识别模型。

语音识别开源项目

开源语音大语言模型来了！阿里基于Qwen-Chat提出Qwen-Audio!

现有的代表性音频语言多任务语言模型，如SpeechNet、SpeechT5、VIOLA 、Whisper和Pengi，仅限于处理特定类型的音频，如人声或自然声音。

大模型语音

中文版开源Llama 2同时有了语言、多模态大模型，完全可商用

具体来讲，对于语音模态，采用 Whisper 作为特征编码器，冻结 Whisper [5] 并提取音频输入的特征。

开源模型

栩栩如生,音色克隆,Bert-vits2文字转语音打造鬼畜视频实践

https://huggingface.co/cl-tohoku/bert-base-japanese-v3/tree/main 语音标注接着我们需要对已经切好分片的语音进行标注，这里我们使用开源库whisper

Bert-vits 语音

AI换脸工具:facefusion使用心得

faster: 这个选项比veryfast慢一点，但提供了更好的压缩效率。

FaceFusion 文生图

全球下载量最大的AI绘画大模型，更新Lightning极速版

humanity's survival, encapsulate the psychedelic space warps and time distortions experienced during faster-than-light

Stable Diffusion 大模型提示词

【语音领域-又双叒更新】阿里开源FunAudioLLM: 2大核心模型、5大亮点功能！效果炸裂！手把手带你理论+实战部署推理!

高性能：与 Whisper-small(已开源) 和 Whisper-large 相比，SenseVoice-Small 的性能分别快 5 倍和 15 倍以上。

asr tts 声音

2023年人工智能行业总结（精简版）

此外，还有Meta的Whisper项目，能够转化声音为文本、Roop和FaceFusion的换脸软件、AnimateDiff的动画生成技术等。

人工智能行业总结

大模型微调经验汇总---LLM finetuning 踩坑经验之谈

最后采用架构上的调整，faster transformer 要优于传统的 transformer 架构。

大模型人工智能

Stable Diffusion

OpenAI救了Stable Diffusion！开源Dall·E3同款解码器，来自Ilya宋飏等

开发者日的另一项重磅开源是语音大模型Whisper 3。

SD 文生图 DALLE

如何下载及使用通义千问7B开源大模型

course the money takes years to come in, or they sell your loan to another business to get the money faster

通义千问

3 个令人惊艳的 GitHub 开源项目，诞生了！

利用 Whisper 能够自动生成字幕的视频，对一些空白字幕内容配合脚本，进行视频自动剪切，便能够节省很多视频剪辑的时间。

开源模型

<123 >

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1