文章列表-AI魔法学院

音视频魔法

Fastwhisper + Pyannote 实现 ASR + 说话者识别

【语音领域-又双叒更新】阿里开源FunAudioLLM: 2大核心模型、5大亮点功能！效果炸裂！手把手带你理论+实战部署推理!

【语音识别】OpenAI语音力作Whisper

十大开源语音识别项目

MCI-GRU：在真实金融交易中验证有效的股票价格预测模型

数字人之声音克隆：无样本，1分钟样本完美克隆声音，开源

炸裂！百川开源第1个7B多模态大模型 Baichuan-Omni | 能够同时分析图像/视频/音频/文本

开源免费离线语音识别神器whisper如何安装

国内厂商语音识别与Whisper评测：现状与概况对比

开源语音大语言模型来了！阿里基于Qwen-Chat提出Qwen-Audio!

从声纹模型到语音合成：音频处理 AI 技术前沿 | 开源专题 No.45

中文版开源Llama 2同时有了语言、多模态大模型，完全可商用

“实时”语音翻译！AI语音具有“情绪”！最强开源AI大模型来了

两天star量破千：OpenAI的Whisper被蒸馏后，语音识别数倍加速

从 GPT-4o 到 LiveKit：实时语音交互的开源实现

<12 >