文章列表-AI魔法学院

文章列表

“实时”语音翻译！AI语音具有“情绪”！最强开源AI大模型来了

这是一个由meta（原Facebook）开发的人工智能模型，这是一个致力于让人们可以跨语言交流、消除语言障碍的AI大模型。

大模型开源模型语音

开源语音大语言模型来了！阿里基于Qwen-Chat提出Qwen-Audio!

然而，由于缺乏能够处理各种音频类型和任务的预训练音频语言模型，大多数工作在音频交互能力上受到限制。

大模型语音

关于AI声音生成的一切（语音+音乐+嘴型）

解压就能用）: OpenAI Whisper自动语音识别模型的高性能GPGPU推理，基于DirectCompute技术，对Windows系统进行了优化，并且在性能和内存使用上优于原始OpenAI实现。

声音

【语音识别】OpenAI语音力作Whisper

与Wav2Vec 2.0等前作不同，以往的模型都是在未标注的音频数据上预训练的，而 Whisper 是在大量的已标注音频转录数据上预训练的。

语音转文字 whisper

我，大语言模型

作为大语言模型，我只前向思考，不反向思考。

大模型

基于 OpenAI Whisper 模型的实时语音转文字工具

今天给大家分享一款专注于音频处理和创作的开源软件【WhisperLive】什么是 WhisperLive？

WhisperLive 音频开源软件

十大开源语音识别项目

Whisper Whisper 是一个通用的语音识别模型。

语音识别开源项目

如何看待大型语言模型的Prompt

从表面上看，现代的大型语言模型与原始的word2vec模型似乎完全不同。

prompt 大语言模型

从声纹模型到语音合成：音频处理 AI 技术前沿 | 开源专题 No.45

它包含了两个最先进的 AI 生成模型 (AudioGen 和 MusicGen) 的推理和训练代码，可以产生高质量音频。

AudioCraft 音频

有感情的语音合成开源模型：ChatTTS安装使用详解

ChatTTS是一个为对话场景设计的语音生成模型，专门用于大型语言模型（LLM）助手的对话任务、对话语音和视频介绍等应用。

ChatTTS 语音合成

ollama本地部署自然语言大模型

大模型已经发布很久，网络上的大模型形形色色，现在已然是群英荟萃，那么，如何在本地运行一个大模型？

ollama 语言大模型部署

开源大语言模型完整列表

这些模型通常拥有数十亿到数万亿个参数，能够处理各种自然语言处理任务，如自然语言生成、文本分类、文本摘要、机器翻译、语音识别等。

开源模型大语言模型

OpenAI大动作：Whisper large-v3重塑语音识别技术

这款最新的自动语音识别模型不仅在多语言识别方面取得了显著进步，而且还将很快在OpenAI的API中得到支持。

Whisper 语音识别

国内外开源大语言模型一览表

目前该项目已公开训练的语料和模型权重文件（两个型号），供开发者可使用自己各种大小的语料，训练自己的语言模型，并适用到对应的垂直领域。

大模型

Westlake - Omni：西湖心辰推出的全球首个开源的中文情感端 - 端语音交互大模型

它作为全球首个开源中文情感端到端语音交互大模型，为中文语音交互技术带来了新的活力和可能性。

Westlake -Omni 语音

<12 3 4 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1