文章列表-AI魔法学院

文章列表

“实时”语音翻译！AI语音具有“情绪”！最强开源AI大模型来了

你想把一段语音转成文字，或者把一段文字转成语音，但是你不知道怎么操作！

大模型开源模型语音

最新最全的开源中文大语言模型列表

在多语言翻译、交互翻译、通用任务、标准化考试的测评中，百聆在中文/英语中均展现出更好的表现。

大模型

十大开源语音识别项目

是一个开源、易用、多合一的语音处理工具包，包含语音识别、语音翻译（英-中）、文本-语音、标点恢复功能。

语音识别开源项目

实时语音克隆

项目简介这份内容介绍了实时语音克隆的技术实现，作者通过将说话者验证技术转移到多说话人文本到语音合成（SV2TTS）来实现语音克隆。

语音克隆

语音克隆又又又又又升级了

之前在前面的文章中有介绍，克隆你的声音，只需要你三秒的录音，声音克隆又进化了！

Meta 语音生成

哈工大科大讯飞联合推出中文LLaMA-2 & Alpaca-2大语言模型

本项目基于Meta发布的可商用大模型Llama-2开发，是中文LLaMA&Alpaca大模型的第二期项目，开源了中文LLaMA-2基座模型和Alpaca-2指令精调大模型。

训练

Insanely Fast Whisper：超快的Whisper语音识别脚本

项目简介这篇内容介绍了OpenAI的Whisper Large v2语音转录模型的超快速能力。

音频 Whisper

OpenAI大动作：Whisper large-v3重塑语音识别技术

这款最新的自动语音识别模型不仅在多语言识别方面取得了显著进步，而且还将很快在OpenAI的API中得到支持。

Whisper 语音识别

开源语音大语言模型来了！阿里基于Qwen-Chat提出Qwen-Audio!

作为一种重要模态，语音提供了超越文本的多样且复杂的信号，如人声中的情感、语调和意图，自然声音中的火车汽笛、钟声和雷声，以及音乐中的旋律。

大模型语音

从声纹模型到语音合成：音频处理 AI 技术前沿 | 开源专题 No.45

此外，AudioCraft 还包括深度学习研究中使用到的 PyTorch 组件以及开发出来各个模型所需训练流程管道等内容，并提供 API 文档、常见问题 FAQ 等信息。

AudioCraft 音频

【开源项目】Flow Matching 语音合成

shivammehta25.github.io/Matcha-TTS/ 在线推理： https://huggingface.co/spaces/shivammehta25/Matcha-TTS 中文实现

音视频 Flow Matching

解读wav2lip：探究语音驱动唇部动作的技术原理！

本文将深入介绍一下wav2lip的技术原理和细节，了解它是如何实现语音驱动唇部运动的！

wav2lip 语音

「语音转换新速度」— 探秘Whisper JAX的70倍速提升

在AI的众多分支中，语音识别技术的突破性进展尤为引人瞩目。

Whisper 语音识别

中文版开源Llama 2同时有了语言、多模态大模型，完全可商用

s=20 语言模型之外，继续开源两个中文多模态大模型在推出首个开源 Llama2 中文语言大模型之后，LinkSoul.AI 团队将目光投向了目前全球尚外于发展初期的语音文本多模态大模型和图文大模型

开源模型

重磅来袭！Llama中文社区开源预训练中文版Atom-7B大模型

，原子大模型也可以进化出不同的能力，一些专注于自然语言处理，一些负责图像识别，一些负责语音识别，还有一些可能是专为解决特定类型的科学问题而设计。

大模型

<123 4 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2024 AI魔法学院

京ICP备20027199号-1