文章列表-AI魔法学院

文章列表

Whisper对于中文语音识别与转写中文文本优化的实践(Python3.10)

阿里的FunAsr对Whisper中文领域的转写能力造成了一定的挑战，但实际上，Whisper的使用者完全可以针对中文的语音做一些优化的措施，换句话说，Whisper的“默认”形态可能在中文领域斗不过

Whisper 语音优化

Stable Diffusion

Stable Diffusion 加速/优化/升级优化出图速度

秋叶整合版优化 1.

Stable Diffusion 文生图

【语音识别】OpenAI语音力作Whisper

A：因为许多ASR的训练语料都对转写文本做了标准化，比如删除或规范化了从音频信号中难以预测的方面，例如复杂的标点符号（感叹号、逗号和问号）、格式化空白（例如段落）或风格大小写等方面。

语音转文字 whisper

大模型检索增强生成RAG的优化

RAG优化分为两个方向：RAG基础功能优化、RAG架构优化。

RAG 检索增强大模型

Prompt提示优化工具

prompt perfect 可以自动优化已有的提示，比较多个模型的输出，运行智能体等。

prompt 提示词

关于AI声音生成的一切（语音+音乐+嘴型）

解压就能用）: OpenAI Whisper自动语音识别模型的高性能GPGPU推理，基于DirectCompute技术，对Windows系统进行了优化，并且在性能和内存使用上优于原始OpenAI实现。

声音

用AI生成PPT、用AI优化PPT!

下图里的页面主题，我猜测是因为GPT4将图片内容先转成英文，再转成中文输出，发生了语言转换的不对应问题。

AI ppt

用AI生成PPT、用AI优化PPT

下图里的页面主题，我猜测是因为GPT4将图片内容先转成英文，再转成中文输出，发生了语言转换的不对应问题。

ppt AI生成PPT

自动优化Prompt：Automatic Prompt Engineering的3种方法

无论是想“提分”、还是想优化LLM标注器的效果、或是想根据用户反馈来优化Prompt进而提升产品体验，这些方法都可以借鉴。

prompt 大模型

网易（TTS）EmotiVoice：开源语音合成，支持2000多音色

你是否曾经想过，如果你能用一句简单的提示来控制你的语音合成器，那该多方便？

EmotiVoice 语音合成

写不好Prompt？可以先写个粗糙版本，然后让GPT帮助优化。

我们以学习“如何写好Prompt”为例看优化过程。

Prompt GPT

字正腔圆,万国同音,coqui-ai TTS跨语种语音克隆,钢铁侠讲16国语言

按照固有的思维方式，如果想要语音克隆首先得有克隆对象具体的语言语音样本，换句话说，克隆对象必须说过某一种语言的话才行，但现在，coqui-ai TTS V2.0版本做到了，真正的跨语种无需训练的语音克隆技术

coqui-ai TTS 语音

使用大模型自动回复小红书/抖音/快手评论：通过RAG 优化LLMs实现

大型语言模型（LLMs）已经展示出了令人印象深刻的能力，可以存储和部署大量知识以响应用户查询。

RAG 大模型自动回复

AI文本转语音工具（TTS）：MeloTTS

今天给大家介绍一个效果不错的开源文本转语音工具：MeloTTS MeloTTS是一个可以把文字转换成声音的工具，它支持英语、西班牙语、法语、中文、日语和韩语等多种语言。

MeloTTS 语音工具

阿里巴巴语音实验室发布开源语音处理框架ClearerVoice-Studio，支持语音增强、分离、目标说话人提取

.02 技术亮点：多模型协作，创新驱动性能突破 ClearerVoice-Studio 的核心优势在于其精心设计的模型体系，针对不同的语音处理任务量身打造了多款创新模型

ClearerVoice-Studio 语音

<12 3 4 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1