文章列表-AI魔法学院

文章列表

开源免费离线语音识别神器whisper如何安装

whisper介绍 Open AI在2022年9月21日开源了号称其英文语音辨识能力已达到人类水准的Whisper神经网络，且它亦支持其它98种语言的自动语音辨识。

wisper 翻译免费

TTS，一个奇妙的AI工具

简介 TTS是一个将文本变换成语音的AI工具。

TTS 文本转语音

有道开源的国产语音库EmotiVoice爆火了！具有情绪控制功能的语音合成引擎！

但是近期，网易有道AI算法团队也开源了一款国产TTS语音合成引擎EmotiVoice，刚上线仅一周时间就暴涨4200颗星，问鼎当周GitHub trending流行榜第一。

EmotiVoice 语音库

中国首份AIGC监管文件正式实施——《生成式人工智能服务管理暂行办法》简析

《生成式人工智能服务管理暂行办法》解析 1、适用范围根据管理办法第二条的规定：利用生成式人工智能技术向中华人民共和国境内公众提供生成文本、图片、音频、视频等内容的服务

人工智能

2024！深入了解大语言模型（LLM）微调方法（总结）

「当以上方式无法解决相关问题时，这就需要LLM微调」。

大模型微调

Stable Diffusion

这篇深入浅出帖助你早日实现Stable diffusion自由

1、提示词：指挥AI作图的咒语WebUI 中被我们输入进去的描述文字或图像信息，就是 Prompts (提示词)：用于生成图像的文字输入，需要使用英文输入，但你也可以通过探索 Extensions

AI图片

国内厂商语音识别与Whisper评测：现状与概况对比

同时，Whisper（飞思卡尔语音识别技术）作为一项国际上也备受关注的语音识别技术，在语音识别领域也有着广泛的应用。

语音识别 Faster-Whisper

有感情的语音合成开源模型：ChatTTS安装使用详解

ChatTTS是一个为对话场景设计的语音生成模型，专门用于大型语言模型（LLM）助手的对话任务、对话语音和视频介绍等应用。

ChatTTS 语音合成

一文读懂GPT-1：生成式预训练如何提升语言理解

为了深入探索大语言模型的发展历程，我们精心挑选了一系列经典论文进行分享，希望能与大家共同学习和理解大语言模型背后的技术。

GPT

腾讯开源的数字人MuseTalk到底行不行？

MuseTaIk是由腾讯团队开发的先进技术，它是一个实时高质量的音频驱动唇部同步模型。

MuseTalk 数字人音频

DeepMusic发布“和弦派”2.0：重塑AI音乐创作范式，赋予创作者全方位掌控

4月29日，国内领先的人工智能音乐服务商DeepMusic，发布了自主研发的AI音乐工作站——“和弦派”2.0正式版。

和弦派 DeepMusic 音乐创作

Stable Diffusion

Stable Diffusion ComfyUI 入门感受

模型载入节点将模型分成了模型，clip层，VAE，clip层会在关键词编码的时候使用，VAE会在图片编码解码（图片RGB空间与潜空间转换）时使用图片节点可以载入图片并转换到潜空间，或者创建新的潜空间空图片

文生图

图片生成速度最高提升10倍！可以做到“实时”生成！清华推出LCM/LCM-LoRA！

一般来说，SD模型需要25到50步才能生成一张图像，这对于实时应用来说是不可接受的。

LCM/LCM-LoRA 文生图

两天star量破千：OpenAI的Whisper被蒸馏后，语音识别数倍加速

前段时间，「霉霉大秀中文」的视频在各个社交媒体走红，随后又出现了「郭德纲大秀英语」等类似视频。

语音 HeyGen

深入浅出：大语言模型中必不可少的技术——Embedding简介

简单来说，embedding就是一个N维的实值向量，它几乎可以用来表示任何事情，如文本、音乐、视频等。

embedding

<1 2 345 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1