文章列表-AI魔法学院

文章列表

ComfyUI王牌！复合生成！必须揉在一起

上期我们讲了利用基于语言到图像的生成网络的GLIGEN模型可以做到指哪打哪的生成。

comfyui 文生图

惊艳推荐！8款好用又免费的文本转语音TTS工具

在早期，TTS技术主要依赖于预录制的声音样本，通过组合这些样本来生成语音。

TTS Maker 语音

开发语音产品时设计唤醒词和命令词的技巧

生僻字和零声母字应尽量避免，如“语音识别”中“语音”两个字均为零声母字； 6.

语音产品唤醒词命令词

AI自动生成视频全流程干货

准备脚本 * 利用Prompt让ChatGPT生成脚本 * 搜索Youtube热门视频生成脚本 2.

AI 视频

两天star量破千：OpenAI的Whisper被蒸馏后，语音识别数倍加速

懂技术的小伙伴也可以寻找其他替代方案，比如语音转文字模型 Whisper、文字翻译 GPT、声音克隆 + 生成音频 so-vits-svc、生成符合音频的嘴型视频 GeneFace++dengdeng。

语音 HeyGen

Stable Diffusion

Stable Diffusion AnimateDiff | 最火文本生成视频插件库

AnimateDiff介绍 AnimateDiff采用控制模块来影响Stable Diffusion模型，通过大量短视频剪辑的训练，它能够调整图像生成过程，生成一系列与训练视频剪辑相似的图像。

动画视频 AnimateDiff

LLM大模型推理输出生成方式总结

参数设置：do_sample = False, num_beams = 1 缺点： 1、生成文本重复 2、不支持生成多条结果。

大模型

Threejs: 数字人生成金色动态粒子效果

昨天的文章提到通过修改数字人的材质做全息投影仪的动态效果，今天分享一下生成金色动态粒子人的代码，效果图如下：效果中还包含多个粒子效果的动态转换，有了这个，再加上摄像头，就可以完全模拟亚运会的数字人效果了

Threejs 数字人

免训练！单图秒级别生成AI写真，人像生成进入无需训练的单阶段时代

这一创新版本摒弃了传统的人物模型训练过程，能够直接生成 zero-shot 目标人像，引领 AI 人像生成进入了无需训练的单阶段时代。

FaceChain FACT 文生图

GPT-4o实时语音方案提供商Livekit开源voice agent：轻松处理音视频流

轻松访问 LiveKit WebRTC 会话并处理或生成音频、视频和数据流。

voice agent 开源音视频

大模型检索增强生成RAG的优化

如果需要，才检索若干passage，然后经一系列处理生成若干next segment候选。

RAG 检索增强大模型

Stability AI推出视频生成模型Stable Video Diffusion

Stability AI近日推出了名为Stable Video Diffusion的视频生成模型，该模型基于该公司现有的Stable Diffusion文本转图像模型，能够通过对现有图像进行动画化生成视频

Video 视频创作 SD

OpenAI 开源语音识别 Whisper 的使用体验怎么样？

多语言支持：不仅支持中文，还支持许多其他国家的语言，并能够将结果翻译成英文，但只限于英文翻译。

生成式AI

从 GPT-4o 到 LiveKit：实时语音交互的开源实现

今天我们来聊聊OpenAI 发布会提到的实时对话语音技术。

GPT-4o 语音交互

GLM-4-Voice 9B——实时多语言语音对话 AI——几分钟内即可在本地安装

GLM-4-Voice作为一款端到端的语音模型，推动了多语言对话人工智能的边界，支持英语和中文的实时对话，同时提供可适应且类人化的响应生成。

GLM-4-Voice 9B 语音安装

<1 2 3 456 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1