文章列表-AI魔法学院

文章列表

阿里&字节发表VividTalk，只需单张照片即可根据音频生成栩栩如生的人物说话头像视频

它通过先进的音频到3D网格映射技术和网格到视频的转换技术，实现了高质量、逼真的音频驱动的说话头像视频生成。

VividTalk 视频

Claude 官方提示词，中文版（含API Prompt）

刚刚 Claude 官方发布了提示词模板涵盖了工作和娱乐的各个方面共 63 组，英文我复刻了一套，中文版由本大聪明倾心产出请享用顺道说一下

prompt 写作

AI虚拟主播数字人技术实现Wav2Lip

本文主要实现图片说话（如下图的蒙娜丽莎）、视频融合语音（这里的核心都是人物口型与音频中的语音唇形同步）。

数字人视频

【语音领域-又双叒更新】阿里开源FunAudioLLM: 2大核心模型、5大亮点功能！效果炸裂！手把手带你理论+实战部署推理!

包含两个核心模型：SenseVoice 负责语音识别和音频处理，CosyVoice 负责语音生成和控制。

asr tts 声音

数字人：从科幻走向现实的技术革命

它们不仅为我们带来了前所未有的娱乐体验，还在教育、医疗、社交等多个领域展现出了广阔的应用前景。

数字人语音

AI视频新技能！这套流程教你打造视频人物和声音完美同步！

但目前的AI视频尚未解决视频和音频结合的问题，让人物的嘴与音频完美同步仍然具有挑战性。

AI视频

TTS它又来了！OpenVoice：一款借鉴于TTS实现的强大的AI语音克隆工具！

其核心功能是通过提供发言者的短音频片段（参考语音），实现声音的高效克隆。

tts 文本转语音

GLM-4-Voice 9B——实时多语言语音对话 AI——几分钟内即可在本地安装

如何设置 GLM-4-Voice 9B 以实现无缝的实时语音交互，支持英语和中文，并探索其独特的架构、低延迟响应和可定制的声音属性。

GLM-4-Voice 9B 语音安装

使用大模型自动回复小红书/抖音/快手评论：通过RAG 优化LLMs实现

在这里需要重点说明：我们在做搜索的过程中面临的所有技术难点，在RAG中都会碰到，搜索相关的内容也可以参见：在高德吃喝玩乐！

RAG 大模型自动回复

【ComfyUI】爽玩必备,6大插件汇总推荐！

工欲善其事必先利其器，今天来给大家介绍6款ComfyUI中必备的插件，有了它们，你才能真正的享受到连连看的快乐！

comfyui 文生图

【ComfyUI】爽玩必备！6大插件汇总推荐

工欲善其事必先利其器，今天来给大家介绍6款ComfyUI中必备的插件，有了它们，你才能真正的享受到连连看的快乐！

大模型

生成式AI与大语言模型的区别

生成式人工智能可以被定义为专注于创建具有生成原创内容能力的模型，例如图像、音乐或文本。

生成式AI 大语言模型区别

图文生成短视频的方法

画框和箭头指向的音频，需要删除，替换成自己声音，或用视频文案生成一段音频，导入剪映中~ 一键生成的字幕朗读，个人觉得不是很好，所有这里推荐一款软件：掌上配音app。

视频 ChatGPT

MaskGCT：登上GitHub趋势榜榜首的TTS开源大模型

语音语义表示编解码器：将语音转换为语义标记。

MaskGCT 声音克隆

我为什么不看好大模型行业

展望未来总是宏大而乐观的，这一篇则恰恰相反。

大模型

<...2 3 4 567 8 9 10 11 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1