文章列表-AI魔法学院

文章列表

动画制作工具AnimateDiff用法详解

AnimateDiff 使用Stable Diffusion模型将文本提示转换为视频。

AnimateDiff 视频训练

TTS它又来了！OpenVoice：一款借鉴于TTS实现的强大的AI语音克隆工具！

其核心功能是通过提供发言者的短音频片段（参考语音），实现声音的高效克隆。

tts 文本转语音

GLM-4-Voice 9B——实时多语言语音对话 AI——几分钟内即可在本地安装

标记器基于 Whisper 的编码器，并添加了向量量化，使模型能够以结构化形式处理音频。

GLM-4-Voice 9B 语音安装

探索Sora的魔法世界：功能展示、原理解析、未来市场影响大猜想！

，即便通过视频扩展等手段，最多也只能生成十几秒的视频。

视频生成 sora

使用大模型自动回复小红书/抖音/快手评论：通过RAG 优化LLMs实现

大模型的最大的作用就是取代人工，进行降本增效，而很多时候，类似于自动客服，自动回复用户的提问，或者作为自动客服，回复网友/用户的评价，就会是一个重要的应用场景（虽然客服不算贵，但千千万万的客服就比较贵了），本文讨论如何使用RAG技术来进行youtube的自动评论回复。

RAG 大模型自动回复

MaskGCT：登上GitHub趋势榜榜首的TTS开源大模型

语音声学编解码器旨在将语音波形量化为多层离散标记，同时尽可能保留语音的所有信息。

MaskGCT 声音克隆

万字长文，大语言模型如何宣告心理学的死亡？

在这篇文章中，我们将探讨人工智能心理学中制约领域发展，盘旋上空的三个幽灵：行为主义的遗留，相关性的困惑，以及隐性知识的挑战。每一个幽灵都暗指传统心理学曾经忽略的问题，本文将从大语言模型的视角提供新的见解。

大语音模型

阿里通义实验室薄列峰：从兵马俑跳“科目三”到照片唱歌，四大框架让AI生成的人物活起来丨GenAICon 2024

采用Video2Motion，基于视频人物动作驱动3D数字人；人物唱演视频生成框架Emote Portrait Alive能够基于单张图和音频，输出准确、生动的人物唱演视频。

通义文生视频

6个最佳开源TTS引擎

· 它带有两个合成器：eSpeakinG合成器，通过声音添加技术转换元音和响亮的辅音，以完成声音。

TTS引擎开源模型

【TTS语音克隆开源最强王者】5款爆火开源模型(Fish、F5、GPT、CosyVoice、MaskGCT)效果对比，等你来评!

:5款语音克隆模型效果展示案例1: 萝莉语音克隆-5款模型语音克隆--效果展示案例2: 萝莉语音克隆-5款模型语音克隆-带数字文本-效果展示案例3: 萝莉语音克隆

语音克隆开源模型

全量免费的EMO模型上架通义APP，外媒称之为Sora之后最受期待的大模型之一

只需要一张人物肖像照片和一段任意时长的音频，EMO就可以让照片中的人物按照音频内容“张嘴”唱歌、说话，且口型基本保持一致，实现自然的面部表情和头部姿态。

EMO 阿里全民演唱

这个数字人开源项目太牛了，非常全面的项目解决方案(含源码)

虚拟主播：通过Fay控制器及数字人模型，开发者能够创建虚拟主播来进行直播带货或视频内容制作。

Fay 开源项目数字人

数字人直播哪家强？百度、硅基、风平与闪剪四大AI数字人横向评测！

整体体验与易用性百度曦灵数字人直播平台 Lite 首先是百度曦灵数字人直播平台 Lite，虽然兼具数字人短视频与直播两大功能，但总体来看可用简陋两个字来形容，特别是短视频生成功能，只能用声音文件驱动数字人

数字人数字分身

精通百种语言的翻译AI来了！Meta推出，免费、开源！

这个模型可以实现近101种语言之间的文本、音频、视频等多种形式的翻译，而且只需要一个模型就可以完成所有任务。

大语言模型

2023年人工智能行业总结

年底谷歌发布了多模态大模型Gemini，可以理解文字、图片、代码和音视频。

人工智能 AGI 思考总结

<...6 7 8 91011 12 13 14 15 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1