文章列表-AI魔法学院

文章列表

SadTalker数字人常见问题3

SadTalker数字人制作工具，用自带的图片音频可以生成，而用自己的图片、音频生成视频就不行。

SadTalke

ChatGPT+文字转视频工具，让1个人1天轻松生产100条原创视频（内附全部工具）

今天给大家分享一个 ChatGPT+文字转视频AI工具，批量跑原创视频的玩法。

生成式AI

ollama本地部署自然语言大模型

大模型已经发布很久，网络上的大模型形形色色，现在已然是群英荟萃，那么，如何在本地运行一个大模型？

ollama 语言大模型部署

腾讯开源的数字人MuseTalk到底行不行？

MuseTaIk是由腾讯团队开发的先进技术，它是一个实时高质量的音频驱动唇部同步模型。

MuseTalk 数字人音频

AI“同声传译”新进展！Google发布，无监督，语音识别：Translatotron 3！

语音识别（ASR）是指将人类的语音转换为文本的技术，然而，目前的语音识别技术还面临着一些挑战，其中最大的一个就是如何支持更多的语言。

Translatotron 语音识别

通过声音生成逼真的全身形象？！Meta开源AI工具：audio2photoreal

这样，你就可以用你的声音，创造出任何你想要的角色，无论是自己的形象，还是你喜欢的明星，甚至是虚拟的人物。

audio2photoreal 开源工具

学会这招，一个头像变100种风格！

在 Mijdourney 里，如何根据一张图随意切换风格？

Remix 文生图

[中文开源震撼首发]33B QLoRA大语言模型Anima真的太强大了！QLoRA技术可能是AI转折点！

因此我们认为QLoRA 的工作很重要，可能是个Game Changer，是AI这一波技术革新的一个转折点。

开源模型

炸裂！百川开源第1个7B多模态大模型 Baichuan-Omni | 能够同时分析图像/视频/音频/文本

对于图像-文本数据，作者将文本数据按1:3比例分割，使用文本转语音（TTS）技术将初始四分之一文本转换为音频描述。

Baichuan-Omni 多模态大模型

使用这个工具后，我将 RAG 的准确性和召回率都提高了两倍！

是一种检索增强生成技术，它利用大型语言模型来处理用户查询，RAG 技术的主要组成包括数据提取—embedding—创建索引—检索—排序（Rerank）—LLM 归纳生成，不过实际落地过程来看，将用户查询转换为嵌入向量直接检索

RAG 大语言模型

语音识别的未来已来：深入了解faster-whisper的突破性进展

这种实现不仅提高了语音识别的速度，还优化了内存使用效率。

语音识别 Faster-Whisper

淘宝模特全体注意！阿里AnyDoor AI换装神器出来了，年度最强AIGC重制绘图工具，重塑电商模特产业

之前用MJ的垫图换装，不仅要记一长串的垫图提示语和指令，关键是换了的衣服都是通过提示语文字重组，经常发现货不对板，跟商家需要的不一样，真是急死个人。

AnyDoor 换装文生图

F5-TTS：上海交大开源超逼真声音克隆TTS，告别ElevenLabs，以后就用它了！实测真的很牛

音频克隆的开源项目很多，但是每次项目里要用的时候，总还是惦记着11labs的api。

F5-TTS 音频克隆

Westlake - Omni：西湖心辰推出的全球首个开源的中文情感端 - 端语音交互大模型

尤为独特的是，该模型能够精准捕捉文本中的情感信息，并将其巧妙地转化为富有情感色彩的语音，无论是欢快愉悦、悲伤难过，还是愤怒激昂、平静温和等情感，都能被细腻地呈现出来，让语音交互更具人性化和亲和力。

Westlake -Omni 语音

「语音识别的未来已来」——探索Distil-Whisper，轻量级AI的强大力量

那么，这个被誉为“语音识别的未来”的AI工具到底有何过人之处？

Distil-Whisper 语音识别

<...7 8 9 101112 13 14 15 16 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1