文章列表-AI魔法学院

文章列表

解读wav2lip：探究语音驱动唇部动作的技术原理！

为了解决上述两个问题，wav2lip引入了一个在真实视频中预训练的专家口型同步判别器，且包含多帧信息，用于判断音频和口型是否同步。

wav2lip 语音

Ollama 与 Dify：AI 应用开发的强强联合

：如果模型部署失败，请检查模型配置是否正确。

Ollama Dify 大型语言模型

Stable Diffusion

Stable Diffusion WebUI v1.9.0重大更新！

根据模型时间步长（Model timesteps）而不是采样步骤（Sampling steps）进行精炼器（Refiner）切换从原理上来讲精炼器（Refiner）会根据采样器和模型的训练方式

Stable Diffusion 文生图大模型

忘了stable diffsion的英文提示词吧，这个工具点点鼠标就可以了

做了一个基于SDXL的动漫大模型blue_pencil-XL。

stable diffsion 提示词

厉害了，匹诺曹Pinokio！所有AI工具，一键安装，全部免费！整合AI绘画、AI视频、AI语音...

Pinokio，无脑一键部署主流AI模型项目！

AI绘画 AI视频 AI音乐

GTC大会黄仁勋发言稿

世界上没有哪个会议能汇聚来自如此多元科学领域的研究人员，从气候科技到无线电科学，大家都在探索如何使用 AI 来机器人化控制 MIMOS，用于下一代 6G 无线电，自动驾驶汽车，甚至是各方面的人工智能。

黄仁勋 nvidia

这个数字人开源项目太牛了，非常全面的项目解决方案(含源码)

项目的主要组成部分是Fay控制器和数字人模型，这些可以结合起来创造多种应用场景。

Fay 开源项目数字人

胎教级SO-VITS-SVC使用教程：人工智能生成歌曲

如果是Windows用户，需要使用Win系统专用的依赖文件 pip install -r requirements_win.txt 依赖库安装成功之后，在项目的根目录运行命令，启动服务：

音乐

LLM之RAG实战（五）| 高级RAG 01：使用小块检索，小块所属的大块喂给LLM，可以提高RAG性能

因为LangChain的高级RAG已经有很多资源了。

RAG 检索

图片生成速度最高提升10倍！可以做到“实时”生成！清华推出LCM/LCM-LoRA！

SD模型的优点，它可以生成高分辨率、高质量、高多样性的图像，而且可以很容易地与其他模型结合，比如变分自编码器（VAE）或对抗生成网络（GAN）。

LCM/LCM-LoRA 文生图

Stable Diffusion

Stable Diffusion AnimateDiff | 最火文本生成视频插件库

AnimateDiff介绍 AnimateDiff采用控制模块来影响Stable Diffusion模型，通过大量短视频剪辑的训练，它能够调整图像生成过程，生成一系列与训练视频剪辑相似的图像。

动画视频 AnimateDiff

AI 绘画新时代：ChatGPT + DALL-E 3

ChatGPT 绘画能力的出现对 MidJourney 来说将是巨大的冲击，这里我想引用一下 @DrJimFan[1] 的观点：多轮对话与人类反馈：DALL-E 3 通过多轮对话作为用户界面

文生图图生图 chatGPT DALL-E

高效选择：Ollama与LM Studio深度对比

这对于喜欢参与社区、推动项目发展的IT人士来说，是一个不可多得的机会。

Ollama LM Studio 对比

有道开源的国产语音库EmotiVoice爆火了！具有情绪控制功能的语音合成引擎！

通过官方项目介绍可以了解到，EmotiVoice 最突出的功能是情感合成，允许我们创建多种情感的语音。

EmotiVoice 语音库

Stable Diffusion

Stable Diffusion教程：采样器

简单点说，前向扩散是将图片转换为数据模型，而后向扩散是从数据模型生成图片。

画图 SD 采样器

<...71 72 73 747576 77 78 79 80 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2024 AI魔法学院

京ICP备20027199号-1