首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· 使用这个工具后,我将 RAG 的准确性和召回率都提高了两倍!
· 硬核解读Stable Diffusion(系列三)
· 大模型狂飙两年后,“六小龙”开始做减法
· ChatGPT写论文指令全集
· 微软研究团队:Sora核心技术及未来机会研究报告-中英对照版
· AI绘画:InstantID Win11本地安装记录!
· 这个数字人开源项目太牛了,非常全面的项目解决方案(含源码)
· 你要牢记的四个常用AI提示词框架:ICIO、CRISPE、BROKE、RASCEF,有助于获取更加稳定和高质量的内容
· 通俗解读大模型微调(Fine Tuning)
· RAG检索增强技术在知识库智能检索场景下的应用实践
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
ChatGPT
ChatGPT Prompt提示词课程(斯坦福吴恩达 | OpenAl)指南篇 极简笔记
对于大模型prompt的设计,近期斯坦福吴恩达伙同OpenAl出了一套
视
频
教程(B站地址:https://www.bilibili.com/video/BV1AT41187qt?
prompt
大模型
教程
AI声
音
克隆 | 最全最简教程(权威版)
,但是要收费的哈 但这些都不能指定声
音
转换,所以这里使用声
音
克隆,来将指定人声训练成模型,然后文字转
音
频
。
声音克隆
教程
数字人
如何免费打造自己的数字人主播:StableDiffusion插件SadTalker打造本地数字人主播
Sadtalker是一个能够根据图片和
音
频
生成
视
频
的开源项目,它使用了一种叫做SadNet的神经网络,可以实现风格化的单图说话人脸动画。
数字人
StableDiffusion
AI绘画由入门到精通:StableDiffusion精讲课程
这款软件以其独特的优势和无限的可能性,为艺术家、设计师乃至广大创意爱好者提供了前所未有的
视
觉表达工具。
SD
视频课程
AI绘画
解读wav2lip:探究语
音
驱动唇部动作的技术原理!
而且由于生成过程中存在伪影,GAN判别器更容易关注
视
觉伪影,从而忽略
音
频
和口型的对应关系。
wav2lip
语音
数字人
腾讯出品!开源AI数字人框架!号称可以不限时长
今天,介绍一个开源创新的虚拟人
视
频
生成框架:MuseV MuseV是由腾讯
音
乐娱乐的天琴实验室开源,MuseV专注于生成高质量的虚拟人
视
频
和口型同步,能够制作出具有高度一致性和自然表情的长
视
频
内容
MuseV
视频
数字人
框架
Stable Diffusion
stable diffusion最全18种controlnet模型,详细教程讲解。
目前AIgc领域正在持续关注,等到年底的时候做一个最全面的
视
频
和文字讲解,现在还是在等等,目前AI领域热度确实是在持续降温,但是呢,深入了解AI的人都知道,AI的发展不是想人一样需要很长时间的积累,有时候可能就是一个算法的突破
Stable
Diffusion
文生图
controlnet
教程
用so-vits-svc-4.1进行
音
色转换的极简教程
这里要求切割后的
音
频
长度在5-15秒左右,不能太长或太短。
声音
sovits
在 WebUI 中使用 AnimateDiff 的一些问题和技巧
这两天晚上没事的时候就会尝试下AnimateDiff,发现这真的让
视
频
生成上了一个大台阶,估计是到了AI
视
频
爆发的前夜了。
AnimateDiff
SD
被高估的Pika,被低估的多模态AI
例如,在医疗领域可以通过结合图像、录
音
和病历文本,提供更准确的诊断和治疗方案;在交通领域,结合图像和传感器数据,带来更智能、更安全的自动驾驶体验;在教育领域,将文本、声
音
、
视
频
相结合,呈现更具互动性的教育内容
大模型
多模态
教程
用so-vits-svc-4.1进行
音
色转换的极简教程!
这里要求切割后的
音
频
长度在5-15秒左右,不能太长或太短。
so-vits-svc
音色转换
教程
RAG
RAG 2.0来了,它能成为生产落地的福
音
吗?
RAG作为当前最流行、相对成熟的的LLM应用架构,受到了开发者的广泛关注,相关围绕RAG优化的技术层出不穷,但依旧难逃达不到生产应用要求的尴尬。
RAG
大模型
「语
音
转换新速度」— 探秘Whisper JAX的70倍速提升
这意味着它能够同时处理多个
音
频
片段,大幅缩短了从语
音
到文本的转换时间。
Whisper
语音识别
开源
【语
音
领域-又双叒更新】阿里开源FunAudioLLM: 2大核心模型、5大亮点功能!效果炸裂!手把手带你理论+实战部署推理!
包含两个核心模型:SenseVoice 负责语
音
识别和
音
频
处理,CosyVoice 负责语
音
生成和控制。
asr
tts
声音
Sora
Sora物理悖谬的几何解释
所示,Sora的训练集为短
视
频
集,每个样本是一个短
视
频
,同类的短
视
频
构成一个数据流形。
Sora
解释
<
...
4
5
6
7
8
9
10
11
12
13
...
>
1
2
4
5
6
7
8
9
100