首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· 必看!阿里通义千问完整技术报告
· MCP服务介绍及应用场景报告-来自Manus
· 复旦开源中文医疗大模型,基于百川微调,模型和数据集都公开
· 国内厂商语音识别与Whisper评测:现状与概况对比
· 实测:本地跑llama3:70B需要什么配置
· SD插件|EasyPhoto|妙鸭相机平替|美颜算法
· Github上Star数最多的大模型应用基础服务:Dify 深度解读
· Stable Diffusion教程:提示词
· 建议收藏:超详细ChatGPT(GPT 4.0)论文润色指南
· 爆火的“女孩的一生”,plus版教程它来了
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
阿里
阿里通义实验室薄列峰:从兵马俑跳“科目三”到照片唱歌,四大框架让AI生成的人物活起来丨GenAICon 2024
采用Video2Motion,基于视
频
人物动作驱动3D数字人;人物唱演视
频
生成框架Emote Portrait Alive能够基于单张图和音
频
,输出准确、生动的人物唱演视
频
。
通义
文生视频
开源
F5-TTS:上海交大开源超逼真声音克隆TTS,告别ElevenLabs,以后就用它了!实测真的很牛
音
频
克隆的开源项目很多,但是每次项目里要用的时候,总还是惦记着11labs的api。
F5-TTS
音频克隆
开源
通过声音生成逼真的全身形象?!Meta开源AI工具:audio2photoreal
这是一个由Facebook研究院开发的技术,可以根据音
频
生成逼真的人物视
频
!
audio2photoreal
开源工具
工具
惊艳推荐!8款好用又免费的文本转语音TTS工具
在早期,TTS技术主要依赖于预
录
制的声音样本,通过组合这些样本来生成语音。
TTS
Maker
语音
RVC和SVC声音模型难找?推荐这个网站
本篇文章介绍:1, 声音数据集训练到模型的过程 2 ,SVC和RVC声音模型网站推荐 一、声音数据集训练到模型的过程 AI声音模型训练是通过分析大量音
频
数据来学习声音特性,生成与目标声音相似的新音
频
声音克隆
数字人
Stable Diffusion
万字长篇!超全Stable Diffusion AI绘画参数及原理详解
这篇文章相当于个人的学习笔记,全文近两万字,建议配合目
录
观看。
文生图
开源
阿里巴巴语音实验室发布开源语音处理框架ClearerVoice-Studio,支持语音增强、分离、目标说话人提取
虽然音
频
技术日新月异,但许多现有方案在复杂场景中仍难以提供稳定且高质量的音
频
体验。
ClearerVoice-Studio
语音
OpenAI
基于 OpenAI Whisper 模型的实时语音转文字工具
· WhisperLive 是一款专注于音
频
处理和创作的开源软件,使用 OpenAI Whisper 模型将语音输入转换为文本输出,可以用于转
录
麦克风的实时音
频
输入和预先
录
制的音
频
文件,为艺术家和音乐制作人提供了一个强大的平台
WhisperLive
音频
开源软件
AGI
通往AGI之路:什么是结构化提示词
核心的落脚点在于有序,比如我们常见的文章目
录
结构,词典以及有排序属性的数据。
提示词
结构化
Pytorch安装(保姆级教学 真·满血·GPU版)CUDA更新?torch版本?一文全搞定!
之前在安装Pytorch版本时搞错了环境,导致每次在进行model training的时候速度很慢,后来检查了一下电脑中的torch环境,原来是CUDA版本没有更新,导致版本不匹配,没有使用CUDA,每次都在用CPU进行训练,难怪时间很长。用此文记录一下遇到的问题。
训练
AI绘画Stable-Diffusion风格化实战
在社交软件和短视
频
平台上,我们时常能看到各种特色鲜明的视觉效果,比如卡通化的图片和中国风的视
频
剪辑。
Stable-Diffusion
文生图
ChatGPT
ChatGPT Prompt提示词课程(斯坦福吴恩达 | OpenAl)指南篇 极简笔记
对于大模型prompt的设计,近期斯坦福吴恩达伙同OpenAl出了一套视
频
教程(B站地址:https://www.bilibili.com/video/BV1AT41187qt?
prompt
大模型
零一万物
零一万物API开放平台出场!通用Chat多模态通通开放,还有200K超长上下文版本
3月,国内外模型公司动作
频
频
。
零一万物
YI
李开复
数字人
如何免费打造自己的数字人主播:StableDiffusion插件SadTalker打造本地数字人主播
Sadtalker是一个能够根据图片和音
频
生成视
频
的开源项目,它使用了一种叫做SadNet的神经网络,可以实现风格化的单图说话人脸动画。
数字人
你的下一个浏览器,可以是豆包电脑版!
例如在跟着李沐老师学Llama 3.1论文过程中,视
频
的右上角现在就有了豆包的总结视
频
功能: 点击这个按钮,只需要几秒钟时间,一份针对视
频
内容的AI精读就完成了。
豆包
浏览器
<
...
3
4
5
6
7
8
9
10
11
12
...
>
1
2
4
5
6
7
8
9
100