首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· F5-TTS:上海交大开源超逼真声音克隆TTS,告别ElevenLabs,以后就用它了!实测真的很牛
· 技术爆炸!AI一图换脸新王者,Instant ID保姆级安装与使用测评
· 图文生成短视频的方法
· 免费的文本生成视频解决方案:AnimateDiff下载-可用于StableDiffusion的webui以及ComfyUI
· AI Agent行业深度:框架拆解、应用方向、应用领域及相关公司深度梳理
· SD好复杂,是不是很糊,一文搞懂Stable Diffusion的各种模型及用户操作界面
· 国产视频制作之光-可灵:提示词大全整理
· AI高手都在用的10个提示词prompt网站,建议收藏!
· 它来了!SDXL + ControlNet 终于强强联合!
· 完全指南——使用python提取PDF中的文本信息(包括表格和图片OCR)
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
开源
有感情的语
音
合成开源模型:ChatTTS安装使用详解
ChatTTS是一个为对话场景设计的语
音
生成模型,专门用于大型语言模型(LLM)助手的对话任务、对话语
音
和
视
频
介绍等应用。
ChatTTS
语音合成
Roop参数说明,ROOP->StyleGAN演示!
比如一件事情,两个人
同
时干,肯定比一个人干快。
视频
StyleGAN
Sora
OpenAI Sora
视
频
生成模型技术报告中英全文+总结+影响分析
用多模态模型给
视
频
做标注,把不
同
格式的
视
频
编码成统一的
视
觉块嵌入,然后用足够大的网络架构+足够大的训练批次(batch size)+ 足够强的算力,让模型对足够多的训练集做全局拟合(理解),在模型更好地还原细节的
同
时让模型出现智能涌现能力
sora
openai
视频生成
ChatGLM
在Win11上部署ChatGLM3详细
步
骤
评测显示,在44个中英文公开数据集测试中,到目前为止ChatGLM3在国内
同
尺寸模型中排名首位。
大模型
ChatGLM
智普
阿里
四木测评|让教父唱《野狼disco》、恶搞《甄嬛传》,火遍全网的阿里明星项目EMO正式开放
把这张由Stable Diffusion 生成的 AI 小姐姐照片,丢进EMO操作界面,我们得到了下面这段
视
频
: ,时长00:14 整体来说,
视
频
的质量还是比较高的,不论是
同
步
口型、人物眨眼、还是头部运动
EMO
阿里
全民演唱
大模型
最强国产开源多模态大模型MiniCPM-V:可识别图片、
视
频
,还可在端侧部署
总参数量 8B,单图、多图和
视
频
理解性能超越了 GPT-4V。
minicpm
面壁
开源
阿里巴巴语
音
实验室发布开源语
音
处理框架ClearerVoice-Studio,支持语
音
增强、分离、目标说话人提取
更灵活的应用场景:无论是多人会议记录中区分不
同
发言者,还是多声道
音
频
编辑,它都能轻松胜任。
ClearerVoice-Studio
语音
数字人
数字人起飞!字节Loopy对口型功能在即梦上线 可根据语境匹配表情和情绪
以往,对口型
视
频
往往存在一个通病,那就是看似嘴型对上了,但总感觉这个声
音
不是他发出来的,以至于大家看对口型
视
频
的时候,会有一种割裂感。
Loopy
视频
开源
通过声
音
生成逼真的全身形象?!Meta开源AI工具:audio2photoreal
这是一个由Facebook研究院开发的技术,可以根据
音
频
生成逼真的人物
视
频
!
audio2photoreal
开源工具
OpenAI
【语
音
识别】OpenAI语
音
力作Whisper
与Wav2Vec 2.0等前作不
同
,以往的模型都是在未标注的
音
频
数据上预训练的,而 Whisper 是在大量的已标注
音
频
转录数据上预训练的。
语音转文字
whisper
Sora
快手版Sora「可灵」开放测试:生成超120s
视
频
,更懂物理,复杂运动也能精准建模
与
视
频
一
同
曝光的,是一款名为「可灵」全新国产
视
频
生成大模型。
可灵
快手
文生视频
OpenAI
whisper-live:OpenAI Whisper模型的近实时实现
它可用于转录来自麦克风的实时
音
频
输入和预先录制的
音
频
文件。
OpenAI
Whisper
大模型
Stable Diffusion
AnimateDiff:一篇文章教你学会用Stable Diffusion制作GIF动图
这是一个AnimateDiff介绍教程,这个工具可让您使用Stable Diffusion创建令人惊叹的 GIF 动画,这是目前为止最好的文本生成
视
频
(Text-to-video)人工智能工具之一。
AnimateDiff
视频
训练
Sora
通俗易懂地解释OpenAI Sora
视
频
生成的特点有哪些?它与此前的Runway Gen2、Pika有什么区别?以及缺点是什么?
上图是生成海归游泳的
视
频
,不
同
尺寸的
视
频
里面海归都是正中间位置,不会出现主要目标被剪裁的情况。
sora
视频生成
开源
腾讯悄悄开源混元版「Sora」,这就是开源领域的No.1。
同
样,现场宣布,直接,开源。
sora
视频生成
<
1
2
3
4
5
6
7
8
9
10
...
>
1
2
4
5
6
7
8
9
100