首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· 最强国产开源多模态大模型MiniCPM-V:可识别图片、视频,还可在端侧部署
· Kimi+扣子Coze,我零门槛制作了一个好用的智能体Agent | 智能体开发
· 13.5K Star ! Fish Speech Windows本地搭建,能否达到官方的级别?强烈推荐
· 【Stable Diffusion操作升级】Stable Diffusion 常用模型下载与说明
· 包阅AI-免费AI阅读翻译神器!
· 字节跳动最强AI工具 “豆包” ,近1000款应用!一句话自动生成图文,堪比ChatGPT?
· 大模型评测新思路:弱智吧精华问题大全
· 精通结构化提示词:如何精确操控指令的作用域与优先级
· 小白设计师福音:Stable Diffusion 16款插件测评,好用不?推荐吗?
· LangChain手册(Python版)11模块:提示模板
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
大模型
炸裂!百川开源第1个7B多模态大模型 Baichuan-Omni | 能够同时分析图像/视
频
/
音
频
/文本
对于
音
频
对齐,作者收集了开源和内部的数据集,用于自动语
音
识别(ASR)和
音
频
问答(AQA)。
Baichuan-Omni
多模态大模型
数字人
最强开源数字人对口型系统介绍
大家好,今天给大家介绍的是开源“最强”的数字人
克
隆
方法 Easy-Wav2Lip: 仓库地址: https://github.com/anothermartz/Easy-Wav2Lip
数字人
开源模型
阿里
阿里&字节发表VividTalk,只需单张照片即可根据
音
频
生成栩栩如生的人物说话头像视
频
它通过先进的
音
频
到3D网格映射技术和网格到视
频
的转换技术,实现了高质量、逼真的
音
频
驱动的说话头像视
频
生成。
VividTalk
视频
开源
生成式AI领域拓展!MetaAI开源AudioCraft:一个支持AudioGen、MusicGen等模型的
音
频
生成开发框架
然而,
音
频
生成领域的进展却相对滞后。
开源模型
OpenAI
【语
音
识别】OpenAI语
音
力作Whisper
与Wav2Vec 2.0等前作不同,以往的模型都是在未标注的
音
频
数据上预训练的,而 Whisper 是在大量的已标注
音
频
转录数据上预训练的。
语音转文字
whisper
Insanely Fast Whisper:超快的Whisper语
音
识别脚本
通过使用Transformers和Optimum技术,可以在不到10分钟内转录300分钟(5小时)的
音
频
。
音频
Whisper
AI
音
乐热潮下,“神曲工作室”率先失业
她觉得,AI
音
乐可能会对抖
音
等平台上批量产出的歌曲产生较大影响,甚至不排除视
频
平台自主引入AI作曲机制,影响由第三方负责的“神曲”创作的生存空间。
音乐
音频
开源
网易(TTS)EmotiVoice:开源语
音
合成,支持2000多
音
色
你是否曾经想过,如果你能用自己喜欢的声
音
来朗读任何文本,那该多好?
EmotiVoice
语音合成
数字人
SadTalker数字人常见问题3
SadTalker数字人制作工具,用自带的图片
音
频
可以生成,而用自己的图片、
音
频
生成视
频
就不行。
SadTalke
开源
字节开源项目MimicTalk:快速打造逼真3D Talking Face的利器
动态表现力:通过上下文风格化的
音
频
到运动模型(ICS-A2M),MimicTalk能够「捕捉和模仿目标人物的动态说话风格」,使生成的视
频
更加生动和富有表现力。
MimicTalk
开源模型
下载
绝对是你的下载神器!AixDownloader可让你从任何网页下载你想要的内容,
音
乐、视
频
、图像、文件等!
看到网上有超赞的视
频
、
音
乐或图片,却无法轻松地保存到自己的电脑或手机上?
AixDownloader
下载
数字人
AI虚拟主播数字人技术实现Wav2Lip
本文主要实现图片说话(如下图的蒙娜丽莎)、视
频
融合语
音
(这里的核心都是人物口型与
音
频
中的语
音
唇形同步)。
数字人
视频
数字人
腾讯开源的数字人MuseTalk到底行不行?
MuseTaIk是由腾讯团队开发的先进技术,它是一个实时高质量的
音
频
驱动唇部同步模型。
MuseTalk
数字人
音频
ChatGPT
15种ChatGPT高
频
用法
本文列出了15个可以高频使用chatgpt以及其他大模型的场景,希望对您会有启发
大模型
效率
大模型
中国大模型融资暗战:罗曼蒂
克
的快速消亡
多位接近闫俊杰的人士表示,“闫俊杰是典型的技术宅,说话声
音
小,可能并不擅长对外”,所以平时公司对外融资、以及一些管理、外部活动也通常由贠烨祎负责。
大模型
暗战
<
1
2
3
4
5
6
7
8
9
10
...
>
1
2
4
5
6
7
8
9
100