首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· 使用这个工具后,我将 RAG 的准确性和召回率都提高了两倍!
· 硬核解读Stable Diffusion(系列三)
· 大模型狂飙两年后,“六小龙”开始做减法
· ChatGPT写论文指令全集
· 微软研究团队:Sora核心技术及未来机会研究报告-中英对照版
· AI绘画:InstantID Win11本地安装记录!
· 这个数字人开源项目太牛了,非常全面的项目解决方案(含源码)
· 你要牢记的四个常用AI提示词框架:ICIO、CRISPE、BROKE、RASCEF,有助于获取更加稳定和高质量的内容
· 通俗解读大模型微调(Fine Tuning)
· RAG检索增强技术在知识库智能检索场景下的应用实践
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
数字人
SadTalker数字人常见问题3
SadTalker数字人制作工具,用自带的图片
音
频可以生成,而用自己的图片、
音
频生成视频就不行。
SadTalke
OpenAI
whisper-live:OpenAI Whisper模型的近实时实现
该项目是一个实时转录应用程序,使用 OpenAI Whisper 模型将语
音
输入转换为文本输出。
OpenAI
Whisper
大模型
大模型
Westlake - Omni:西湖心辰推出的全球首个开源的中文情感端 - 端语
音
交互大模型
它在语
音
合成方面表现卓越,利用先进的深度学习技术,实现了高质量的语
音
输出,其发
音
精准、流畅自然,仿佛真人发
声
。
Westlake
-
Omni
语音
大模型
炸裂!百川开源第1个7B多模态大模型 Baichuan-Omni | 能够同时分析图像/视频/
音
频/文本
作者的
音
频涵盖44种
音
色,确保
音
色丰富多样。
Baichuan-Omni
多模态大模型
语
音
识别的未来已来:深入了解faster-whisper的突破性进展
这种实现不仅提高了语
音
识别的速度,还优化了内存使用效率。
语音识别
Faster-Whisper
数字人
AI虚拟主播数字人技术实现Wav2Lip
本文主要实现图片说话(如下图的蒙娜丽莎)、视频融合语
音
(这里的核心都是人物口型与
音
频中的语
音
唇形同步)。
数字人
视频
「语
音
识别的未来已来」——探索Distil-Whisper,轻量级AI的强大力量
那么,这个被誉为“语
音
识别的未来”的AI工具到底有何过人之处?
Distil-Whisper
语音识别
阿里
阿里&字节发表VividTalk,只需单张照片即可根据
音
频生成栩栩如生的人物说话头像视频
它通过先进的
音
频到3D网格映射技术和网格到视频的转换技术,实现了高质量、逼真的
音
频驱动的说话头像视频生成。
VividTalk
视频
LangChain 的问题所在
LangChain 给人带来的是,令人沮丧的
声
音
,脆弱的 Agent 工作流,技术债务增加。
大模型
大语言模型
视频
绝对是你的下载神器!AixDownloader可让你从任何网页下载你想要的内容,
音
乐、视频、图像、文件等!
它支持云
音
乐、听书等
音
频网站的智能提取和下载。
AixDownloader
下载
Meta
各个语种互相翻译:Meta推出NLLB-200 AI模型,可实现200种语言互译
今年 7 月,Facebook 发布了一个支持 51 种不同语言的语
音
识别模型。
翻译
大模型
数字人
数字人:从科幻走向现实的技术革命
创建数字人需要多方面的技术支持,包括计算机图形学、动作捕捉、语
音
合成以及人工智能算法等。
数字人
语音
工具
TTS它又来了!OpenVoice:一款借鉴于TTS实现的强大的AI语
音
克隆工具!
其核心功能是通过提供发言者的短
音
频片段(参考语
音
),实现
声
音
的高效克隆。
tts
文本转语音
GLM-4-Voice 9B——实时多语言语
音
对话 AI——几分钟内即可在本地安装
如何设置 GLM-4-Voice 9B 以实现无缝的实时语
音
交互,支持英语和中文,并探索其独特的架构、低延迟响应和可定制的
声
音
属性。
GLM-4-Voice
9B
语音
安装
大模型
使用大模型自动回复小红书/抖
音
/快手评论:通过RAG 优化LLMs实现
大模型的最大的作用就是取代人工, 进行降本增效,而很多时候,类似于自动客服, 自动回复用户的提问, 或者作为自动客服,回复网友/用户的评价,就会是一个重要的应用场景(虽然客服不算贵,但千千万万的客服就比较贵了), 本文讨论如何使用RAG技术来进行youtube的自动评论回复。
RAG
大模型
自动回复
<
...
2
3
4
5
6
7
8
9
10
11
...
>
1
2
4
5
6
7
8
9
100