首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· 最强国产开源多模态大模型MiniCPM-V:可识别图片、视频,还可在端侧部署
· Kimi+扣子Coze,我零门槛制作了一个好用的智能体Agent | 智能体开发
· 13.5K Star ! Fish Speech Windows本地搭建,能否达到官方的级别?强烈推荐
· 【Stable Diffusion操作升级】Stable Diffusion 常用模型下载与说明
· 包阅AI-免费AI阅读翻译神器!
· 字节跳动最强AI工具 “豆包” ,近1000款应用!一句话自动生成图文,堪比ChatGPT?
· 大模型评测新思路:弱智吧精华问题大全
· 精通结构化提示词:如何精确操控指令的作用域与优先级
· 小白设计师福音:Stable Diffusion 16款插件测评,好用不?推荐吗?
· LangChain手册(Python版)11模块:提示模板
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
数字人
SadTalker数字人常见问题3
SadTalker数字人制作工具,用自带的图片
音
频可以生成,而用自己的图片、
音
频生成视频就不行。
SadTalke
ChatGPT
ChatGPT+文字
转
视频工具,让1个人1天轻松生产100条原创视频(内附全部工具)
今天给大家分享一个 ChatGPT+文字
转
视频AI工具,批量跑原创视频的玩法。
生成式AI
大模型
ollama本地部署自然语言大模型
大模型已经发布很久,网络上的大模型形形
色
色
,现在已然是群英荟萃,那么,如何在本地运行一个大模型?
ollama
语言大模型
部署
数字人
腾讯开源的数字人MuseTalk到底行不行?
MuseTaIk是由腾讯团队开发的先进技术,它是一个实时高质量的
音
频驱动唇部同步模型。
MuseTalk
数字人
音频
Google
AI“同声传译”新进展!Google发布,无监督,语
音
识别:Translatotron 3!
语
音
识别(ASR)是指将人类的语
音
转
换
为文本的技术,然而,目前的语
音
识别技术还面临着一些挑战,其中最大的一个就是如何支持更多的语言。
Translatotron
语音识别
开源
通过声
音
生成逼真的全身形象?!Meta开源AI工具:audio2photoreal
这样,你就可以用你的声
音
,创造出任何你想要的角
色
,无论是自己的形象,还是你喜欢的明星,甚至是虚拟的人物。
audio2photoreal
开源工具
学会这招,一个头像变100种风格!
在 Mijdourney 里,如何根据一张图随意切
换
风格?
Remix
文生图
开源
[中文开源震撼首发]33B QLoRA大语言模型Anima真的太强大了!QLoRA技术可能是AI
转
折点!
因此我们认为QLoRA 的工作很重要,可能是个Game Changer,是AI这一波技术革新的一个
转
折点。
开源模型
大模型
炸裂!百川开源第1个7B多模态大模型 Baichuan-Omni | 能够同时分析图像/视频/
音
频/文本
对于图像-文本数据,作者将文本数据按1:3比例分割,使用文本
转
语
音
(TTS)技术将初始四分之一文本
转
换
为
音
频描述。
Baichuan-Omni
多模态大模型
工具
使用这个工具后,我将 RAG 的准确性和召回率都提高了两倍!
是一种检索增强生成技术,它利用大型语言模型来处理用户查询,RAG 技术的主要组成包括数据提取—embedding—创建索引—检索—排序(Rerank)—LLM 归纳生成,不过实际落地过程来看,将用户查询
转
换
为嵌入向量直接检索
RAG
大语言模型
语
音
识别的未来已来:深入了解faster-whisper的突破性进展
这种实现不仅提高了语
音
识别的速度,还优化了内存使用效率。
语音识别
Faster-Whisper
阿里
淘宝模特全体注意!阿里AnyDoor AI
换
装神器出来了,年度最强AIGC重制绘图工具,重塑电商模特产业
之前用MJ的垫图
换
装,不仅要记一长串的垫图提示语和指令,关键是
换
了的衣服都是通过提示语文字重组,经常发现货不对板,跟商家需要的不一样,真是急死个人。
AnyDoor
换装
文生图
开源
F5-TTS:上海交大开源超逼真声
音
克隆TTS,告别ElevenLabs,以后就用它了!实测真的很牛
音
频克隆的开源项目很多,但是每次项目里要用的时候,总还是惦记着11labs的api。
F5-TTS
音频克隆
大模型
Westlake - Omni:西湖心辰推出的全球首个开源的中文情感端 - 端语
音
交互大模型
尤为独特的是,该模型能够精准捕捉文本中的情感信息,并将其巧妙地
转
化为富有情感
色
彩的语
音
,无论是欢快愉悦、悲伤难过,还是愤怒激昂、平静温和等情感,都能被细腻地呈现出来,让语
音
交互更具人性化和亲和力。
Westlake
-
Omni
语音
「语
音
识别的未来已来」——探索Distil-Whisper,轻量级AI的强大力量
那么,这个被誉为“语
音
识别的未来”的AI工具到底有何过人之处?
Distil-Whisper
语音识别
<
...
7
8
9
10
11
12
13
14
15
16
...
>
1
2
4
5
6
7
8
9
100