首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· AI高手都在用的10个提示词prompt网站,建议收藏!
· 大模型业务应用中数据准备的要求、难点及解决思路
· 一文搞定 ComfyUI SDXL1.0 完整流程
· Prompt小技巧(18):万能Prompt
· 比 Roop 和 Reactor 更像!IP Adapter 新模型为任何人做写真
· Coze、Dify、FastGPT:哪款智能体平台最强?深度对比分析!
· 大模型狂飙两年后,“六小龙”开始做减法
· Examful.ai
· 13.5K Star ! Fish Speech Windows本地搭建,能否达到官方的级别?强烈推荐
· AI音乐热潮下,“神曲工作室”率先失业
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
RAG
LLM之RAG实战(五)| 高级RAG 01:使用小块检索,小块所属的大块喂给LLM,可以提高RAG性能
在这一系列的博客文章/
视
频
中,我将介绍先进的RAG技术,旨在优化RAG工作流程,并解决原始RAG系统中的挑战。
RAG
检索
Stable Diffusion
stable diffusion最全18种controlnet模型,详细教程讲解。
目前AIgc领域正在持续关注,等到年底的时候做一个最全面的
视
频
和文字讲解,现在还是在等等,目前AI领域热度确实是在持续降温,但是呢,深入了解AI的人都知道,AI的发展不是想人一样需要很长时间的积累,有时候可能就是一个算法的突破
Stable
Diffusion
文生图
controlnet
换脸
Roop升级版FaceFusion换脸AI技术使用以及部署教程
SKIP AUDIO(跳过音
频
): 对于
视
频
处理,此标志可能用于决定是否处理或忽略
视
频
的音轨。
FaceFusion
教程
开源
F5-TTS:上海交大开源超逼真声音克隆TTS,告别ElevenLabs,以后就用它了!实测真的很牛
音
频
克隆的开源项目很多,但是每次项目里要用的时候,总还是惦记着11labs的api。
F5-TTS
音频克隆
RVC和SVC声音模型难找?推荐这个网站
本篇文章介绍:1, 声音数据集训练到模型的过程 2 ,SVC和RVC声音模型网站推荐 一、声音数据集训练到模型的过程 AI声音模型训练是通过分析大量音
频
数据来学习声音特性,生成与目标声音相似的新音
频
声音克隆
数字人
盘点字节跳动最新的AI应用
海外名称为Cici)、话炉(AI虚拟陪伴产品,海外名称为BageBel)、PicPic(AI图片产品)、扣子(Agent应用开发平台),2️⃣ 来自剪映的Dreamina(AI图片和
视
频
生成平台
字节
AI工具
OpenAI
基于 OpenAI Whisper 模型的实时语音转文字工具
今天给大家分享一款专注于音
频
处理和创作的开源软件【WhisperLive】 什么是 WhisperLive?
WhisperLive
音频
开源软件
零一万物
零一万物API开放平台出场!通用Chat多模态通通开放,还有200K超长上下文版本
3月,国内外模型公司动作
频
频
。
零一万物
YI
李开复
OpenAI
whisper-live:OpenAI Whisper模型的近实时实现
它可用于转录来自麦克风的实时音
频
输入和预先录制的音
频
文件。
OpenAI
Whisper
大模型
被高估的Pika,被低估的多模态AI
视
频
中,用户只要输入“马斯克穿着太空服,3D 动画”,就生成了下面这段
视
频
。
大模型
多模态
大模型
苹果一次性开源了8个大模型! 包含模型权重、训练日志和设置,OpenELM全面开源
同时升级计算机
视
觉工具包 CVNets 为 CoreNet!
OpenELM
大模型
OpenAI
【语音识别】OpenAI语音力作Whisper
与Wav2Vec 2.0等前作不同,以往的模型都是在未标注的音
频
数据上预训练的,而 Whisper 是在大量的已标注音
频
转录数据上预训练的。
语音转文字
whisper
开源
开源语音大语言模型来了!阿里基于Qwen-Chat提出Qwen-Audio!
使LLMs能够感知和理解丰富的音
频
信号以进行音
频
交互引起了广泛关注。
大模型
语音
大模型
大模型落地“诸神之战”,场景玩家先杀出重围了
在短
视
频
时代,通过线上种草
视
频
/图文为线下门店引流,已经是重要营销手段之一。
大模型
文生图
大模型
全量免费的EMO模型上架通义APP,外媒称之为Sora之后最受期待的大模型之一
据介绍,与目前市面上的主流
视
频
生成算法不同,EMO的原理是用音
频
驱动图片的人像,使其做出与音
频
内容高度匹配的口型和表情。
EMO
阿里
全民演唱
<
...
5
6
7
8
9
10
11
12
13
14
...
>
1
2
4
5
6
7
8
9
100