首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· 最强国产开源多模态大模型MiniCPM-V:可识别图片、视频,还可在端侧部署
· Kimi+扣子Coze,我零门槛制作了一个好用的智能体Agent | 智能体开发
· 13.5K Star ! Fish Speech Windows本地搭建,能否达到官方的级别?强烈推荐
· 【Stable Diffusion操作升级】Stable Diffusion 常用模型下载与说明
· 包阅AI-免费AI阅读翻译神器!
· 字节跳动最强AI工具 “豆包” ,近1000款应用!一句话自动生成图文,堪比ChatGPT?
· 大模型评测新思路:弱智吧精华问题大全
· 精通结构化提示词:如何精确操控指令的作用域与优先级
· 小白设计师福音:Stable Diffusion 16款插件测评,好用不?推荐吗?
· LangChain手册(Python版)11模块:提示模板
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
教程
openpose原理及安装教程(姿态识别)
OpenPose是一个用于实时多人姿态估计的开源库,它可以检测图像或
视
频
中的人体关键点,并且能够识别不同的身体部位和动作。
行为识别
姿态识别
懒人福
音
!用AI生成会议纪要,让你的工作更高效!
通义听悟主要聚焦于
音
视
频
内容,提供多种功能,包括实时语
音
转写、
音
视
频
文件转写、实时翻译、内容标记和智能全文概要等。
会议纪要
AI工具
工具
惊艳推荐!8款好用又免费的文本转语
音
TTS工具
在早期,TTS技术主要依赖于预录制的声
音
样本,通过组合这些样本来生成语
音
。
TTS
Maker
语音
Transformer
ViTPose+:迈向通用身体姿态估计的
视
觉Transformer基础模型
目前,
视
觉transformer已经在识别、检测、分割等多个
视
觉任务上展现出来很好的性能。
ViTPose+
Transformer
身体姿态
换脸
AI 换脸——Deepfacelab 下载与安装,新手教程
AI 换脸越来越火,换脸的
视
频
到处都是,那种还是那种的都有。
Deepfacelab
换脸
动作识别模型有哪些
网络结构: 因为
视
频
可以分为空间和时间两个部分。
动作识别
模型
剪映克隆声
音
功能详解:剪映上线5秒“AI克隆
音
色”,一堆AI公司又要进入慢性死亡了...
剪映的
音
色克隆,只能克隆自己声
音
的,而不能像一些现在市面上的开源项目一样,上传一段
音
频
后,就能把那个人的声
音
克隆出来。
剪映
声音克隆
人工智能
胎教级SO-VITS-SVC使用教程:人工智能生成歌曲
sd生成的话筒xswl 原始歌曲处理(人声和伴奏分离) 如果想要使用孙燕姿的模型进行二次创作,首先需要一段已经准备好的声
音
范本,然后使用模型把原来的
音
色换成孙燕姿模型训练好的
音
色即可 这里我们五月天的
音乐
Python
Whisper对于中文语
音
识别与转写中文文本优化的实践(Python3.10)
阿里的FunAsr对Whisper中文领域的转写能力造成了一定的挑战,但实际上,Whisper的使用者完全可以针对中文的语
音
做一些优化的措施,换句话说,Whisper的“默认”形态可能在中文领域斗不过
Whisper
语音优化
大模型
OCR终结了?旷
视
提出可以文档级OCR的多模态大模型框架Vary,支持中英文,已开源!
背后原理 目前的多模态大模型几乎都是用 CLIP 作为 Vision Encoder 或者说
视
觉词表。
OCR
手写
文字识别
DeepMusic发布“和弦派”2.0:重塑AI
音
乐创作范式,赋予创作者全方位掌控
4月29日,国内领先的人工智能
音
乐服务商DeepMusic,发布了自主研发的AI
音
乐工作站——“和弦派”2.0正式版。
和弦派
DeepMusic
音乐创作
开源
OpenAI 开源语
音
识别 Whisper 的使用体验怎么样?
关于Buzz Buzz 是一款基于 OpenAI 开源 Whisper 自动语
音
识别模型的软件工具,能够将
音
频
或
视
频
中的语
音
自动识别为带有时间戳的文本字幕。
生成式AI
开源
网易有道强力开源中英双语语
音
克隆
其中的
音
素(phonemes)可以这样得到: python frontend.py data/my_text.txt > data/my_text_for_tts.txt. 5.
语音
开源
开源
从 GPT-4o 到 LiveKit:实时语
音
交互的开源实现
今天我们来聊聊OpenAI 发布会提到的实时对话语
音
技术。
GPT-4o
语音交互
换脸
除了深度换脸、模拟配
音
,还能口型匹配的AI软件出现了
Captions:利用 AI 轻松实现
视
频
翻译本地化 Captions以制作AI生成的字幕、语
音
纠正以及在后期制作中纠正
视
频
创作者眼球位置的技术而闻名。
AI
<
...
6
7
8
9
10
11
12
13
14
15
...
>
1
2
4
5
6
7
8
9
100