首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· 国内厂商语音识别与Whisper评测:现状与概况对比
· 你的下一个浏览器,可以是豆包电脑版!
· MCP服务介绍及应用场景报告-来自Manus
· DeepMusic发布“和弦派”2.0:重塑AI音乐创作范式,赋予创作者全方位掌控
· 【万字长文-进阶教程】一文带你从入门到精通ChatTTS, 手把手教你固定音色、设置语速、添加停顿词、口头语、笑声!!
· Stable Diffusion | SD腾讯云3步部署,全程五分钟,附价格费用清单
· 提示词框架:BROKE
· AI写作:如何用AI一键提炼文章要点,10倍提效(含提示词)
· Suno音乐新手指南(手把手完整版教程)
· 这个数字人开源项目太牛了,非常全面的项目解决方案(含源码)
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
开源
6个最佳开源TTS引擎
TTS引擎用于实现
文
本
到
语
音
的
转
换。
TTS引擎
开源模型
教程
用so-vits-svc-4.1进行
音
色
转
换的极简教程
其实歌声
转
换不仅仅适用于歌声,普通讲话也可以,只是歌唱的
音
调基
本
能覆盖到低、中、高全域声
音
类型,而正常说话可能无法做到全域覆盖,但是如果在录制声
音
的时候能够做到覆盖多种
音
调类型,也可以实现声
音
转
换。
声音
sovits
OpenAI
OpenAI大动作:Whisper large-v3重塑
语
音
识别技术
这款最新的自动
语
音
识别模型不仅在多
语
言识别方面取得了显著进步,而且还将很快在OpenAI的API中得到支持。
Whisper
语音识别
开源
开源
语
音
大
语
言模型来了!阿里基于Qwen-Chat提出Qwen-Audio!
然而,
语
言模型缺乏像人类一样感知非
文
本
模态(如图像和
音
频)的能力。
大模型
语音
教程
【万字长
文
-进阶教程】一
文
带你从入门到精通ChatTTS, 手把手教你固定
音
色、设置
语
速、添加停顿词、口头
语
、笑声!!
ChatTTS是专门为对话场景设计的
文
本
转
语
音
模型,例如LLM助手对话任务。
chattts
tts
文生语音
开源
研究人员开源中
文
文
本
嵌入模型,填补中
文
向量
文
本
检索领域的空白
领域内通用的解决方案是,将历史对话或者领域
语
料中的相关知识通过向量检索,再补充到 GPT 模型的上下
文
中。
GPT
大模型
ollama
本
地部署自然
语
言大模型
大模型已经发布很久,网络上的大模型形形色色,现在已然是群英荟萃,那么,如何在
本
地运行一个大模型?
ollama
语言大模型
部署
开源
从声纹模型到
语
音
合成:
音
频处理 AI 技术前沿 | 开源专题 No.45
· AudioGen:一种最新技术实现的
文
本
到声
音
模型。
AudioCraft
音频
解读wav2lip:探究
语
音
驱动唇部动作的技术原理!
本
文
将深入介绍一下wav2lip的技术原理和细节,了解它是如何实现
语
音
驱动唇部运动的!
wav2lip
语音
开源
网易有道强力开源中英双
语
语
音
克隆
推理输入
文
本
格式是: <speaker>|<style_prompt/emotion_prompt/content>|<phoneme>|<content>
语音
开源
开源
【开源项目】Flow Matching
语
音
合成
CFM是一种新技术,已被证明可以改进扩散模型,Meta的Voicebox模型将CFM引入
语
音
合成领域,下面是voicebox的一个工作流程图 Matcha-TTS是第一个开源conditional
音视频
Flow
Matching
大模型
Westlake - Omni:西湖心辰推出的全球首个开源的中
文
情感端 - 端
语
音
交互大模型
尤为独特的是,该模型能够精准捕捉
文
本
中的情感信息,并将其巧妙地
转
化为富有情感色彩的
语
音
,无论是欢快愉悦、悲伤难过,还是愤怒激昂、平静温和等情感,都能被细腻地呈现出来,让
语
音
交互更具人性化和亲和力。
Westlake
-
Omni
语音
大模型
炸裂!百川开源第1个7B多模态大模型 Baichuan-Omni | 能够同时分析图像/视频/
音
频/
文
本
为了提高从数据集中生成的
音
频
文
本
对的质量,作者利用了自家的ASR系统,并结合了多个开源模型来生成多个
转
录版
本
。
Baichuan-Omni
多模态大模型
开源
开源免费离线
语
音
识别神器whisper如何安装
whisper介绍 Open AI在2022年9月21日开源了号称其英
文
语
音
辨识能力已达到人类水准的Whisper神经网络,且它亦支持其它98种
语
言的自动
语
音
辨识。
wisper
翻译
免费
开源
有道开源的国产
语
音
库EmotiVoice爆火了!具有情绪控制功能的
语
音
合成引擎!
前不久小圈为大家介绍过 Coqui
文
本
转
语
音
(Text-to-Speech,TTS) 模型,相比较市面上原有的开源TTS模型,Coqui 有其独特的优势,也受到了广大科技互联网爱好者的青睐
EmotiVoice
语音库
<
1
2
3
4
5
6
7
8
9
10
...
>
1
2
4
5
6
7
8
9
100