首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· 大模型应用发展的方向|代理 Agent 的兴起及其未来(上)
· 划重点!全网最全AI数字人工具合集!
· 大模型推理能力增强方法总结
· 惊艳推荐!8款好用又免费的文本转语音TTS工具
· Kimichat炒股:7个提示词案例
· LLM每周速递!大模型最前沿:多模态RAG、RAG加速、大模型Agent、模型微调/对齐
· 字节开源项目MimicTalk:快速打造逼真3D Talking Face的利器
· 我们需要的不是智能体,而是工作流(5000字保姆式教学)
· 神奇的 OuteTTS - 0.1 - 350M:用几秒钟音频克隆声音的黑科技!
· 开源!数字人资源大集合!
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
开源
GPT-4o实时
语
音
方案提供商Livekit开源voice agent:轻松处理
音
视频流
轻松访问 LiveKit WebRTC 会话并处理或生成
音
频、视频和数据流。
voice
agent
开源
音视频
开源
OpenAI 开源
语
音
识别 Whisper 的使用体验怎么样?
关于Buzz Buzz 是一款基于 OpenAI 开源 Whisper 自动
语
音
识别模型的软件工具,能够将
音
频或视频中的
语
音
自动识别为带有时间戳的文本字幕。
生成式AI
开源
从 GPT-4o 到 LiveKit:实时
语
音
交互的开源实现
今天我们来聊聊OpenAI 发布会提到的实时对话
语
音
技术。
GPT-4o
语音交互
GLM-4-Voice 9B——实时多
语
言
语
音
对话 AI——几分钟内即可在本地安装
如何设置 GLM-4-Voice 9B 以实现无缝的实时
语
音
交互,支持英
语
和中文,并探索其独特的架构、低延迟响应和可定制的声
音
属性。
GLM-4-Voice
9B
语音
安装
Python
Whisper对于中文
语
音
识别与转写中文文本优化的实践(Python3.10)
阿里的FunAsr对Whisper中文领域的转写能力造成了一定的挑战,但实际上,Whisper的使用者完全可以针对中文的
语
音
做一些优化的措施,换句话说,Whisper的“默认”形态可能在中文领域斗不过
Whisper
语音优化
开源
OpenAI真的开源了!这波「实时
语
音
」操作,让万物开口说话,我爱了
就像直播里的那只麋鹿,它能听懂你的问题,然后用自然流畅的
语
音
跟你聊天,就是这个 SDK 的功劳!
OpenAI
嵌入式实时语音
SDK
Google
AI“同声传译”新进展!Google发布,无监督,
语
音
识别:Translatotron 3!
语
音
识别(ASR)是指将人类的
语
音
转换为文本的技术,然而,目前的
语
音
识别技术还面临着一些挑战,其中最大的一个就是如何支持更多的
语
言。
Translatotron
语音识别
语
音
识别的未来已来:深入了解faster-whisper的突破性进展
这种实现不仅提高了
语
音
识别的速度,还优化了内存使用效率。
语音识别
Faster-Whisper
大模型
中国大模型融资暗战:罗曼蒂
克
的快速消亡
多位接近闫俊杰的人士表示,“闫俊杰是典型的技术宅,说话声
音
小,可能并不擅长对外”,所以平时公司对外融资、以及一些管理、外部活动也通常由贠烨祎负责。
大模型
暗战
「
语
音
识别的未来已来」——探索Distil-Whisper,轻量级AI的强大力量
那么,这个被誉为“
语
音
识别的未来”的AI工具到底有何过人之处?
Distil-Whisper
语音识别
大模型
Westlake - Omni:西湖心辰推出的全球首个开源的中文情感端 - 端
语
音
交互大模型
它在
语
音
合成方面表现卓越,利用先进的深度学习技术,实现了高质量的
语
音
输出,其发
音
精准、流畅自然,仿佛真人发声。
Westlake
-
Omni
语音
AI+
音
乐|对话 Suno CEO:破圈的
音
乐生成产品是如何诞生的?
创始团队 Mikey Shulman:担任首席执行官,他曾担任Kensho的机器学习主管,麻省理工学院斯
隆
管理学院的讲师,哥伦比亚大学应用物理专业的学士学位和哈佛大学物理学专业的博士学位;
suno
音乐
数字人
数字人:从科幻走向现实的技术革命
创建数字人需要多方面的技术支持,包括计算机图形学、动作捕捉、
语
音
合成以及人工智能算法等。
数字人
语音
第一性原理以及第一性原理是怎么帮马斯
克
成为首富的
第一性原理是怎么帮马斯
克
成为首富的?
马斯克
商业
教程
【万字长文-进阶教程】一文带你从入门到精通ChatTTS, 手把手教你固定
音
色、设置
语
速、添加停顿词、口头
语
、笑声!!
ChatTTS是专门为对话场景设计的文本转
语
音
模型,例如LLM助手对话任务。
chattts
tts
文生语音
<
1
2
3
4
5
6
7
8
9
10
...
>
1
2
4
5
6
7
8
9
100