首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· 从第一性原理看大模型Agent技术
· 爆火的“哄哄模拟器”,它是如何炼成的?Prompt泄漏了
· ComfyUI官方使用手册【官网直译+关键补充】
· 【万字长文】全球AI Agent大盘点,大语言模型创业一定要参考的60个AI智能体
· 6个最佳开源TTS引擎
· AI声音克隆 | 最全最简教程(权威版)
· Kimi+扣子Coze,我零门槛制作了一个好用的智能体Agent | 智能体开发
· Coze多智能体(Multi-Agents)模式体验!
· 2024!深入了解 大语言模型(LLM)微调方法(总结)
· 懒人福音!用AI生成会议纪要,让你的工作更高效!
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
开源
GPT-4o实时语音方案提供商Livekit开源
voice
agent:轻松处理音视频流
代理框架设计用于构建在服务器上运行的实时、可编程参与者。轻松访问 LiveKit WebRTC 会话并处理或生成音频、视频和数据流。该框架包括用于常见工作流程的插件,例如语音活动检测和语音转文本。代理与 LiveKit 服务器无缝集成,将作业排队和调度责任卸载给它。这样就不需要额外的排队基础设施了。在本地计算机上开发的代理代码在部署到生产中的服务器时,可以扩展以支持数千个并发会话。
voice
agent
开源
音视频
开源
从声纹模型到语音合成:音频处理 AI 技术前沿 | 开源专题 No.45
w-okada/
voice
-changer[2] Stars: 12.4k License: NOASSERTION VC Client 是一个用于实时音频转换的客户端软件
AudioCraft
音频
语音
关于AI声音生成的一切(语音+音乐+嘴型)
whisperX 文字转声音+声音克隆 •clone-
voice
声音
【2023.10】看目前巨头的AI原生产品布局
【OA.2】ChatGPT
Voice
按照OpenAI的说法,
Voice
能力只是简单地在ChatGPT模式上使用了语音识别和一个高质量的TTS。
大模型
产品
赚钱
你还在为钱发愁?2023年十大赚钱GPT Prompts高级指南!(国际版)
Use AIVA to compose compelling emotional soundtracks and
Voice
ai to read the paragraphs and mantras
prompt
语音
实时语音克隆
如果您正在运行 X 服务器或者遇到错误 Aborted (core dumped) ,请参阅此问题 项目链接 https://github.com/CorentinJ/Real-Time-
Voice
-Cloning
语音
克隆
ChatGPT
建议收藏:超详细ChatGPT(GPT 4.0)论文润色指南
Prompt: I have used a passive
voice
in this sentence.
论文润色
写作
【提前体验GPT-5】吴恩达AI智能体工作流详细解读
posture of a boy, using the boy's posture as a reference, and then describe the generated image using
voice
GPT-5
智能体
开源
从 GPT-4o 到 LiveKit:实时语音交互的开源实现
LiveKit 不仅有一个开源的
voice
agent 方案[1],还能为你提供一个成熟且强大的实时多模态 AI 解决方案。
GPT-4o
语音交互
大模型
整理了近期所有TTS相关的大模型
netease-youdao/EmotiVoice/blob/main/LICENSE) [Yes](https://github.com/netease-youdao/EmotiVoice/wiki/
Voice
-Cloning-with-your-personal-data
TTS
大模型
开源
17K star!30秒偷走你的声音,开源声音克隆工具
论文:https://arxiv.org/abs/2312.01479 网站:https://research.myshell.ai/open-
voice
安装&ensp
OpenVoice
声音克隆
开源
OpenAI
【语音识别】OpenAI语音力作Whisper
我们对所有音频进行训练,包括没有语音的片段,并将这些片段用作语音活动检测模型(
voice
activity detection)的训练数据。
语音转文字
whisper
开源
ModelScope(一站式开源的模型即服务共享平台)的简介、安装、使用方法之详细攻略
audio-claassification 音频分类 对音频按照事件如“哭声”“爆炸声”“音乐”等事件类型进行识别和分类
voice
-activity-detection
开源
1
2
4
5
6
7
8
9
100