首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· 使用这个工具后,我将 RAG 的准确性和召回率都提高了两倍!
· 硬核解读Stable Diffusion(系列三)
· 大模型狂飙两年后,“六小龙”开始做减法
· ChatGPT写论文指令全集
· 微软研究团队:Sora核心技术及未来机会研究报告-中英对照版
· AI绘画:InstantID Win11本地安装记录!
· 这个数字人开源项目太牛了,非常全面的项目解决方案(含源码)
· 你要牢记的四个常用AI提示词框架:ICIO、CRISPE、BROKE、RASCEF,有助于获取更加稳定和高质量的内容
· 通俗解读大模型微调(Fine Tuning)
· RAG检索增强技术在知识库智能检索场景下的应用实践
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
开源
GPT-4o实时语音方案提供商Livekit开源
voice
agent:轻松处理音视频流
代理框架设计用于构建在服务器上运行的实时、可编程参与者。轻松访问 LiveKit WebRTC 会话并处理或生成音频、视频和数据流。该框架包括用于常见工作流程的插件,例如语音活动检测和语音转文本。代理与 LiveKit 服务器无缝集成,将作业排队和调度责任卸载给它。这样就不需要额外的排队基础设施了。在本地计算机上开发的代理代码在部署到生产中的服务器时,可以扩展以支持数千个并发会话。
voice
agent
开源
音视频
语音
GLM-4-
Voice
9B——实时多语言语音对话 AI——几分钟内即可在本地安装
这正是Zhipu AI的GLM-4-
Voice
脱颖而出的地方。
GLM-4-Voice
9B
语音
安装
语音
关于AI声音生成的一切(语音+音乐+嘴型)
whisperX 文字转声音+声音克隆 •clone-
voice
声音
开源
从声纹模型到语音合成:音频处理 AI 技术前沿 | 开源专题 No.45
w-okada/
voice
-changer[2] Stars: 12.4k License: NOASSERTION VC Client 是一个用于实时音频转换的客户端软件
AudioCraft
音频
【2023.10】看目前巨头的AI原生产品布局
【OA.2】ChatGPT
Voice
按照OpenAI的说法,
Voice
能力只是简单地在ChatGPT模式上使用了语音识别和一个高质量的TTS。
大模型
产品
赚钱
你还在为钱发愁?2023年十大赚钱GPT Prompts高级指南!(国际版)
Use AIVA to compose compelling emotional soundtracks and
Voice
ai to read the paragraphs and mantras
prompt
ChatGPT
建议收藏:超详细ChatGPT(GPT 4.0)论文润色指南
Prompt: I have used a passive
voice
in this sentence.
论文润色
写作
【提前体验GPT-5】吴恩达AI智能体工作流详细解读
posture of a boy, using the boy's posture as a reference, and then describe the generated image using
voice
GPT-5
智能体
开源
17K star!30秒偷走你的声音,开源声音克隆工具
论文:https://arxiv.org/abs/2312.01479 网站:https://research.myshell.ai/open-
voice
安装&ensp
OpenVoice
声音克隆
开源
语音
实时语音克隆
如果您正在运行 X 服务器或者遇到错误 Aborted (core dumped) ,请参阅此问题 项目链接 https://github.com/CorentinJ/Real-Time-
Voice
-Cloning
语音
克隆
开源
从 GPT-4o 到 LiveKit:实时语音交互的开源实现
LiveKit 不仅有一个开源的
voice
agent 方案[1],还能为你提供一个成熟且强大的实时多模态 AI 解决方案。
GPT-4o
语音交互
大模型
整理了近期所有TTS相关的大模型
netease-youdao/EmotiVoice/blob/main/LICENSE) [Yes](https://github.com/netease-youdao/EmotiVoice/wiki/
Voice
-Cloning-with-your-personal-data
TTS
大模型
OpenAI
【语音识别】OpenAI语音力作Whisper
我们对所有音频进行训练,包括没有语音的片段,并将这些片段用作语音活动检测模型(
voice
activity detection)的训练数据。
语音转文字
whisper
13.5K Star ! Fish Speech Windows本地搭建,能否达到官方的级别?强烈推荐
详见 语音克隆最佳实践指南[https://docs.fish.audio/text-to-speech/
voice
-clone-best-practices]。
Fish
Speech
本地搭建
神奇的 OuteTTS - 0.1 - 350M:用几秒钟音频克隆声音的黑科技!
使用的语音合成器、以及其他一些生成参数 16 output = interface.generate( 17 text="This is a cloned
voice
OuteTTS-0.1-350M
音频
<
1
2
>
1
2
4
5
6
7
8
9
100