文章列表-AI魔法学院

文章列表

GPT-4o实时语音方案提供商Livekit开源voice agent：轻松处理音视频流

轻松访问 LiveKit WebRTC 会话并处理或生成音频、视频和数据流。

voice agent 开源音视频

OpenAI 开源语音识别 Whisper 的使用体验怎么样？

关于Buzz 　　Buzz 是一款基于 OpenAI 开源 Whisper 自动语音识别模型的软件工具，能够将音频或视频中的语音自动识别为带有时间戳的文本字幕。

生成式AI

从 GPT-4o 到 LiveKit：实时语音交互的开源实现

今天我们来聊聊OpenAI 发布会提到的实时对话语音技术。

GPT-4o 语音交互

GLM-4-Voice 9B——实时多语言语音对话 AI——几分钟内即可在本地安装

如何设置 GLM-4-Voice 9B 以实现无缝的实时语音交互，支持英语和中文，并探索其独特的架构、低延迟响应和可定制的声音属性。

GLM-4-Voice 9B 语音安装

蚂蚁推出ProChat：快速搭建大语言模型 Chat 对话的前端组件库

// 支持流式和非流式｝｝ /> ); 特性 Note ProChat 专注于快速搭建起大语言模型

ProChat 大语言模型

Whisper对于中文语音识别与转写中文文本优化的实践(Python3.10)

阿里的FunAsr对Whisper中文领域的转写能力造成了一定的挑战，但实际上，Whisper的使用者完全可以针对中文的语音做一些优化的措施，换句话说，Whisper的“默认”形态可能在中文领域斗不过

Whisper 语音优化

如何快速构建GPTs个人知识库应用？

如何构建GPTs个人知识库应用构建一个专属的GPTs个人知识库应用可以极大地提升你的工作效率和日常生活的便利。

GPTs 知识库

【中华民族史上最强智库】完整提示词

用户可输入’/optimize ‘，然后再加上需要优化的需求，你将重新优化内容/more：用户可输入’ /more ‘，你将输出更多相关信息以下是【中华民族史上最强智库】

提示词大模型

OpenAI真的开源了！这波「实时语音」操作，让万物开口说话，我爱了

简单点说，就是一个“大脑”，能装进各种小玩意儿里，能让各种设备（比如毛绒玩具）具备实时语音交互的能力。

OpenAI 嵌入式实时语音 SDK

如何避免大语言模型绕过知识库乱答的情况？LlamaIndex 原理与应用简介

可以直接向知识库、Slack 和其他通信工具以及数据库和几乎所有 SaaS 内容提出复杂的问题，而无需以任何特殊方式准备数据。

大语言模型

windows安装向量数据库milvus

本文介绍windows下安装milvus的方法：首先要安装docker，然后安装向量库milvus

向量库 docker

AI“同声传译”新进展！Google发布，无监督，语音识别：Translatotron 3！

语音识别（ASR）是指将人类的语音转换为文本的技术，然而，目前的语音识别技术还面临着一些挑战，其中最大的一个就是如何支持更多的语言。

Translatotron 语音识别

语音识别的未来已来：深入了解faster-whisper的突破性进展

这种实现不仅提高了语音识别的速度，还优化了内存使用效率。

语音识别 Faster-Whisper

向量数据库不是一个单独的数据库分类

其中包括图数据库、关系数据库、文档数据库以及键值数据库，甚至还包括缓存。

大模型向量数据库

搞了一个Dify开源知识库

; 初衷：也是在机缘巧合下，感谢MAX和众多大佬的呼声支持下，临时组建了这么一个dify开源交流社区，因为我是初学者，从官方文档入手，从一个初学者的角度步步为营，整理出一个公开的知识库v1.0

Dify 大模型知识库

<1 234 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1