文章列表-AI魔法学院

文章列表

从 GPT-4o 到 LiveKit：实时语音交互的开源实现

LiveKit 支持语音、视频和数据流处理，内置了自动语音识别（ASR）和文本转语音（TTS）功能，简化了语音到文本和文本到语音的转换过程。

GPT-4o 语音交互

中学生能看懂：Sora 原理解读

具体到Sora的实现，这个过程开始于一段与目标视频同样时长、但是内容完全是随机噪声的视频。

Sora 原理

OpenAI真的开源了！这波「实时语音」操作，让万物开口说话，我爱了

Sonatino - ESP32-S3 音频开发板 esp32s3 ，学过单片机的小伙伴都比较清楚，是一款微控制器芯片，如图长这个样子： ESP32-S3 是一款由 Espressif

OpenAI 嵌入式实时语音 SDK

推荐一个自动生成复杂提示词的模版：思考链（CoT）如何通过分步推理提升AI任务准确性 | 示例详解

这种方法使得模型能够逐步构建解决方案，从而减少错误并提高准确性。

思考链提示词

语音识别的未来已来：深入了解faster-whisper的突破性进展

这种实现不仅提高了语音识别的速度，还优化了内存使用效率。

语音识别 Faster-Whisper

阿里Outfit Anyone实现真人百变换装

之前我分享了阿里通义千问APP推出的 "全民舞王" ，只要一张照片就能生成一段舞蹈视频这几天相信有很多小伙伴都有在社交媒体和朋友圈刷到过这种其背后就是用的 Animate Anyone 算法

Outfit Anyone 阿里

阿里最近推出AI项目的动作太过频繁，脑子跟不上了，事出反常必有妖，盘点一下

上传一段视频，AI 自动识别视频中的运动主体人物，并一键替换成有趣的 3D 角色模型，生成与众不同的 AI 视频。

阿里大模型

LangChain - RAG：线上系统多文档要频繁更新，每次都要重新花钱做一次 embedding，老板不批预算，批我...

LangChain 提出的方案如下图所示，暂且称它为「增量更新」模式，在 data-transform 这一步、embedding 之前针对没个 chunk 做一次 hash，记录下来 hash 值，每次源数据更新了只需要在这一步里面比对一下

大模型

精通百种语言的翻译AI来了！Meta推出，免费、开源！

这个模型可以实现近101种语言之间的文本、音频、视频等多种形式的翻译，而且只需要一个模型就可以完成所有任务。

大语言模型

确实很神奇! 通过 Prompt 中加入“这件事对我的事业至关重要”这样的情感激励可以提升 LLMs 的表现

尽管大型语言模型(llm)越来越被视为向人工智能迈进的一步，在许多任务中表现出令人印象深刻的表现，但llm是否能够真正掌握心理情绪刺激仍然不确定。

Prompt 大模型情感激励

体验完阿里的EMO模型，我emo了

这是视频（你就说跳得好不好，时长00:12 四、全民唱演体验全民舞王利用的是一种口唇同步的技术

EMO 文生图

划重点！全网最全AI数字人工具合集！

· 选择头像：你可上传自己的照片，也可以选择平台提供的头像，同时调整其表情和动作。

AI 数字人

「长文」可能是目前最全的LangChain AI资源库之一

前言本文主要内容是一个LangChain资源库，里面罗列了大大小小很多个基于LangChain框架的优秀项目，包括低代码、服务、代理、模板等工具类，还有像知识管理、聊天机器人等开源项目，还包括像视频

工作

OmniVision - 968M：小巧精悍的视觉语言模型，释放多模态边缘计算强大潜能

此时，仅解冻投影层参数，使模型能够学习到视觉和文本之间的初步关联。

OmniVision -968M 多模态模型

MaskGCT：登上GitHub趋势榜榜首的TTS开源大模型

03 效果展示 MaskGCT 能超自然地模拟参考音频音色与风格，并跨语言生成音频：与基于自回归的TTS系统相比，MaskGCT具有更强的稳定性，绕口令也不在话下

MaskGCT 声音克隆

<...10 11 12 131415 16 17 18 19 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1