文章列表-AI魔法学院

文章列表

从零开始学习大模型-第二章-大模型学习路线

随着技术的进步，大模型如OpenAI的GPT-4和Sora、Google的BERT和Gemini等已经展现出了惊人的能力-从理解和生成自然语言到创造逼真的图像及视频。

大模型学习

OpenAI真的开源了！这波「实时语音」操作，让万物开口说话，我爱了

以前，智能玩具里只能播放预设的程序和声音，顶多就是进行一两轮简单提问，你可以理解成是“单向输出”，现在有了这个 openAI 的实时语音软件开发包，就变成了“双向交互”，能和你进行实时的语音对话。

OpenAI 嵌入式实时语音 SDK

阿里Outfit Anyone实现真人百变换装

之前我分享了阿里通义千问APP推出的 "全民舞王" ，只要一张照片就能生成一段舞蹈视频这几天相信有很多小伙伴都有在社交媒体和朋友圈刷到过这种其背后就是用的 Animate Anyone 算法

Outfit Anyone 阿里

全量免费的EMO模型上架通义APP，外媒称之为Sora之后最受期待的大模型之一

只需要一张人物肖像照片和一段任意时长的音频，EMO就可以让照片中的人物按照音频内容“张嘴”唱歌、说话，且口型基本保持一致，实现自然的面部表情和头部姿态。

EMO 阿里全民演唱

阿里最近推出AI项目的动作太过频繁，脑子跟不上了，事出反常必有妖，盘点一下

上传一段视频，AI 自动识别视频中的运动主体人物，并一键替换成有趣的 3D 角色模型，生成与众不同的 AI 视频。

阿里大模型

LangChain - RAG：线上系统多文档要频繁更新，每次都要重新花钱做一次 embedding，老板不批预算，批我...

做为大模型落地的两大方向之一，RAG 有个很大的坑等着我们，设想一下，需要定时更新一匹 PDF 文件到 RAG chatbot 里面去，总量不算多也不算少大约 15,000～的样子，开发环境里面根本没考虑过重新 re-index、re-embedding 的事，事到临头要更新了才想起来要重新做 embedding 不仅耗时更要耗钱，结果老板不出所料的不批预算，批我解气... 怎么破？

大模型

AI资讯速递 - 快人一步！为你填平AI领域信息差及时揭示AI领域的最新动态

AI能够制作视频吗？

AI资讯 AI新闻

数字人直播哪家强？百度、硅基、风平与闪剪四大AI数字人横向评测！

整体体验与易用性百度曦灵数字人直播平台 Lite 首先是百度曦灵数字人直播平台 Lite，虽然兼具数字人短视频与直播两大功能，但总体来看可用简陋两个字来形容，特别是短视频生成功能，只能用声音文件驱动数字人

数字人数字分身

字节开源项目MimicTalk：快速打造逼真3D Talking Face的利器

「高质量视频生成」视觉质量：MimicTalk生成的3D头像在视觉质量上超越了以往的技术，能够生成「高度逼真的面部细节和表情」。

MimicTalk 开源模型

2023年人工智能行业总结

年底谷歌发布了多模态大模型Gemini，可以理解文字、图片、代码和音视频。

人工智能 AGI 思考总结

「长文」可能是目前最全的LangChain AI资源库之一

前言本文主要内容是一个LangChain资源库，里面罗列了大大小小很多个基于LangChain框架的优秀项目，包括低代码、服务、代理、模板等工具类，还有像知识管理、聊天机器人等开源项目，还包括像视频

工作

体验完阿里的EMO模型，我emo了

，这是一种让画面人物的口型与所配的语音或文字信息精确匹配的技术。

EMO 文生图

OmniVision - 968M：小巧精悍的视觉语言模型，释放多模态边缘计算强大潜能

边缘设备，如智能手机、物联网设备等，对智能处理视觉和文本信息的需求也在急剧增长。

OmniVision -968M 多模态模型

AI“同声传译”新进展！Google发布，无监督，语音识别：Translatotron 3！

语音识别（ASR）是指将人类的语音转换为文本的技术，然而，目前的语音识别技术还面临着一些挑战，其中最大的一个就是如何支持更多的语言。

Translatotron 语音识别

精通百种语言的翻译AI来了！Meta推出，免费、开源！

这个模型可以实现近101种语言之间的文本、音频、视频等多种形式的翻译，而且只需要一个模型就可以完成所有任务。

大语言模型

<...7 8 9 101112 13 14 15 16 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1