文章列表-AI魔法学院

文章列表

LangChain - RAG：线上系统多文档要频繁更新，每次都要重新花钱做一次 embedding，老板不批预算，批我...

做为大模型落地的两大方向之一，RAG 有个很大的坑等着我们，设想一下，需要定时更新一匹 PDF 文件到 RAG chatbot 里面去，总量不算多也不算少大约 15,000～的样子，开发环境里面根本没考虑过重新 re-index、re-embedding 的事，事到临头要更新了才想起来要重新做 embedding 不仅耗时更要耗钱，结果老板不出所料的不批预算，批我解气... 怎么破？

大模型

被高估的Pika，被低估的多模态AI

例如，在医疗领域可以通过结合图像、录音和病历文本，提供更准确的诊断和治疗方案；在交通领域，结合图像和传感器数据，带来更智能、更安全的自动驾驶体验；在教育领域，将文本、声音、视频相结合，呈现更具互动性的教育内容

大模型多模态

AI“同声传译”新进展！Google发布，无监督，语音识别：Translatotron 3！

语音识别（ASR）是指将人类的语音转换为文本的技术，然而，目前的语音识别技术还面临着一些挑战，其中最大的一个就是如何支持更多的语言。

Translatotron 语音识别

一文彻底搞懂多模态 - 多模态推理

这两种模态的信息可以是图片和文本、视频和语音等。

多模态推理大模型

Stable Diffusion

AnimateDiff：一篇文章教你学会用Stable Diffusion制作GIF动图

这是一个AnimateDiff介绍教程，这个工具可让您使用Stable Diffusion创建令人惊叹的 GIF 动画，这是目前为止最好的文本生成视频（Text-to-video）人工智能工具之一。

AnimateDiff 视频训练

通俗易懂地解释OpenAI Sora视频生成的特点有哪些？它与此前的Runway Gen2、Pika有什么区别？以及缺点是什么？

Sora生成的视频与此前其它平台生成的视频到底有哪些区别？

sora 视频生成

腾讯悄悄开源混元版「Sora」，这就是开源领域的No.1。

还有这个case： 45度俯拍，一位紫衣女修在竹林中抚琴，琴音化作七彩音符在空中飘荡。

sora 视频生成

语音识别的未来已来：深入了解faster-whisper的突破性进展

这种实现不仅提高了语音识别的速度，还优化了内存使用效率。

语音识别 Faster-Whisper

Westlake - Omni：西湖心辰推出的全球首个开源的中文情感端 - 端语音交互大模型

例如，CNNs可以从语音频谱图中提取出关键的声学特征，而Transformer模型则可以对长文本进行深入理解，从而实现准确的情感分析和语音合成。

Westlake -Omni 语音

详解 Diffusion (扩散) 模型

目前，它们主要用于图像和音频生成。

Diffusion 开源模型

Stable Diffusion

stable diffusion最全18种controlnet模型，详细教程讲解。

目前AIgc领域正在持续关注，等到年底的时候做一个最全面的视频和文字讲解，现在还是在等等，目前AI领域热度确实是在持续降温，但是呢，深入了解AI的人都知道，AI的发展不是想人一样需要很长时间的积累，有时候可能就是一个算法的突破

Stable Diffusion 文生图 controlnet

「语音识别的未来已来」——探索Distil-Whisper，轻量级AI的强大力量

那么，这个被誉为“语音识别的未来”的AI工具到底有何过人之处？

Distil-Whisper 语音识别

Sora懂不懂物理世界？

Sora的基本原理 Sora的训练集为短视频集，每个样本是一个短视频，Sora将其编码到数据空间进行降维，然后在隐空间中将特征向量切割成补丁，加上时间顺序，构成时空补丁，亦即时空令牌（time-space

文生视频视频生成 sora

数字人：从科幻走向现实的技术革命

创建数字人需要多方面的技术支持，包括计算机图形学、动作捕捉、语音合成以及人工智能算法等。

数字人语音

爆火的“女孩的一生”，plus版教程它来了

嘿，动画和视频制作的小伙伴们，今天我们来聊聊怎样用animatediff和LCM（Lower Complexity Model）来制作超炫酷的视频。

动画视频 AnimateDiff

<...5 6 7 8910 11 12 13 14 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1