文章列表-AI魔法学院

文章列表

谈谈RAG存在的一些问题和避免方式

那么我们的问题是：谁知道埃隆·马斯克？

RAG 大模型

阿里最近推出AI项目的动作太过频繁，脑子跟不上了，事出反常必有妖，盘点一下

一个静态图片转视频的项目。

阿里大模型

LangChain - RAG：线上系统多文档要频繁更新，每次都要重新花钱做一次 embedding，老板不批预算，批我...

做为大模型落地的两大方向之一，RAG 有个很大的坑等着我们，设想一下，需要定时更新一匹 PDF 文件到 RAG chatbot 里面去，总量不算多也不算少大约 15,000～的样子，开发环境里面根本没考虑过重新 re-index、re-embedding 的事，事到临头要更新了才想起来要重新做 embedding 不仅耗时更要耗钱，结果老板不出所料的不批预算，批我解气... 怎么破？

大模型

无需编码，轻松提升图像品质：探索ComfyUI的图像增强功能

手动安装（Windows、Linux）： 1.使用Git克隆ComfyUI存储库。

文生图

腾讯悄悄开源混元版「Sora」，这就是开源领域的No.1。

腾讯也活成了，马斯克心中，那个OpenAI的模样。

sora 视频生成

AI“同声传译”新进展！Google发布，无监督，语音识别：Translatotron 3！

语音识别（ASR）是指将人类的语音转换为文本的技术，然而，目前的语音识别技术还面临着一些挑战，其中最大的一个就是如何支持更多的语言。

Translatotron 语音识别

一文彻底搞懂多模态 - 多模态推理

这两种模态的信息可以是图片和文本、视频和语音等。

多模态推理大模型

ComfyUI安装及生成第一张图

/install.sh)" 2、安装一些需要的包打开一个新终端并运行以下命令 brew install cmake protobuf rust python@3.10 git wget 3、克隆

ComfyUI 文生图

Stable Diffusion

AnimateDiff：一篇文章教你学会用Stable Diffusion制作GIF动图

这是一个AnimateDiff介绍教程，这个工具可让您使用Stable Diffusion创建令人惊叹的 GIF 动画，这是目前为止最好的文本生成视频（Text-to-video）人工智能工具之一。

AnimateDiff 视频训练

通俗易懂地解释OpenAI Sora视频生成的特点有哪些？它与此前的Runway Gen2、Pika有什么区别？以及缺点是什么？

Sora生成的视频与此前其它平台生成的视频到底有哪些区别？

sora 视频生成

语音识别的未来已来：深入了解faster-whisper的突破性进展

这种实现不仅提高了语音识别的速度，还优化了内存使用效率。

语音识别 Faster-Whisper

Westlake - Omni：西湖心辰推出的全球首个开源的中文情感端 - 端语音交互大模型

例如，CNNs可以从语音频谱图中提取出关键的声学特征，而Transformer模型则可以对长文本进行深入理解，从而实现准确的情感分析和语音合成。

Westlake -Omni 语音

低调的PDF，为什么成了数字文档“永远的神”？

尽管PostScript的页面描述效率已经非常高，但还是远远超出当时个人电脑的硬件能力范围，因此沃诺克和格施克最初将PostScript的服务对象定位在大型印刷工作站，直到乔布斯适时的出现

工作

详解 Diffusion (扩散) 模型

目前，它们主要用于图像和音频生成。

Diffusion 开源模型

Stable Diffusion

stable diffusion最全18种controlnet模型，详细教程讲解。

目前AIgc领域正在持续关注，等到年底的时候做一个最全面的视频和文字讲解，现在还是在等等，目前AI领域热度确实是在持续降温，但是呢，深入了解AI的人都知道，AI的发展不是想人一样需要很长时间的积累，有时候可能就是一个算法的突破

Stable Diffusion 文生图 controlnet

<...7 8 9 101112 13 14 15 16 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1