文章列表-AI魔法学院

文章列表

中学生也能看懂的Sora视频生成原理解读

通过在原生比例上进行训练，Sora可以更好地掌握视频的构图和框架设计，与那些将所有训练视频裁剪成正方形的模型相比，Sora能够更加准确地保持视频主题的全貌。

视频生成 sora

耗时7天，终于把15种ControlNet模型搞明白了

ensp; 首先处理动漫照片记得要换二次元的大模型然后关键词可以写一些质量词，然后描述一下照片里面有什么东西另外需要注意的是，图片的分辨率大小要设置的和原先的比例一样不然照片会自动裁剪放大

文生图

大模型RAG检索增强问答如何评估：噪声、拒答、反事实、信息整合四大能力评测任务探索

指标公式为：其中#tt为正确答案的数量，考虑到模型可能并不完全符合拒绝率和错误检测率的结构化要求，还使用ChatGPT对答案进行了额外的评估，即使用说明和演示来评估模型的回答，以确定它们是否能反映出文档中不存在的信息或识别出任何事实错误

大模型 RAG检索增强

大模型应用中大部分人真正需要去关心的核心——Embedding

由于CNN的空间不变特性，无论边缘或直线出现在图像的哪个位置，这些特征都将始终映射到相同的桶。

大模型

忘掉 RAG，未来是 RAG-Fusion！搜索的下一个前沿：检索增强生成遇上倒数排名融合和生成查询

搜索的过度简化：我们普遍的搜索范式是将查询线性映射到答案，缺乏理解人类查询的多维性。

RAG-Fusion 检索增强

大模型推理能力增强方法总结

从数学形式上讲，每个这样的变换都可以建模成 T (G, p_θ)，其中 G = (V, E) 是反映推理当前状态的图，p_θ 是所使用的 LLM。

推理能力大模型

大模型的研究新方向：混合专家模型（MoE）

为了缓解通信宽带瓶颈，可以考虑以下策略： - 模型剪枝和量化：减小模型的大小，包括专家模型和门控网络的参数数量，以降低通信开销。

MoE 大模型

收藏！万字长文聊聊LLM Agents的现状，问题与未来

句向量是将整个句子映射到向量空间，而计算句子语义相似度最常见的方式则是计算其text embedding之间的余弦相似度。

LLM Agents

RPA终极发展方向瞄准AI Agent，超自动化智能体时代已经开启

这两个绰号，恰恰反映了RPA不够稳定的缺点。

RPA 自动化

斯坦福宣布前端开发要失业了？！一张截图生成代码，64%优于原网页！

这种差异表明，人类评估者通常更关注高层次的视觉效果和布局，而不是详细内容，这反映了人类的自上而下处理方式。

设计转代码大模型

十篇高质量的AI-Agents相关论文，让AI教你认识AI-Agents

令人惊讶的是，我们发现，获得模型的内部状态——其对前k个预测的信心、明确或隐含的注意力映射（突出显示模型在回答有关图像的问题时正在查看（和聆听）的图像区域和问题中的单词）——并不能帮助人们更好地预测其行为

开源模型

Stable Diffusion

Stable Diffusion WebUI v1.8.0重大更新！

· 避免在修复中进行双重放大 · 修复#14591使用翻译内容进行类别映射的错误

SD 画图

一招让你的 AI 图像更惊艳！DALL-E 3 自定义指令魔法

2.对峙：这是一个充满悬念的场景，我们的武士啮齿动物与另一只生物对峙，两只啮齿动物的身影都映衬在一轮冉冉升起的巨大红日之下，给人一种行动迫在眉睫的感觉。

DALL-E3 文生图

中文开源OCR框架对比及介绍

先看下效果：整体的压缩流程就是集成模型剪枝、量化（包括量化训练和离线量化）、蒸馏和神经网络搜索等业界常用且领先的模型压缩功能。

OCR

大模型应用发展的方向｜代理 Agent 的兴起及其未来（上）

这种代理的设计优先考虑直接的输入输出映射，而不是复杂的推理和符号操作。

大模型

<...12 13 14 15 16 171819 20 21 >

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1