文章列表-AI魔法学院

文章列表

回望做大模型一年后的感悟

但现在大家都在讨论“scaling law”还能不能持续下去，GPT5可能带来的能力提升是什么；chatgpt用户量增长几乎平了，productivity类的产品会不会有增长天花板，从推理成本来看chatgpt

大模型感悟

LLM每周速递！大模型最前沿：多模态RAG、RAG加速、大模型Agent、模型微调/对齐

斯坦福 | 上下文Scaling Laws 论文：https://arxiv.org/pdf/2410.16531 本文研究了上下文学习（ICL）在不对模型进行微调训练的情况下提高语言模型执行复杂任务的能力

大模型研究

中国大模型「顶流群聊」笔记

他说很快大家就会发现，做过大模型 Infra 的人比做大模型的人还要贵、更稀缺；而会做 Scaling Law（扩展定律，模型能力随着训练计算量增加而提升）的人比会做大模型 Infra 的人更稀缺。

大语言模型

揭秘DeepSeek:一个更极致的中国技术理想主义故事

Scaling Law也在被如此对待。

DeepSeek 大模型

【提前体验GPT-5】吴恩达AI智能体工作流详细解读

Ng also suggests the concept of scaling up from one to multiple intelligent agents with distinct functionalities

GPT-5 智能体

快手版Sora「可灵」开放测试：生成超120s视频，更懂物理，复杂运动也能精准建模

类Sora模型架构，scaling law得到验证先从模型的设计说起，这当中主要应当考虑两方面的因素，一是足够强的拟合能力，二是足够多的参数容量。

可灵快手文生视频

《构建个人知识图谱》：让 AIGC 帮你自动构建知识图谱

as K8s, is an open-source system for automating deployment, scaling

提示词文生图 AIGC

OpenAI视频模型Sora的推理生成成本多高？

、大显存 LLM 推理芯片，可以绕开芯片制程的瓶颈迅速商业化测算 GPT-4 的训练算力需求首先估算 GPT-4 的算力需求，根据 OpenAI 的 Paper： Scaling

Sora 推理算力

大模型：泛化即智能，压缩即一切

如果你认同Scaling Law定律，你就应该相信通过大量不同的数据来追求长期的模型泛化能力比短期的通过巧妙的模型微调更重要，这个想法在机器学习先驱 Rich Sutton 《苦涩的教训》中也有所体现。

大模型泛化

大模型文本生成——解码策略（Top-k & Top-p & Temperature）

· 它可以与其他解码策略结合使用，例如温度调节（Temperature Scaling）、重复惩罚（Repetition

大模型

Stablediffusion3论文下载-确定了Stablediffusion3与Sora的架构是一致的

这篇论文的标题是《Scaling Rectified Flow Transformers for High-Resolution Image Synthesis》，作者是来自Stability AI的多位研究人员

SD 论文

大模型时代-行业落地的再思考

而且，该阈值和预训练模型的大小，预训练时原始数据的比例等条件都息息相关，需要在实践中反复修正（这个时候就能看出scaling law的重要性了）。

大模型

理解 o3 及其技术分析

虽然我过去曾是LLM半结构化输出的鼓吹者，但我目前认为某种程度的细粒度Thought结构化是不容易实现的，考虑到OpenAI的开发时间，以及结构化并不能很好scaling到各个领域，这个方式也不像是符合

o3 技术分析

微调、训练大模型概念介绍及论文笔记：Tuning系列论文笔记

#65533;��) q, k, v是输入数据，在微调过程中仅改变输入的序列长度并不会改变权重矩阵推荐材料 Scaling

训练微调

大模型狂飙两年后，“六小龙”开始做减法

不同于预训练强调规模优先的Scaling Law，o1通过在推理阶段注入强化学习和思维链，打开了大模型在推理端的“能力上限”，这意味着国内的大模型企业可以模仿OpenAI，找到继续scale

AI 大模型

<123 >

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1