文章列表-AI魔法学院

文章列表

企业如何更好的使用大模型？都有哪些框架和方案

大模型有Token的限制，记忆能力有限。

人工智能大模型

星标破万！小钢炮2.6登顶GitHub，Hugging Face TOP3，燃爆开源社区！

除了对个人用户友好的模型大小，MiniCPM-V 2.6 还表现出最先进的视觉 token 密度（即每个视觉 token 编码的像素数量）。

MiniCPM-V 2.6 大模型

5 种策略控制 ChatGPT 的输出长度

需要说明的是，ChatGPT 和人类不同，它是通过令牌 (Token) 来理解文本的，本质上就是基于概率的向量计算。

写作大模型聊天 ChatGPT

解读提示工程（Prompt Engineering）

在beam搜索中，模型假设一组最有可能的前“k”个token，而不仅仅考虑每个步骤中最有可能的token。

Prompt 提示词

大模型：泛化即智能，压缩即一切！

是的，如果我们已经将数据集中的每一个token都看过了一遍，那么所谓的 "training loss" 其实就是 "next token validation loss"。

泛化大模型

Prompt及AI提问实践

比如某些模型对输入token处理时，会进行截取操作，导致多轮对话的部分信息失效，此时把Prompt放在不同的位置会产生差异较大的结果。

Prompt 大模型提问

深入解析 Mistral AI 的 Mixtral 8x7B 开源MoE大模型

1.3、每个Token仅需2个专家即可高效处理 Mixtral 8x7B最引人注目的特点之一是其对处理效率的强调。

开源模型 Mixtral 8x7B

Falcon 180B 开源影响了谁？

据官方消息，Falcon 180B是使用 Amazon SageMaker 在多达 4096 个 GPU 上同时对 3.5 万亿个 token 进行训练，比Llama 2多了近一倍的数据集，是最多token

Deepseek-V2技术报告解读！全网最细！

在RoPE的实现中，如果想要直接让模型的 q, k 具有位置性质，通常是这样做的，m,n 代表特定位置的token，R的含义可以查阅RoPE：计算输出的attention得分时，整个过程变成了：

Deepseek-V2 大模型

Yi技术报告细节分享

同时利用主题模型对数据赋予特定的主题，在最后数据采样过程种对信息密度较低的主题内容进行下采样（主要是广告文本）最终预训练数据组成如下图所示，总计3.1T Token。

Yi模型大模型

微调、训练大模型概念介绍及论文笔记：Tuning系列论文笔记

直接在预训练语言模型中统一建模，比如GPT2/GPT3 前缀微调（Prefix-tuning) 将prompt方式扩展到连续空间，在每层输入序列前面添加prompt连续向量【随机初始化，并不对应到具体的token

大语言模型应用中的文本分块策略

其次，它将确定是否能够在将检索到的文本发送到外部模型提供者（例如OpenAI）之前将其放入上下文中，因为我们可以为每个请求发送的token数量受到限制。

Stable Diffusion

Stable Diffusion 加速/优化/升级优化出图速度

3.启用 Token Merging Ratio 在SD WebUI中，进入设置——优化设置——将Token合并比率设置为0.2-0.5之间。

Stable Diffusion 文生图

RAG与Long-Context之争—没必要争

很多极端的人说可能就不存在领域大模型了，但仔细想想，即使Gemini支持1M Token、Kimi-Chat支持200w字，也就是400多个PDF(假设一个PDF平均有5k字)，垂直领域(不抬杠，这里特指一些大领域

RAG Long-Context 大模型

一位芯片投资人的十年复盘：谁是中国的英伟达｜AI光年

transformer，怎样增加带宽和显存容量，以GPT3为例，他把全世界的知识压缩到了1750 亿参数的大模型里，对于芯片来讲，现在很大的瓶颈是数据交换，上下文尤其是长文本拥有巨大的信息量，生成一个token

AI光年芯片投资

<1 2 345 6 7 8 9 10 ...>

Ai助理

Hello 👏🏻

我是 Ai助理，关于ai的问题你可以问我