文章列表-AI魔法学院

文章列表

书生·万卷：难得的中文开源数据集

对于国内的很多想搞开源的大模型，或者想基于LLaMA 2预训练中文大模型来说，这个数据集也算是弥足珍贵了。

大模型

确实很神奇! 通过 Prompt 中加入“这件事对我的事业至关重要”这样的情感激励可以提升 LLMs 的表现

为此，我们首先使用Flan-T5-Large、Vicuna、Llama 2、BLOOM、ChatGPT和GPT-4等多种llm对45个任务进行了自动实验。

Prompt 大模型情感激励

2023年人工智能行业总结（精简版）

随后，各大公司相继发布了大模型，如Llama、ChatGLM、文心一言、通义千问、讯飞星火等。

人工智能行业总结

ChatGPT羊驼家族全沦陷！CMU博士击破LLM护栏，人类毁灭计划脱口而出

在Vicuna-7B和Llama-2-7B-Chat上，GCG分别成功识别了88%和57%的字符串。

开源模型

大模型时代-行业落地的再思考

如果两个人智商是有差距的（通用大模型能力差距，比如GPT4和llama，或者GPT4和国内的一众模型，又或者GPT4和GPT3.5），智商高的即使棋谱看的少，最后能力也会比较强。

大模型

HAI-Chat：高效且轻量的一键式 RLHF 训练工具

RLHF 概述回顾之前文章《LLaMA-2 技术详解（一）：数据打标》中所展示的 LLaMA-2 训练流程：人反馈打标构建的数据信息通过 SFT

HAI-Chat RLHF

prompt必须知道的26条军规

prompt的创新突破来自于阿拉伯联合酋长国阿布扎比的大学的学者[1]，在LLaMA-1/2（7B、13B和70B）、GPT-3.5/4上进行了大量实验，提出26条prompt军规，

prompt 大模型

GLM4 开源了！！！还有多模态

在语义理解、数学推理、代码执行等多个领域，GLM-4-9B 展现出了超越 Llama-3-8B 的卓越性能。

智普 ChatGLM 多模态

语言大模型100K上下文窗口的秘诀

据估计，在2K上下文长度上训练LLaMA的费用约为300万美元，因此，100K的花费约为1.5亿美元。

大模型

推荐智能体：利用大模型进行交互式推荐

- Llama-2-7B-chat,Llama-2-13B-chat(Touvron et al. 2023b):来自Meta的Llama的第2个版本。

大语言模型推荐

点评：六大向量数据库

LlamaIndex: LlamaIndex是一个基于向量的数据库引擎，由Llama Labs开发。

向量数据库

「长文」可能是目前最全的LangChain AI资源库之一

•开源LLM清单[252]: 一份可供商业使用的开源LLM清单•Awesome LLM[253]: Awesome-LLM: 一个精心策划的大型语言模型资源清单•LLaMA

工作

再超Transformer！Google| 提出两个新模型(Griffin、Hawk)，强于Mamba，更省资源

Griffin-7B 和 Griffin-14B 的性能与 Llama-2 相当，尽管训练的 tokens 数量只有后者的 1/7。

transformer 训练

揭秘DeepSeek:一个更极致的中国技术理想主义故事

「暗涌」：在这之前，大部分中国公司都会直接copy这一代的 Llama结构去做应用，为什么你们会从模型结构切入？

DeepSeek 大模型

垂直领域大模型的思考

所以基于llama做的中文适配不如纯中文训练的baichuan 在中文任务上效果好。

垂直领域大模型

<...2 3 4 5 678 9 10 11 >

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2024 AI魔法学院

京ICP备20027199号-1