文章列表-AI魔法学院

文章列表

8G显存一键训练，解锁Llama2隐藏能力！XTuner带你玩转大模型

1 pip install xtuner 2 xtuner chat hf meta-llama/Llama-2-7b-hf --adapter xtuner/Llama

大模型

从思维链(CoT)，到思维树(ToT)，再到思维图(GoT)：用LLMs解决复杂问题！

例如：ChatGPT、PaLM、LLaMA、ChatGLM等。

大模型

比GPT-4快18倍，世界最快大模型Groq登场！每秒500 token破纪录，自研LPU是英伟达GPU 10倍

进入Groq主页，目前有两种可以自选的模型：Mixtral8x7B-32k，Llama 270B-4k。

Groq 大模型

StreamingLLM 框架：利用最新标记让 AI 记住你的话、创作长篇小说，探索无限长度文本

该框架可以使Llama-2、MPT、Falcon和Pythia在高达400万个令牌的情况下进行稳定和高效的语言建模。

大模型 llm框架

GitHub狂飙3万star的LLM公开资料 - 大模型入门教程

图解GPT-2 - by Jay Alammar：比前一篇文章更重要，专注于GPT架构，它与Llama的架构非常相似。

LLM 大模型 GitHub

开源大模型王座易主！谷歌Gemma杀入场，笔记本可跑，可商用

而 Meta 去年推出的 Llama 系列震动了行业，并引发了人们对于生成式 AI 开源和闭源路线的讨论。

开源模型 Gemma

开源新标杆，千问Qwen2系列模型发布，全面超越LLama3

在针对预训练语言模型的评估中，对比当前最优的开源模型，Qwen2-72B在包括自然语言理解、知识、代码、数学及多语言等多项能力上均显著超越当前领先的模型，如Llama-3-70B以及Qwen1.5最大的模型

qwen 千问开源

【揭秘】BELLE大模型：一个集合训练、数据、模型、APP的超级神器，让每个人都能拥有自己的“大模型”！

首先，为了提高模型在中文领域的性能和训练 / 推理效率，我们进一步扩展了 LLaMA 的词汇表，并在 34 亿个中文词汇上进行了二次预训练。

训练大模型 belle

来自Microsoft Build 2023：大语言模型是如何被训练出来的

已注册用户可以直接官网观看，并且可以下载字幕哦~ State of GPT概述预训练阶段文本的tokenzation预训练阶段的输入和目标OpenAI的基础模型GPT-3与LLaMA对比有监督微调

大模型

国产大模型与全球最强大模型大比拼：语义理解、数学推理同台竞技，究竟谁更厉害

其次就是MetaAI开源的LLaMA系列，甚至第一代的LLaMA 65B依然排名第六。

大模型

金融行业的开源AI大模型

FinGPT集成了多个模型，如Llama-2、Falcon、MPT、Bloom、ChatGLM2、Qwen和InternLM，每个模型都针对特定的语言市场和金融分析任务进行了优化。

开源大模型

神奇的 OuteTTS - 0.1 - 350M：用几秒钟音频克隆声音的黑科技！

二、技术原理剖析 1、基于 LLaMa 架构 OuteTTS-0.1-350M 构建于强大的 LLaMa 架构之上，利用了 oute3-350m-dev

OuteTTS-0.1-350M 音频

数学能力超ChatGPT，70B开源大模型火了：用AI微调AI，微软全华班出品

为了与Vicuna的70k真实用户数据（ShareGPT）进行公平比较，作者从这25万条数据中抽取了等量的样本，训练LLaMA 7B模型，最终得到WizardLM，结果WizardLM的性能明显优于

开源模型

万字长文-大语言模型指令调优综述

LLaMA (13B)在构建的会话数据集上使用一个为多回合会话量身定制的修正损失函数进行微调。

大语言模型

让AI记住你说的话、让AI给你生成几十万字的小说！StreamingLLM 让无限长token成为可能

MIT、Meta AI、CMU的论文传统AI大模型鱼一样健忘的原因 LLM都是在一定长度的数据块（或者叫做序列）上进行预训练的，比如Llama 2就是在4000个单词（或者叫做token

StreamingLLM 写作

<1 2 3 456 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1