文章列表-AI魔法学院

文章列表

8G显存一键训练，解锁Llama2隐藏能力！XTuner带你玩转大模型

例如，在使用 oasst1 数据集微调 Llama2-7B 时，数据拼接后的训练时长仅为普通训练的 50% 。

大模型

聊天大模型的输出速度应该是多少？单张显卡最多可以支持多少个人同时聊天？来自贾扬清最新的讨论~

根据贾扬清的测试，LLaMA2-7B在A10显卡上单次请求下，每秒可以生成40个tokens（约30个单词），完全超出了人类的阅读需求。

大模型

手把手！做Llama3的MoE专家混合模型！底层原理怎样的？做自己的MoE模型？需要多少算力？

上图表示有三名专家，示意如何将 Mistral-7B 转换为具有稀疏 MoE 层（前馈网络 1、2 、 3）和路由 MoE！

MoE 专家混合模型

baichuan2 有什么好的深挖论文中涉及的知识点

的性能比 Baichuan 1-7B 高出近 30%。

大模型

8月份最火的 5 个 GitHub 项目

开源地址：https://github.com/binjie09/one-api 05 通义千问基于 ModelScope 以及 Hugging Face均开源的 Qwen-7B 系列模型

下载

Stability AI开年首个大模型：专写代码，支持18种编程语言，上下文100K，苹果笔记本离线就能跑

性能方面，Stable Code 3B规模比CodeLLaMA 7B小60%，但性能却大差不差。

Stability AI 大模型

本地运行140亿参数，阿里千问玩起来！Qwen+Win11+3060

7B大概在一个月前发布，这次发布了14B版本。

大模型

开源大模型部署及推理所需显卡成本必读：也看大模型参数与显卡大小的大致映射策略

例如：Meta 开发并公开发布的 Llama 2 系列大型语言模型 (LLM)，这是一组经过预训练和微调的生成文本模型，参数规模从 70 亿(7b)

开源模型

【万字长文】LLaMA, ChatGLM, BLOOM的参数高效微调实践

按照模型参数量，LLaMA模型有7B、13B、33B、65B这四个不同参数规模的模型版本。

大模型微调训练

Chinese-LLM开源中文大语言模型合集

基于RWKV架构的Chat模型（包括英文和中文），发布了包括Raven，Novel-ChnEng，Novel-Ch与Novel-ChnEng-ChnPro等模型，可以直接闲聊及进行诗歌，小说等创作，包括7B

大模型中文

基于中文金融知识的 LLaMA 系微调模型的智能问答系统：LLaMA大模型训练微调推理等详细教学

python环境建议3.9+ pip install -r requirements.txt 其次安装 lfs 方便本地下载 LLaMa 大模型 git lfs install # 下载7B

LLaMA

CLiB中文大模型能力评测榜单（持续更新）

最近更新 [2023/7/2] 发布v1.3版本评测榜单新增3个大模型：360智脑、MOSS-003-SFT、AquilaChat-7B 讯飞星火更新为最新的v1.5

大模型人工智能评测

国产“小钢炮”MiniCPM3-4B：小参数，大能量！

在综合评测的平均分上，MiniCPM3-4B 以 66.3 的得分超越了 Qwen2-7B（65.3）和 GLM-4-9B-Chat（65.0）&ensp

MiniCPM3-4B 大模型

微调百川Baichuan-13B保姆式教程，手把手教你训练百亿大模型

此前我们也使用Firefly项目对Baichuan-7B进行指令微调，并且发布了firefly-baichuan-7b模型，详见文章：Firefly｜百川baichuan-7B实测，QLoRA+百万指令数据微调

大模型微调

开源大语言模型完整列表

开源 LLM 通义千问-7B —— 基于 Transformer 的大语言模型通义千问 - 7B（Qwen-7B）是阿里云研发的通义千问大模型系列的 70 亿参数规模的模型。

开源模型大语言模型

<1 234 5 6 7 8 >

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2024 AI魔法学院

京ICP备20027199号-1