文章列表-AI魔法学院

文章列表

超越Claude-2.1和GPT-3.5-Turbo，Qwen1.5还藏了哪些黑科技？32K Tokens上下文支持只是开胃菜！

# 以前的用法 model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-7B-Chat

Qwen1.5 开源模型

什么情况用Bert模型，什么情况用LLaMA、ChatGLM类大模型，咋选？

ChatGLM-6B, LLaMA-7B模型分别是60亿参数量和70亿参数量的大模型，基本可以处理所有NLP任务，效果好，但大模型部署成本高，需要大显存的GPU，并且预测速度慢，V100都需要1秒一条。

大模型

元象首个多模态大模型 XVERSE-V 开源，刷新权威大模型榜单，支持任意宽高比输入

XVERSE-V 性能优异，在多项权威多模态评测中超过零一万物Yi-VL-34B、面壁智能OmniLMM-12B及深度求索DeepSeek-VL-7B等开源模型，在综合能力测评MMBench中超过了谷歌

XVERSE-V 多模态大模型

Llama 3突然来袭！开源社区再次沸腾：GPT-4级别模型可以自由访问的时代到来

8B模型在MMLU、GPQA、HumanEval等多项基准上均胜过Gemma 7B和Mistral 7B Instruct。

meta llama3

MindChat心理大模型

模型列表模型名称合并后的权重 MindChat-InternLM-7B ModelScope

心理大模型

再超Transformer！Google| 提出两个新模型(Griffin、Hawk)，强于Mamba，更省资源

//arxiv.org/pdf/2402.19427.pdf 研究者表示，Hawk 和 Griffin 在 held-out 损失和训练 FLOPs 之间表现出了幂律缩放，最高可以达到 7B

transformer 训练

大语言模型综述<演进，技术路线，区别，微调，实践，潜在问题与讨论>

按照模型参数量，LLaMA模型有7B、13B、33B、65B这四个不同参数规模的模型版本。

大模型

开源语音大语言模型来了！阿里基于Qwen-Chat提出Qwen-Audio!

Qwen-Audio是一个以音频和文本输入为条件的多任务语言模型，扩展了Qwen-7B语言模型，通过连接单个音频编码器有效地感知音频信号。

大模型语音

Qwen7b微调保姆级教程

通过借鉴FastChat对各种开源LLM模型进行数据预处理方法统一管理的方法，因此本范例适用于非常多不同的开源LLM模型，包括 Qwen-7b-Chat，Llama-13b-chat

Qwen7b 大模型

被低估的面壁：打造出不输 OpenAI 的 Scaling Law 曲线

2024 年 2 月，面壁发布 MiniCPM 2B，在更小参数量的基础上实现可以媲美 Mistral-7B 的性能，初步验证了其“低参数、高性能”的方法论。

Grok-1 开源模型

大模型RAG检索增强问答如何评估：噪声、拒答、反事实、信息整合四大能力评测任务探索

三、实验设置在对比模型上，选用ChatGPT , ChatGLM-6B , ChatGLM2-6B , Vicuna-7b-v1.3 , Qwen-7B- Chat , BELLE-7B-2M

大模型 RAG检索增强

大模型评测新思路：弱智吧精华问题大全

下图 4 显示了 CQIA 和其他 5 个基线（即 Yi-6B-Chat、Baichuan2-7B-Chat、ChatGLM2-6B、Qwen-7B-Chat 和 InternLM-7B-Chat）的逐对比较人类评估结果

弱智吧训练数据集

大模型微调经验汇总---LLM finetuning 踩坑经验之谈

当然 MPT-7B-StoryWriter-65k+ 模型也有较长的外推能力，主要在于，注意力这块使用了 ALIBI 。

大模型人工智能

QWen1.5: 卓越模型之路

在此次Qwen1.5版本中，开源了包括0.5B、1.8B、4B、7B、14B和72B在内的6个不同规模的Base和Chat模型，并一如既往地放出了各规模对应的量化模型。

Qwen1.5 开源模型

使用BELLE项目部署bloomz模型（专业程序员精简版）

3.以LLAMA-7b（70亿参数）为基础，分别在60万，200万数据上进行指令微调后得到的模型Checkpoint。

belle 训练大模型

<1 2 3 456 7 8 9 >

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1