文章列表-AI魔法学院

文章列表

玩一玩ChatGLM3，1660s即可流畅运行！

我之前介绍过的千问（Qwen）和百川（baichuan）运行要求就是8G+显存。

大模型 ChatGLM

领域大模型-训练Trick&落地思考

而以目前各厂（ChatGLM、BaiChuan、Qwen、Llama）抢占开源社区占比的架势，感觉会有很多7B、13B级别模型开源。

垂直训练大模型

国产大模型与全球最强大模型大比拼：语义理解、数学推理同台竞技，究竟谁更厉害

而国产模型中阿里巴巴的千问大模型Qwen-7B和智谱AI的ChatGLM-12B也进入了前10，分别是第九和第十。

大模型

Falcon 180B 开源影响了谁？

-13B-Chat与其4bit量化版本；智源的悟道3.0中的悟道・天鹰大语言模型；智谱AI的ChatGLM-6B 和 ChatGLM2-6B；面壁智能的CPM-Bee 10B；通义千问的Qwen

大模型

回望做大模型一年后的感悟

大模型应该分为两类，一类是从头开始训练的基础模型，比如：Yi、QWen、Baichuan、ChatGLM、DeepSeek等等；另一类是continue pretraining和sft类别的模型。

大模型感悟

Rerank——RAG中百尺竿头更进一步的神器，从原理到解决方案

我们还是坚持用国产大模型（如Baichuan2-13B、ChatGLM3-6B和QWen-14B等），毕竟主要服务的还是国内客户，加上现在接触的多数客户其实都有私有化部署的需求。

RAG 检索增强

大模型RAG检索增强问答如何评估：噪声、拒答、反事实、信息整合四大能力评测任务探索

三、实验设置在对比模型上，选用ChatGPT , ChatGLM-6B , ChatGLM2-6B , Vicuna-7b-v1.3 , Qwen-7B- Chat , BELLE-7B-2M

大模型 RAG检索增强

Deepseek-V2技术报告解读！全网最细！

in_features=5120, out_features=102400, bias=False) ) 我们从上往下，从embedding层的维度来看，与Gemma, LLaMA和Qwen

Deepseek-V2 大模型

中文OCR超越GPT-4V，参数量仅2B，面壁小钢炮拿出了第二弹

其中在 OpenCompass 榜单中，综合 11 个主流评测基准的结果表明，MiniCPM-V 2.0 的通用多模态能力超越了 Qwen-VL-Chat-10B、CogVLM-Chat

MiniCPM 大模型

金融行业的开源AI大模型

FinGPT集成了多个模型，如Llama-2、Falcon、MPT、Bloom、ChatGLM2、Qwen和InternLM，每个模型都针对特定的语言市场和金融分析任务进行了优化。

开源大模型

<1 23>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2024 AI魔法学院

京ICP备20027199号-1