文章列表-AI魔法学院

文章列表

你是否发现ChatGPT甚至不能按字数要求回复问题？有人做了评测并讨论了可能的原因

作者对ChatGPT和Alpaca-7b作评估，结果见figure2（可以看到随着被要求词数的变多模型效果在变差，且被要求按某个词作为结尾生成词数一定的句子时比不附加该条件效果会好一些）和table2（

大模型控制

语言大模型100K上下文窗口的秘诀

OneFlow社区 ID | OneFlowTechnology 最近有几个新的语言大模型（LLM）发布，这些模型可以使用非常大的上下文窗口，例如65K词元（MosaicML的MPT-7B-StoryWriter

大模型

检索增强生成(RAG)有什么好的优化方案？

比如可用LLaVA-7b生成图片摘要，Chroma作为向量数据库，Nomic's GPT4All作为开源嵌入模型，多向量检索器，Ollama.ai中的LLaMA2-13b-chat用于生成应答[11]。

RAG 检索增强

检索增强生成(RAG)有什么好的优化方案

比如可用LLaVA-7b生成图片摘要，Chroma作为向量数据库，Nomic's GPT4All作为开源嵌入模型，多向量检索器，Ollama.ai中的LLaMA2-13b-chat用于生成应答[11]。

RAG 检索增强生成

最强国产开源多模态大模型MiniCPM-V：可识别图片、视频，还可在端侧部署

该模型基于 SigLip-400M 和 Qwen2-7B 构建，共 8B 参数。

minicpm 面壁

GitHub狂飙3万star的LLM公开资料 - 大模型入门教程

使用DPO对 Mistral-7b 进行 fine-tuning：文章，colab Quantization 1.

LLM 大模型 GitHub

领域大模型-训练Trick&落地思考

而以目前各厂（ChatGLM、BaiChuan、Qwen、Llama）抢占开源社区占比的架势，感觉会有很多7B、13B级别模型开源。

垂直训练大模型

无显卡+纯本地跑Qwen1.5版模型！0基础闭眼部署指南！适用绝大部分开源模型！llama2+Mistral+Zephyr通杀！

而且一下更新了：0.5B, 1.8B, 4B, 7B, 14B, 72B 6个尺寸版本！

Qwen1.5 开源模型

大模型检索增强生成RAG的优化

比如可用LLaVA-7b生成图片摘要，Chroma作为向量数据库，Nomic's GPT4All作为开源嵌入模型，多向量检索器，Ollama.ai中的LLaMA2-13b-chat用于生成应答[11]。

RAG 检索增强大模型

使用大模型自动回复小红书/抖音/快手评论：通过RAG 优化LLMs实现

我们可以对 Mistral-7b-Instruct 进行了微调，以使用 QLoRA 来回应 YouTube 评论。

RAG 大模型自动回复

国产大模型与全球最强大模型大比拼：语义理解、数学推理同台竞技，究竟谁更厉害

而国产模型中阿里巴巴的千问大模型Qwen-7B和智谱AI的ChatGLM-12B也进入了前10，分别是第九和第十。

大模型

HAI-Chat：高效且轻量的一键式 RLHF 训练工具

对于一个 7B 大小的模型在双机16张 A100 上执行，Safe-RLHF 完整训练完成需要耗时 36 小时，而 HAI-Chat 只需 3 小时即可完成。

HAI-Chat RLHF

prompt必须知道的26条军规

prompt的创新突破来自于阿拉伯联合酋长国阿布扎比的大学的学者[1]，在LLaMA-1/2（7B、13B和70B）、GPT-3.5/4上进行了大量实验，提出26条prompt军规，

prompt 大模型

大模型的最大bug，回答正确率几乎为零，GPT到Llama无一幸免

本文还进行了多项实验，包括 GPT-3-350M（附录 A.2）和 Llama-7B（附录 A.4），结果表明，模型都遭受了逆转诅咒。

大模型

回望做大模型一年后的感悟

前一类现在大家基本上都是2T左右token起，也有3、4T token的数量级的，这类工作即使训练7B的模型也需要几百万的代价，训练30几B的模型更是数千万的成本。

大模型感悟

<1 2 3 4 5 678 9 >

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1