文章列表-AI魔法学院

文章列表

如何微调Meta Llama-3 8B

model.push_to_hub_merged("YOURUSERNAME/llama3-8b-oig-unsloth-merged", tokenizer, save_method = "merged_16bit", token

Meta Llama 3 大模型

从Langchain到ReAct，在大模型时代下全新的应用开发核心

按照输入和输出token数量收费方式，让开发者必须斟酌内容和内容带来的价值能否cover住成本。

大模型

个人从零预训练1B LLM心路历程

“处理为统一格式”和“将文本转化为token id”的代码在github仓库中给出，小一些的数据集使用了阿里的data-juicer工具进行了过滤，该工具将每个数据处理步骤抽象为一个算子，用户可以方便的配置

LLM 训练

总结！大模型微调（Tuning）的常见方法

主要结构是利用了一个prompt encoder（BiLSTM+MLP），将一些pseudo prompt先encode（离散token）再与input embedding进行拼接，同时利用LSTM进行

微调大模型

cursor+coze智能体，一行代码没写，我撸了个小程序

此时要记得保存coze的token和botid，后面有用。

cursor+coze 智能体

中文通用大模型最全汇总

据悉，“书生·浦语”具有1040亿参数，基于“包含1.6万亿token的多语种高质量数据集”训练而成。

大模型开源模型

来自Microsoft Build 2023：大语言模型是如何被训练出来的

核心是基于transformer架构，利用大量的无标注数据来训练模型对下一个token的预测，这也是整个大模型阶段最消耗时间和算力的地方。

大模型

还在用“You are expert”这种提示词？连ChatGPT都瞧不起你，试试这些Prompt吧

所以，在ChatGPT看来，人工智能并没有因为你告诉它而变得更聪明或知识渊博，而这些都是浪费的Token。

prompt 提示词

马斯克怒告OpenAI案解密：Ilya看到了什么？125万亿参数Q*细节曝光，53页PDF全网疯转

斯坦福博士Silas Alberti由此猜测，Q*很可能是基于AlphaGo式蒙特卡罗树搜索token轨迹。

OpenAI 大模型

【提前体验GPT-5】吴恩达AI智能体工作流详细解读

于此同时，因为智能体工作流的特性决定了它总是需要花费一些时间才能生成答案，所以，快速生成token的技术研究也将成为一种趋势。

GPT-5 智能体

【手把手带你微调 Llama3】改变大模型的自我认知，单卡就能训

8B-Instruct模型 pip install -U huggingface_hub mkdir -p /root/model/ huggingface-cli download --token

Llama3 对话问答模型

AI Agent的千亿美金问题：如何重构10亿知识工作职业，掀起软件生产革命？

一方面，OpenAI 等大模型公司会在 Agent 标准定义和模型推理能力上持续进化：11 月 OpenAI Devday 可能会踏出定义标准的第一步，当前 next token prediction

大模型 AI编程

GitHub狂飙3万star的LLM公开资料 - 大模型入门教程

2.1 LLM 架构虽然不需要深入了解Transformer架构，但了解其输入（token）和输出（logits）是很重要的。

LLM 大模型 GitHub

大模型微调经验汇总---LLM finetuning 踩坑经验之谈

通过初步统计发现，LLaMA词表中仅包含很少的中文字符，所以在切词时会把中文切地更碎，需要多个byte token 才能拼成一个完整的汉字，进而导致信息密度降低。

大模型人工智能

搭建程序员自己的在线工具库 it-tools

其主要功能 Crypto工具类，生成token，哈希文本，生成UUID，文本加解密等10种功能 Converter工具类 Yaml 转化器，Json转化器，Base64字符串编码等15种功能

开源项目工具类

<...2 3 4 567 8 9 10 11 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1