文章列表-AI魔法学院

文章列表

从0到1基于ChatGLM-6B使用LoRA进行参数高效微调

nbsp; lora_alpha=32, lora_dropout=0.1

大模型

大模型的研究新方向：混合专家模型（MoE）

例如，如果模型有三个专家，输出的概率可能为0.5和0.4、0.1，这意味着第一个专家对处理此数据的贡献为50%，第二个专家为40%，第二个专家为10%，这个时候的K就可以选择为2，我们认为前两个专家模型的建议会更好

MoE 大模型

开源大语言模型完整列表

NSQL —— 开源 SQL 协同生成基础模型 NSQL，这是一个专为 SQL 生成任务设计的全新开源大型基础模型（FM）系列，包括 NSQL 350M、NSQL 2B 和 NSQL 6B。

开源模型大语言模型

大模型训练为什么用A100不用4090

整机功耗大约 400W * 8 + 2 kW = 5 kW，按照 0.1 美元一度电算，每小时 0.5 美元。

大模型

必看！阿里通义千问完整技术报告

为防止过拟合，采用了权重衰减，值为0.1，丢失率设置为0.1，梯度裁剪限制为1.0。

大型语言模型报告

炸裂！百川开源第1个7B多模态大模型 Baichuan-Omni | 能够同时分析图像/视频/音频/文本

所有比较实验在相同的实验条件下进行，具体使用批量大小为8，IFT训练数据（数据比设置为Caption: Interleaved数据: Pure text为0.45: 0.45: 0.1）。

Baichuan-Omni 多模态大模型

语义检索系统[全]：基于Milvus+ERNIE+SimCSE+In-batch Negatives样本策略的学术文献语义检索

0.1 为什么说语义搜索很重要？

开源模型

<1 2 34>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1