文章列表-AI魔法学院

文章列表

大模型外挂知识库优化技巧-如何更有效的利用召回的文档

作者实验挑选的模型都是能支持比较长的文本的，大部分人使用的chatglm和llama估计能提取10个文档片段信息就不错了。。。

大模型

苹果一次性开源了8个大模型！包含模型权重、训练日志和设置，OpenELM全面开源

使用与LLama相同的分词器。

OpenELM 大模型

Transformer速查宝典：模型、架构、训练方法的论文都在这里了

19.LLaMa · 属性：65B 参数 · 论文地址：https://arxiv.org/pdf/2302.13971.pdf · 发布详情：Meta

Transformer

震撼科技界：清华大学与智谱AI联手，引领中文长文智能写作新纪元！

无论是开源模型如GLM-4-9B-Chat、Llama系列，还是商业模型如GPT-4、Claude 3.5 Sonnet，当文本生成需求超过2000字时，模型的表现都趋于平稳，难以突破这一界限。

写作长文本

你的下一个浏览器，可以是豆包电脑版！

例如在跟着李沐老师学Llama 3.1论文过程中，视频的右上角现在就有了豆包的总结视频功能：点击这个按钮，只需要几秒钟时间，一份针对视频内容的AI精读就完成了。

豆包浏览器

改进召回（Retrieval）和引入重排（Reranking）提升RAG架构下的LLM应用效果

llama-index提供了两种形式的抽象：作为独立的检索模块（ListIndexLLMRetriever）或重排模块（LLMRerank）。

大模型

大模型高效微调：🤗 PEFT 使用案例

#9989; ✅ ✅ LLaMA

大模型

MaskGCT：登上GitHub趋势榜榜首的TTS开源大模型

我们使用Llama风格的Transformer作为模型的主干，结合门控线性单元（GLU）和GELU激活函数、旋转位置编码等，但将因果注意力替换为双向注意力。

MaskGCT 声音克隆

活久见，世界上第一个被人类骗走钱的AI，刚刚出现了！

首先，大多数Scaling Law（如Kaplan等人、Chinchilla和Llama的研究）预测的，是模型在数据集中预测下一个词的能力，而不是模型在现实世界任务中的表现。

Freysa 智能体

李彦宏偏爱小模型｜AI光年

国外有Llama，Mistral等有影响力的开源模型，国内也有智源、百川、阿里的通义等开源大模型。

李彦宏小模型

46.6k星星！最强开源AI集合系统，一键部署全网AI工具都能直接用，UI简直是视觉盛宴！

Novita AI：以最低价格接入Llama、Mistral等领先的开源模型。

AI开源集合

领域大模型-训练Trick&落地思考

而以目前各厂（ChatGLM、BaiChuan、Qwen、Llama）抢占开源社区占比的架势，感觉会有很多7B、13B级别模型开源。

垂直训练大模型

链接大模型与外部知识，智源开源最强语义向量模型BGE

等厂商均推出了针对大模型的语义向量模型及API服务，直接促进了全球大模型开发者社区诞生了众多有影响力的大模型应用框架及工具：诸如大模型应用框架 LangChain、向量存储数据库Pinecone、文档格式化索引工具Llama

embedding 语义向量

个人从零预训练1B LLM心路历程

不过即使我在预训练里加了这部分数据，效果也是大概率比不过在qwen、llama这种大机构发布的模型基础上进行微调的。

LLM 训练

投资人逃离大模型

Meta：美国知名互联网公司，创建者为扎克伯格，旗下AI产品为LLaMA系列，特别适用于学术研究和开发者社区。

大模型

<...3 4 5 6 7 8910 11 12 >

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1