文章列表-AI魔法学院

文章列表

清华大学ChatGLM团队发布AI Agent能力评测工具AgentBench：GPT-4是全能战士，超越所有模型

传送门：开源框架 MetaGPT：又一个爆火的AI智能体，可模拟软件开发过程 PART 02 AI Agent能力评测工具AgentBench 但是，并不是所有的LLM都能作为AI Agent

GPT-4

评论能力强于GPT-4，上交开源13B评估大模型Auto-J

nbsp;代码地址：https://github.com/GAIR-NLP/auto-j 目前，该项目开源了大量资源，包括： · Auto-J 的 130 亿参数模型（使用方法，训练和测试数据也已经在

Auto-J 大模型

社区供稿｜GPT-4 与国产模型，大！横！评！

在上海人工智能实验室上周刚刚公布的测评榜单上，GPT-4依旧独领风骚，排名第一，不过国产阵营已经大踏步追了上来，差距逐步缩小。

GPT-4 大模型

真格基金大模型能力测试问题集---进阶篇

作为早期投资人，我们经常需要试用和评估新发布的对话式 AI 产品，其中比较常用的方式是通过一些 Prompts，将它们与标志性的 ChatGPT 的输出结果进行直观的横向对比。

中文评测大模型

你是否发现ChatGPT甚至不能按字数要求回复问题？有人做了评测并讨论了可能的原因

有人做了评测并讨论了可能的原因最近在群里和朋友圈看大家都提到让LLM写固定字数的回复时模型几乎都失效了，在网上看到这篇论文的时候就想怎么这么巧就有人针对这个事情发了论文，合着好像就是群友发的。

大模型控制

如何修复GPT幻觉、及评估数据集的挑战

4、准备实验本文旨在创建并测试减少幻觉并提高系统性能的实际步骤。

大模型

实测：本地跑llama3:70B需要什么配置

前几天发布的开源大语言模型Llama 3 70B的能力通过测试结果的展示已经达到了一个全新的高度，甚至可以与Claude 3 Sonnet和Gemini 1.5 Pro等一众顶级模型相媲美，甚至在某些方面已经超过了去年发布的两款

llama GPU内存

点评：六大向量数据库

这一波gpt热潮，90%的企业开发，都是llm+本地知识库集成。而这也推动：向量数据库成了热点科技。AI研究院，推出的各种模块库构架图，为国内众多AI初创企业，快速掌握各种AI模块库底层核心算法，提供了一个超级神器。

向量数据库

大模型能力评估体系

为了实现更加公正和全面的评测，一些机构采取了过程公开的评测方法。

大模型评估

国产AI大模型哪家强？十大维度横评四款主流大模型！

不同的测试大类中，我们以满分 10 分计，如果某款大模型在某个测试小项中不符合要求或者体验不好，根据轻重每次扣除 1-3 分，最后剩余的分数为该大模型在这个测试大类的评分

开源模型

新测试基准发布，最强开源Llama 3尴尬了

有网友评价，使用真实用户提示词而不是高中考试来测试，真的很重要。

Llama 3 大模型开源

【NLP技术分享】文本生成评价指标的进化与推翻

时，β使得长度罚分率为0.5，它是个经验值，大概的曲线是： 3、Lref 是参考答案的平均长度（注意L的上方有一个平均符号） 4、Lsys是译文的长度参考链接：机器翻译评测——

开源模型

国产大模型与全球最强大模型大比拼：语义理解、数学推理同台竞技，究竟谁更厉害

各大国产模型在不同评测基准上的表现并不是所有的大模型都公布了自己在这些评测基准上的结果。

大模型

HalluQA: 测测中文大模型有没有一本正经胡说八道

2023年下半年，百模大战时代热度不减，各家的中文大模型在代码推理、数学、代码、考试等任务上都取得了优异的性能，在模型评测方面也出现了Gaokao-Bench，C-Eval，AGI-Eval这些用于各项能力评测的优秀数据集

大模型中文大模型幻觉

[中文开源震撼首发]33B QLoRA大语言模型Anima真的太强大了！QLoRA技术可能是AI转折点！

按照我们的评测，Anima模型的性能超越了对比的所有的中文开源模型。

开源模型

<123 4 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1