文章列表-AI魔法学院

文章列表

如何修复GPT幻觉、及评估数据集的挑战

评估幻觉的其他基准知识导向的LLM评估基准（KoLA） TruthfulQA：衡量模型如何模仿人类的谎言大型语言模型的医学领域幻觉测试 HaluEval：LLM的幻觉评估基准 5、降温

大模型

大模型能力评估体系

IDC发布的《AI大模型技术能力评估报告，2023》等。

大模型评估

评论能力强于GPT-4，上交开源13B评估大模型Auto-J

为此，上海交通大学生成式人工智能实验室迅速响应，推出了一款全新的价值对齐评估工具：Auto-J，旨在为行业和公众提供更加透明、准确的模型价值对齐评估。

Auto-J 大模型

心理健康AI应用空白：LLM评估基准震撼出炉（附Prompt模板）

研究团队认为，现有的评估基准不能全面评估LLMs在心理健康领域的能力，因此提出了PsyEval基准。

大模型心理

被高估的Pika，被低估的多模态AI

公司初创团队只有 4 个人，创始人兼 CEO 郭文景有“女学霸”“斯坦福退学创业”“上市公司创始人女儿”等个人标签； Pika 三轮融资已筹款 5500 万美元，估值在 2-3 亿美元之间

大模型多模态

大模型RAG检索增强问答如何评估：噪声、拒答、反事实、信息整合四大能力评测任务探索

不过，我们需要注意的是，每种评测都是有偏的，取决于评测数据，评测模型本身，变量太多，其真正的有效性如何，并不好说，我们关注这种评估方法，才是最大的意义所在。

大模型 RAG检索增强

技术布道 | Prompt评估与优化，让魔法打败魔法，通过大模型获得更优质的Prompt进而获得更优质的内容

我们可以让大模型来帮着优化Prompt，今天我们选择在百度千帆大模型平台对Prompt进行评估和优化。

prompt 大模型

目前大语言模型的评测基准有哪些？

ChatbotArena以众包方式让不同的大模型产品进行匿名、随机的对抗测评，其评级基于国际象棋等竞技游戏中广泛使用的Elo评分系统，Elo是一种计算玩家相对技能水平的方法，通过两名玩家之间的评分差异可以预测比赛的结果

人工智能评测大模型

斯坦福宣布前端开发要失业了？！一张截图生成代码，64%优于原网页！

自动评估指标的开发研究者提出了一套自动评估指标，通过计算参考网页截图和生成网页截图之间的相似度来自动评估生成的网页。

设计转代码大模型

Google 模型解读 | MoveNet-SinglePose：自底向上做单人姿态估计

前言说起业务落地级别的姿态估计算法方案，大家基本上的共识都是top-down范式，也就是det+pose的形式，先由一个轻量级的目标检测模型提供bbox，再依次送入pose模型进行单人姿态估计

MoveNet-SinglePose Google 模型

大模型能力快速测评极简题目

请从编辑以下文本开始：{article} 我希望你充当一个电影评论家。

大模型

中文通用大模型评测基准发布，全方位解析评价维度，助你选出最优秀的模型！

中文通用大模型综合性评测基准SuperCLUE正式发布。

大模型训练中文

社区供稿｜GPT-4 与国产模型，大！横！评！

在上海人工智能实验室上周刚刚公布的测评榜单上，GPT-4依旧独领风骚，排名第一，不过国产阵营已经大踏步追了上来，差距逐步缩小。

GPT-4 大模型

测评了8个国产AI大模型，差点崩溃……

本次测评主要是从一个普通用户的角度，围绕用户体验（交互界面、响应速度、稳定性）、基础能力（理解、生成、逻辑、记忆）、多模态输出能力以及场景模型（支持的数量丰富度以及质量）作为测评方向，目的是帮大家找到更适合自己使用的大模型

大模型测评

点评：六大向量数据库

这一波gpt热潮，90%的企业开发，都是llm+本地知识库集成。而这也推动：向量数据库成了热点科技。AI研究院，推出的各种模块库构架图，为国内众多AI初创企业，快速掌握各种AI模块库底层核心算法，提供了一个超级神器。

向量数据库

<12 3 4 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1