Measuring what Matters: Construct Validity in Large Language Model Benchmarks

原文链接： https://arxiv.org/abs/2511.04703
发表： NeurIPS 2025 Track on Datasets and Benchmarks
作者： Andrew M. Bean 等 42 人（牛津互联网研究所 OII 领衔，含 EPFL、斯坦福、UC Berkeley、英国 AI 安全研究所等）
引用量（截至 2026 年中）： ~52 次

一、核心思想

一句话： LLM benchmark 普遍存在一个根本性问题——它们声称在测的东西，大部分根本没测到。

论文把心理学/心理测量学中使用了七八十年的 「构念效度」（Construct Validity） 框架借过来，系统性地审了 445 篇 顶级会议（NeurIPS/ICML/ICLR/ACL/EMNLP）的 LLM benchmark 论文，横跨 2018–2024 年。

构念效度的核心追问只有一句：

你说你在测「推理能力」——你的题真的在测推理吗？还是测的是模式匹配、记忆、猜答案？

关键发现：

指标	数值
没有清晰定义所测现象的 benchmark	84%
所测现象在学界本就无公认定义的 benchmark	47.8%
使用了严谨统计方法的 benchmark	仅 16%
用了人工构造虚假场景而非真实任务的 benchmark	>40%
效应量中位数	0.18（按 Cohen 标准，0.2 才算”小效应”——大量所谓”显著差异”其实是假阳性）

二、评估方法：六个维度

29 位专家按六个维度独立评审每篇 benchmark，然后计算评分者间信度保证一致性。

① 表面效度（Face Validity）

问题： 这道题第一眼看过去，像不像在测你说的东西？

人话： 你让模型做一套数学题，然后说你是在测”创造力”——看着就不像。

论文发现： 大部分 benchmark 在这关过得去。但问题是很多表面效度好、深层效度差——看起来在测推理，实际上模型靠记忆和模式匹配就能做对。

② 内容效度（Content Validity）

问题： 你说的那个能力，你的题覆盖了它的所有关键方面吗？

人话： 你说测”推理能力”，但只出了算术题——逻辑推理呢？反事实推理呢？因果推理呢？时空推理呢？

论文发现： 要覆盖一个构念的全部方面，首先得对这个构念有清晰定义。而那 84% 的 benchmark 连定义本身都没有。这是 benchmark 最常翻车的地方。

③ 生态效度（Ecological Validity）

问题： 你的测试任务，长得像不像模型在真实世界会遇到的任务？

人话： 你让模型做”多项选择题”——真实用户是在多项选择题里用 AI 的吗？

论文发现： 超过 40% 的 benchmark 用的是人工构造的虚假场景。生态效度和表面效度的区别在于：表面效度是”看着像不像”，生态效度是”本质结构像不像”——你可以造一套看着很真实的对话，但如果长度、信息密度、容错率都和真实场景完全不同，那生态效度就很低。

④ 收敛效度（Convergent Validity）

问题： 你的 benchmark 的结果，和其他同样声称测同一能力的 benchmark 的结果，相关吗？

人话： 两个都声称测”知识”的 benchmark，排名应该大致一致。如果 A 说 GPT > Claude，B 说 Claude > GPT——那至少有一个有问题。

论文发现： 很多声称测”推理”的 benchmark 互相之间的排名一致性很低，说明它们可能根本不是在测同一个东西。

⑤ 区分效度（Discriminant Validity）

问题： 你的 benchmark 能把明显不同的能力区分开吗？

人话： 如果一个人数学很差但语言很好——你的 benchmark 应该能反映出这种差异，而不是给个差不多总分。更重要的是：如果你的 benchmark 声称测”推理”，它和测”记忆”的 benchmark 之间的相关性应该很低，而不是很高。

论文发现： 多数 benchmark 没做过区分效度检验——你不知道高分是因为模型真的会推理，还是因为它记住了更多训练数据。

⑥ 整体评估（Holistic Judgement）

综合以上五个维度，29 位专家各自独立打分，计算评分者间信度。

结果： 只有极少数 benchmark 在五个维度上都过关。大多数在内容效度和生态效度上严重失分。

三、八条建议（论文给出的 actionable guidance）

论文在批评之外，给出了八条具体建议（原文 §7）：

明确定义所测构念 — 不说”测推理”，而是说”测溯因推理能力，定义为从观察到原因的反向推断”
使用真实世界任务 — 从真实用户日志/部署场景采样，而非人工编造
多种评估方法三角验证 — 不只靠自动评分，结合人工评估和对抗测试
报告效应量和置信区间 — 不只看”p < 0.05”，更要看差异有多大
做收敛效度和区分效度检验 — 主动跟同类 benchmark 对比排名，排除混淆变量
防范数据污染 — 动态出题、追踪训练数据覆盖、做 contamination 分析
开源代码和数据集 — 让第三方能够独立复现
明确 benchmark 的适用范围和局限性 — 不夸大结论

四、如何用这个方法评估别的 benchmark —— 以 DailyReport（美团搜索评估）为例

DailyReport 是美团+中科大 2025 年 6 月提出的 AI search agent benchmark（arXiv: 2606.12871），声称测”AI search agent 的日常搜索能力”。

套入六个维度：

维度	DailyReport 表现	评价
表面效度	✅ 题长啥样：列出 2026 QS 前 100 中国大学并分析优劣势——来自真实热搜话题。看着就像日常搜索任务。	高
内容效度	⚠️ 9种约束类型覆盖了搜索的多个维度，但”日常搜索”其实包括查天气/找餐厅/比价/查快递等大量信息量很小的任务，而 DailyReport 的题偏向”搜索+调研/综合分析”。如果它声称测的是”社交平台热搜话题的多源综合分析能力”会更精准。	中上，有缺口
生态效度	⚠️ 加分：任务源自真实用户日志，动态追热搜，非人工编造。扣分：真实搜索是迭代的（搜→看→换词→再搜→订），而 DailyReport 是一次性问答；真实用户常常只想要一个链接或电话，不是综合分析。	中上
收敛效度	❓ 太新（2025.6），无人做过交叉验证。和 GAIA、WebArena、SearchBench、FRAMES 的排名一致性未知。	最薄弱环节
区分效度	⚠️ 动态出题防记忆 ✅，但高分是来自搜索策略好还是基础推理能力强——没有证据能分离。	部分过关
整体评估	设计好、工程好、数据源真实、级联评分加分、抗污染加分。但收窄定义 + 做收敛效度检验这两件事做完，才能从好工具变成好 benchmark。	60–70 分（远高于 445 篇平均水平，但非完美工具）

评估流程总结（可复用模板）：

1. 明确 benchmark 声称测的"构念"是什么
2. 问表面效度：题像不像？
3. 问内容效度：构念的所有关键方面覆盖了吗？
4. 问生态效度：任务结构像真实世界吗？
5. 问收敛效度：跟同类 benchmark 的排名一致吗？
6. 问区分效度：能排除混淆变量（记忆/参数/推理能力）吗？
7. 综合评估，指出最薄弱环节

五、论文的核心贡献

系统性数据支撑 — 不是直觉批评，而是 29 位专家、445 篇论文、六个维度的系统化审计
框架移植成功 — 将心理学 70 年的构念效度方法成功引入 LLM 评估领域
行业影响 — 被 2026 年国际 AI 安全报告列为参考文献；OpenAI 官方回应称”我们的 benchmark 经过内部审计”；Anthropic 和 Meta 表态支持并承诺改进
可操作的八条建议 — 不止批评，还给了具体怎么做

几个需要注意的限制：

只覆盖了学术 benchmark（顶级会议论文），不包括工业界内部评估和闭源 eval
数据截至 2024 年，2025 年后的动态 benchmark（如 LiveCodeBench、DailyReport）不在分析范围内——这些恰恰可能是”更好的方向”
8 条建议偏原则性，没有提供具体的替代度量框架
论文本身没有讨论自己的”自指问题”——它的元评估框架的构念效度由谁来评估？

Measuring what Matters — 构念效度框架：核心思想、方法与评估实践