你有没有过这样的时刻——看到 AI 流畅地回答了一个专业问题,心里不由得想:它是不是真的懂了?
2023 年,OpenAI 宣布 GPT-4 在美国律师资格统一考试(UBE)中拿到 298 分(满分 400),排在所有考生的第 90 百分位。SAT 阅读 710 分,第 93 百分位;数学 700 分,第 89 百分位。GPT-4o 在美国医师执照考试(USMLE)中正确率达到 90.4%,医学生的平均正确率只有 59.3%。
这些数字很唬人,也确实改变了大众对 AI 的看法。但这种看法有个根本性的偏差——而且,它和你大脑天生的一个 bug 密切相关。
多数人是怎么评估 AI 的?
最常见的方式是出一道题,看 AI 答得好不好。
答得好,就觉得「AI 真聪明」;犯了低级错误,又觉得「不过如此」。
媒体也在强化这种评估方式。「GPT-4 通过律师资格考试,第 90 百分位!」「AI 在医学考试中超过了九成考生!」这类标题给人一种强烈的暗示:AI 已经比大多数专业人士更聪明了。
问题在于,你只看到了它最高光的时刻,却忽略了背后的统计结构。
这和心理学里一个经典的认知偏差如出一辙。
史蒂夫是图书管理员还是农民?
丹尼尔·卡尼曼在《思考,快与慢》里讲过一个著名的例子:
史蒂夫非常害羞、内向,乐于助人,但对人和现实世界缺乏兴趣。他性格温顺、做事整洁,对秩序和细节有强烈的需求。
问:史蒂夫更可能是图书管理员,还是农民?
几乎所有人的直觉都会选图书管理员——这段描述和「图书管理员」的刻板印象高度吻合。
但正确的推理得先看基率(base rate):美国农民比图书管理员多得多,大约 20 比 1。就算图书管理员里害羞内向的比例更高,架不住农民基数大。哪怕只有一小部分农民符合描述,人数也可能比所有符合描述的图书管理员还多。
人们犯的错误是:只看「像不像」(似然),却忘了「多不多」(基率)。 卡尼曼管这叫「基率忽视」。
回头看 AI:「GPT-4 律师考试第 90 百分位」,我们的反应跟判断史蒂夫时一模一样——被「好像真的很聪明」的印象带走了,根本没想过基率。
用贝叶斯定理重新审视 AI 的表现
贝叶斯思路的核心其实很简单:
- 先有一个“原本的判断”(先验):在看见这次回答之前,你觉得 AI 真的理解这个领域的概率有多大
- 再看“这次表现”更像哪一种情况:它是更像“真的懂的人才做得到”,还是更像“靠模式匹配也可能做出来”
- 然后把你的判断往对应方向更新,而不是被一次高光表现直接定性
把它套用到评估 AI 的场景里,你只需要记住三件事:
- 你原本对“AI 真的懂”的信心有多少(别从 0 直接跳到 100)
- 这次惊艳回答,在“真的懂”和“只是很会模仿”两种情况下,分别有多常见
- 结论要靠持续更新,而不是一锤定音
关键在于“区分度”:
- 如果这种回答几乎只有“真的懂”才给得出来,那你就应该大幅上调信心
- 如果“并不真的懂”也经常能碰巧给出这种回答,那你就只能小幅上调(甚至不该上调)
只有这个比值远大于 1——这种表现只有「真懂」才解释得了——你才该大幅上调信心。
但现实是:大语言模型吃了海量数据,很多问题都能给出「看起来很聪明」的回答($P(E|neg H)$ 并不低)。就像农民里也有害羞内向的人,「不真懂但碰巧答得好」这种情况,远比你想的常见。
MIT 研究者 Eric Martinez 做了个很好的验证。他重新算了 GPT-4 的律师考试成绩——OpenAI 说的「第 90 百分位」,比的是所有考生,包括一大堆没考过的。换成只跟拿到执照的律师比呢?GPT-4 掉到第 48 百分位,就是中等水平。再看更接近真实法律工作的开放式写作题(MEE 和 MPT),只排第 15 百分位。
医学也一样。《NEJM AI》拿 GPT-4 跟执业医师(不是医学生)比:精神科第 75 百分位,儿科只有第 17.4 百分位,妇产科第 23.4 百分位。说白了,AI 考试成绩亮眼,主要是因为擅长做选择题——不是真的懂。
一个更诚实的比较基准
贝叶斯告诉我们先验很重要。那么,我们的先验应该锚定在哪里?换句话说,既然要评估 AI 的「智能水平」,就需要一个基准。
最常见的做法是拿 AI 跟专家比:「GPT 医学考试超过九成考生」「AI 编程达到中级工程师」「GPT-4 通过注册会计师考试,审计拿了 91.5 分」。但这里有个隐蔽的偷换——考的都是有标准答案的封闭题,而这恰恰是 AI 最擅长的战场。
做评测的人自己也意识到了。到 2025 年,MMLU、HumanEval、GSM8K 这些主流基准基本「废了」——前沿模型全都考到 90% 以上,分不出高下。换成真正考推理的新测试呢?比如 ARC-AGI-2,结果完全不同:纯语言模型 0 分,最好的推理系统 54%,普通人反而拿了 60%。
我认为,一个更贴近真实使用场景的基准应该是:
到大街上随机拦一个人,问他一个随机专业领域的问题。这个人的平均水平,就是我们的零假设。
AI 超出这条基准线多少,才是它真正提供的增量。
用这个标准衡量,结论其实挺反直觉的:大多数随机问题,AI 确实比路人强得多。 道理很简单——普通人一旦离开自己的专业领域,知识覆盖极其稀疏。量子力学、合同法、16 世纪奥斯曼帝国的税制——随便挑一个,路人多半只能说「不知道」。AI 至少能给出一个像模像样的回答。
但这里藏着一个关键区别:
路人不懂的时候会说「不知道」,这是一个诚实的信号。AI 不懂的时候,照样侃侃而谈,给你一个可能完全错误的回答。
「不知道」本身就是有用的信息——它在告诉你「这事没那么简单」「你得找更专业的人」。这是一种保护。而 AI 永远一副胸有成竹的样子,恰恰把这层保护消灭了——你以为问题解决了,其实危险就藏在这种假的确定感里。
用信息论的话来说,这就是一种「虚假的熵压缩」。路人回答问题时,语气本身就是一个信号——有时候斩钉截铁,有时候犹犹豫豫,有时候直接说「不知道」。这个信号有变化,所以它携带信息:你可以从语气里读出「这个答案靠不靠谱」。但 AI 永远同一种自信语气,不管答的是量子力学还是今天中午吃什么。一个不变的信号不传递任何信息——你看了跟没看一样。更糟糕的是,当一个问题真的很不确定时,答案的可能性本来很多,不确定性很高。AI 直接给你一个斩钉截铁的答案,相当于把这种高不确定性强行压成了一个「确定」的点。看上去问题解决了,其实真实的不确定性一点没减少,只是你感知不到了。
还有个更隐蔽的问题:专家发现 AI 犯了错,这事通常上不了新闻。 谁会报道「AI 答错了一道肿瘤学问题」呢?更关键的是,这些错误很快就被下一次更新修复了——每发现一个错,AI 公司就赶紧迭代。所以我们看到的,是一个不断被「擦掉错误」的系统:失败悄悄消化,成功大肆宣传。看到的全是好的,难怪会高估。
超越正确率:校准度才是核心
答对还不够,关键是:它有几分把握?
一个真正聪明的人,九成把握的时候说话斩钉截铁,六成把握的时候会加一句「我不太确定」。这种「知道自己几斤几两」的能力,学术上叫校准度(calibration)。
普通人在这方面其实做得不错——大多数人对自己知识边界的感知还算靠谱。但大语言模型就不一样了,它回答什么都是一副胸有成竹的样子。
你问它「这颗痣要不要去看医生」,它说「看起来是良性的,不必担心」;你问它「Python 怎么写 for 循环」,也是一模一样的语气。问题是,这两件事的确定性差了十万八千里——但 AI 的口吻完全一样,你根本分不出它到底有没有把握。
数据也印证了这一点。2025 年《Nature》的一项研究发现,面对专家级的学术问题,多数 AI 模型的校准误差(RMS calibration error)超过 70%——答错了也一脸自信。同年哥伦比亚大学新闻评论测了 8 个 AI 搜索引擎,表现最好的 Perplexity 幻觉率 37%,最差的 Grok-3 高达 94%。关键不只是错得多,而是错了也不吭声——几乎从不表达不确定性。
到了 2026 年,MIT 团队专门研究了怎么识别大语言模型的过度自信。他们的结论很直白:模型有多自信和它实际有多准,两者之间的裂缝越来越大——放在医疗、金融这些场景里,后果不堪设想。
讽刺的是,「过度自信」本来是卡尼曼在《思考,快与慢》里反复批评的人类毛病。结果 AI 不但学会了,还青出于蓝。
给普通人的实用建议
那具体该怎么做?四件事:
- 记住基率。AI 表现惊艳的时候,先问自己:靠模式匹配碰巧答对的概率有多大?别被一次高光表现带跑。
- 出它没见过的题。自己编一个网上搜不到的新问题去考它。训练数据之外还能答好,那才是真本事。
- 看它会不会说「不知道」。不确定还侃侃而谈的,和能说「我不确定」的,聪明程度完全不同。
- 持续更新,别一锤定音。贝叶斯的精髓就是迭代。每次跟 AI 打交道都是新证据,慢慢修正判断,别被某一次体验锁死。
结语
贝叶斯定理给我们最重要的启示不是一个公式,而是一种思维习惯:在被表象打动之前,先问问基率是什么。
评估 AI 要用,生活中做判断也要用。下次被 AI 的回答惊艳到,不妨停下来想想史蒂夫——他看起来真的很像图书管理员,但他大概率是个农民。
参考文献
- OpenAI, GPT-4 Technical Report, 2023. GPT-4 在 UBE 律师考试中得分 298/400(第 90 百分位)、SAT 阅读 710(第 93 百分位)、SAT 数学 700(第 89 百分位)的数据来源。
- Bicknell et al., ChatGPT-4 Omni Performance in USMLE Disciplines and Clinical Skills: Comparative Analysis, JMIR Medical Education, 2024. GPT-4o 在 USMLE 750 道题中正确率 90.4%,医学生平均 59.3% 的数据来源。
- Eric Martínez, Re-evaluating GPT-4's Bar Exam Performance, Artificial Intelligence and Law, 2024. 重新评估 GPT-4 律师考试成绩:与执业律师比较降至约第 48 百分位,MEE+MPT 部分仅第 15 百分位。
- Brin et al., GPT versus Resident Physicians — A Benchmark Based on Official Board Scores, NEJM AI, 2024. GPT-4 与执业医师对比:精神科第 75 百分位,儿科第 17.4 百分位,妇产科第 23.4 百分位。
- NYSSCPA, Latest Version of ChatGPT Passed a Practice CPA Exam, 2023. GPT-4 通过 CPA 考试各科成绩:AUD 91.5%、BEC 85.7%、FAR 78%、REG 82%。
- ARC Prize Foundation, ARC-AGI-2, 2025. 纯语言模型得分 0%,最佳推理系统 54%,普通人平均 60%。
- Shojaee et al., The Illusion of Thinking, Apple Machine Learning Research / NeurIPS, 2025. 关于前沿基准(MMLU、HumanEval、GSM8K)失效的讨论。
- Steyvers et al., What Large Language Models Know and What People Think They Know, Nature Machine Intelligence, 2025. AI 模型与人类之间的校准差距及过度自信问题。
- Jaźwińska & Chandrasekar, AI Search Has a Citation Problem, Columbia Journalism Review, 2025. 8 个 AI 搜索引擎幻觉率测试:Perplexity 37%,Grok-3 94%。
- MIT News, A Better Method for Identifying Overconfident Large Language Models, 2026. MIT 团队开发识别大语言模型过度自信的新方法。
- Daniel Kahneman, Thinking, Fast and Slow, Farrar, Straus and Giroux, 2011. 史蒂夫图书管理员/农民例子及基率忽视、过度自信等概念的来源。
更多数学推理的“拆解版”我单独写成了一篇补充文章:
Follow Me | 关注我
- Blog:https://harryis.fish
- X(CN): @harry_is_fish
- X(EN): @harry_isfish
- 公众号

- 📺 Bilibili:海鱼Harry
- 🍠 小红书:海鱼Harry
- 🎵 抖音:海鱼Harry