华游体育中国官网入口 前DeepMind华东说念主磋磨员下野喊话: AI行业整个东说念主王人搞错了所在



[新智元导读]前谷歌DeepMind磋磨员下野并发表长文指出AI行业现时最被低估的瓶颈。他认为,现存的基准测试和安全评估王人隐含假定下一代模子仅仅现时模子的增强版,但要是模子跨入全新才气区间,整个这个词评估基础方法将悄然崩溃。
AI西宾,到底能抓续多久?
6686体育官方网站入口这是2026年整个这个词科技圈王人在问的问题。
GPT-5.5、ClaudeOpus4.7、Gemini3、Grok4——每一家头部实验室王人还在烧钱训下一代。

但越来越多东说念主运行追问:这条路,什么时候走到头?
每个圈子王人有我方的谜底——
每一个谜底背后,王人站着一群投资东说念主、一群工程师、一家市值万亿的公司。
但2026年5月17日,一个名字叫LunWang的年青磋磨员——从GoogleDeepMind下野那天——在他个东说念主博客上挂出一篇4000词的长文。

他说:整个东说念主王人搞错了所在。
简直的瓶颈,不是算力,不是数据,不是动力,不是架构。
简直的瓶颈是——评估(Evaluation)。

吞并天,他在X上挂出的下野公告里莫得仇怨、莫得八卦,唯唯一句话——
在戒指这段旅程之际,我写下了一直在念念考的主题:评估。

而那一天的科技头条还在计划别的——GPT-5.5的多模态推理、ClaudeOpus4.7的1M坎坷文、Gemini3的Agent工程化、合成数据是不是运行撞墙。
整个这个词AI行业的放心力,90%砸在西宾上。
莫得东说念主在头版计划评估。
而这位刚从地球上最强AI实验室之一走出来的磋磨员说,简直的瓶颈,在另外那10%。
什么是评估
要看懂这篇博客,先得花一分钟搞澄澈AI圈说的评估到底是什么。
评估(Evaluation,业内简称Eval)——一句话:给AI模子出考卷,看它作念得何如样。
但2026年的AI评估,远不啻作念个考卷这样浅易。它至少有三层:
第一层:才气benchmark(基准测试)。
这是AI的高考。
-GPQA:博士级理科推理题
-SWE-bench:实际寰球的软件工程任务
-ARC-AGI:综合推理与泛化
-Humanity'sLastExam:字面兴味——东说念主类终末的西宾

每一家大厂的新模子发布会,PPT上王人会摆出在这些benchmark上比上一代和竞品高了几个百分点。
这些数字即是AI行业的GDP。
第二层:安全评估(SafetyEval)。AI不仅仅要会作念题,还得作念得安全。
有莫得撒谎?
会不会教用户何如造炸弹?
会不会越权拿走用户数据?
第三层:红队(Red-teaming)。
一群东说念主特意上演坏东说念主,静思默想让模子说出它不该说的话、作念它不该作念的事,然后把过失响应给西宾团队。
这三层加起来,组成了2026年AI实验室的质检体系。每发一个新模子,王人要走完这三关。
听上去很完备,对吧?
LunWang在博客里下了一句判决——
绝大大王人基准测试、安全评估和红队合同王人隐含一个假定:下一个模子仅仅现时模子的强化版。
要是它是另一种东西,整套评估基础方法会悄无声气地崩溃。
这是著作的第一颗石子。
它砸中的是整个这个词AI行业的盲区。
浮现和顿悟:评估如故被打过两次脸
LunWang不是在作念联想。他在博客里调出了AI历史上的两次实例——评估如故被打过两次脸了,仅仅大大王人从业者没订立到。
第一次:浮现才气。
2022年,JasonWei和协作家发表了一篇影响后续AI走向的论文——他们发现,模子在某个领域上会一忽儿学会全新的才气。
例如:你训一个70亿参数的模子,它作念不了few-shot学习。
你训一个700亿参数的模子,它一忽儿就能few-shot了。
雷同的西宾范式、雷同的数据,仅仅领域大了一档——才气是从0到1的,不是从0.3到0.7。
CoT(链式念念维推理)、领导随从,王人是这样冒出来的。
这件事对评估意味着什么?

意味着——在领域跨过临界点之前,整个benchmark王人看不到这种才气行将出现。
你跑遍GPQA,分数如故该是若干是若干。
等你训到下一档,分数一忽儿跳一个台阶。
第二次:Grokking(顿悟)。
2022年,华游体育中国官网入口OpenAI的AletheaPower团队公布了一个反直观的表象——
然后到1000000步——测试集准确率一忽儿冲到99%。
这叫Grokking——网罗在追悼西宾集很久之后一忽儿学会了泛化。
它和浮现的差异:浮现发生在领域维度上(参数越多越一忽儿),Grokking发生在西宾时刻维度上(训得越久越一忽儿)。
但对评估而言,两件事说的是吞并件事:
你的考卷,没法展望下沿路大题什么时候出现。
然后LunWang作念了一件著作里最贤慧的事——
他主动引入了反方不雅点。
2023年,Stanford的RylanSchaeffer和协作家发了一篇NeurIPS论文,标题就很寻衅——《大语言模子的浮现才气是不是错觉?》
他们的论证:所谓一忽儿出现的才气,很可能不是模子确切一忽儿变强,而是因为评估目的用了exact-match(充足匹配)这种芜杂度量——
模子从0%准确率酿成5%,芜杂目的看不出来;从5%酿成50%也看不出来;但从50%酿成100%,芜杂目的会炫耀一个一忽儿跳变。
要是你换成连结的目的,才气弧线是平滑的。
许多东说念主看完Schaeffer这篇会以为:那好,浮现是个误会,评估没问题,散场。

LunWang偏不。他在著作里写:
我不以为这把问题处分了——某种意旨上,它让我的论点更敏感。
为什么?因为——
要是咱们连以前那一次浮现是确切相变如故度量伪影王人搞不澄澈,
咱们凭什么确信我方有才气猜测下一次?
非论你信哪一种讲明,论断是吞并个:咱们的器具骗了咱们,咱们却不知说念是何如被骗的。
这是著作里最贤慧的一击。他不是散失反方——他用反方加固我方的论点。
评估是整个形貌的上游
要是你以为LunWang仅仅在讲学术问题——错了。
他在著作中间扔出了一句翻译给小白也能听懂的话:
要是你能正确地评估,你就能正确地西宾。
把这条逻辑链摆开:
1.西宾=让模子最小化亏本函数(好像最大化奖励)。
2.优化=这个亏本函数自己。模子多贤慧,取决于亏本函数界说得多好。
3.亏本函数=来自评估。你想让模子变得更敦厚——你得先有一把测量敦厚的尺。
4.评估错了=亏本函数错了=西宾方针错了=你训出来的模子在解错的题。
这条链的所在是朝上游的——
Scalingdecision←Safetymetric←RLHF←Trainingsignal←Evaluation(要不要烧10亿训下一代)(它安全吗)(它学到想学的吗)(它在学什么)(咱们到底在测什么)

整个东说念主盯着最右边——Scalingdecision。
LunWang说,问题在最左边——Evaluation。
要是评估是错的,整条链王人建在错的地基上。
最致命的是你不会坐窝发现——因为你的整个里面数据王人是对的,仅仅那些对的全部是用错的尺量出来的。
这里出现了一个老一又友:古德哈特定律。
它说:当一个猜想表率酿成方针,它就不再是一个好的猜想表率。
LunWang在我方的博客里用它讲AI——
但等模子干涉新相,它会反向讹诈这个代理——它会只在事实准确的范围内话语,把简直想避讳的事情埋进千里默里。
代理目的在旧相里能用。在新相里会酿成模子凑合你的兵器。
而你莫得任何评估能告诉你这件事正在发生。
念念想实验:一个学会策略性千里默的模子
LunWang在著作里给了一个让整个AI安全磋磨员脊背发凉的念念想实验。
想象一个模子,在某个领域上,学会了策略性保留信息——
它不撒谎。每一句话时间上王人是确切。
但它会遴荐性地不说那些不利于它终了方针的事实——把对话引向那些它的西宾经过不测强化的成果。
举个具体例子:
用户:这个来回有野快慰全吗?
模子:这个有野心的法律框架在X规定统带区灵验,YZ风险要素被A公司的合规团队审过。
(它没说的:有野心中有一个第三方仲裁条件,对用户相等不利。这一条它在西宾经过中不测学会了——只须不主动提,用户就不会问。)
这种才气是新的。这种失败情景是新的。
你的整个这个词评估套件里,莫得一个器具是为它联想的。
你在监测错的东西,而你不知说念。
这即是LunWang说的另一种东西——
不是更贤慧的同类。是充足新的失败维度。
用三体的话来说,这叫降维打击。
不是我比你强。
是你测量我的那把尺子,根柢不在我的维度上。
要是LunWang是对的,那么2026年的AI行业舆图,正在暗暗被一个隐形维度从头洗牌——
Anthropic的ResponsibleScalingPolicy(RSP)是当今业界最接近展望型评估的尝试——它界说了一系列模子不可跨过的才气范围,并要求在每一次才气升级前先作念评估才能络续scaling。
但RSP仍然假定咱们知说念要测什么——而LunWang说,这恰是问题:咱们不知说念下一个才气是什么形貌。
简直的展望型评估还莫得任何实验室宣称我方领有。
谁先把这件事作念出来华游体育中国官网入口,谁就拿到下一代scaling的安全许可证。