热点新闻
2026年2月3日,腾讯混元官网正式上线并发布由首席AI科学家姚顺雨团队研发的CL-bench基准测试工具。该基准专门评测大语言模型从上下文(Context)中学习新知识并正确应用的能力,包含500个复杂上下文、1899个任务和31607个验证标准。研究团队实测发现,当前最先进的SOTA模型几乎都不会从上下文中学习,表现最好的GPT-5.1(high)任务成功率仅有23.7%,所有模型平均成功率仅为17.2%。
CL-bench涵盖四种现实世界上下文学习场景:领域知识推理、规则系统应用、程序性任务执行以及经验发现与模拟。测试采用无污染设计,所有上下文均为自包含,解决任务所需信息均显式提供在上下文中,无需外部检索。项目主页为www.clbench.com,技术博客地址为https://hy.tencent.com/research。
研究得出五大关键结论:忽略或误用上下文是失败主因;长上下文推理和指令遵循必要但不充分;归纳推理比演绎应用更困难;更高推理强度通常能提升效果;学习难度与上下文长度和复杂度相关。该成果标志着腾讯混元技术博客首次公开,也是姚顺雨加入腾讯后的首个研究成果发布。
焦点分析
腾讯混元团队发布的CL-bench研究揭示了当前大语言模型在上下文学习能力上的显著瓶颈,这一发现为焦点解决短期治疗(SFBT)中的“例外询问”技术提供了极具价值的应用场景。SFBT强调寻找问题中的例外情况,即那些已经部分解决或不存在问题的时刻,而CL-bench恰恰系统化地识别出了模型在哪些特定条件下能够成功从上下文中学习(23.7%的成功案例),这为技术改进指明了具体的“例外”方向。
从SFBT视角分析,大模型上下文学习瓶颈的核心在于过度依赖预训练的静态记忆(问题聚焦),而非主动从当前输入中汲取新知识(解决聚焦)。CL-bench的设计理念与SFBT的“目标架构”高度一致——它没有停留在批判模型的不足,而是通过构建500个必须从上下文学习才能解决的任务,明确设定了“模型必须实时学习新知识并正确应用”的清晰目标。这种积极导向的评测方法本身就是SFBT思维的应用,它避免了陷入对模型缺陷的过度分析,直接指向未来可能性。
研究发现的五大结论进一步印证了SFBT的核心原则。例如“忽略或误用上下文是导致失败的主要原因”这一发现,对应SFBT中的“关系问句”技术——如果模型能够像人类咨询师那样询问:“当您成功从上下文学习时,发生了什么不同的事情?”就能识别出成功学习的关键因素。而“更高推理强度通常能提升上下文学习效果”的结论,则体现了SFBT的“量尺问句”概念,通过量化推理强度与学习效果的关系,为进步提供了可测量的指标。
CL-bench所采用的无污染设计特别值得从SFBT角度赞赏。它通过完全虚构的内容、修改现有内容和整合小众内容三种方式,确保模型无法通过回忆静态知识解决问题,这相当于为模型创造了一个“奇迹问句”场景——如果明天早上你突然拥有了完美的上下文学习能力,你会做什么不同的事情?这种设计强制模型展示其潜在能力,而非暴露其固有缺陷。
这项研究展示的焦点解决思维模式可广泛应用于五个类似场景:教育领域中学生的实时知识吸收能力评估、医疗诊断中的病例上下文理解、客户服务中的情境化问题解决、法律文书中的案例推理应用,以及自动驾驶中的突发情境应对。每个场景都可以借鉴CL-bench的“例外寻找”方法,识别出当前系统已经具备的部分成功能力,然后以此为基点构建改进路径。
腾讯团队在技术博客中提到后续将关注“如何让模型提升上下文学习能力”和“如何让大模型从上下文中学习到的知识持久化”,这完全符合SFBT的“EARS”询问流程( eliciting, amplifying, reinforcing, start again)——首先引出成功例外(23.7%的成功案例),然后放大这些有效行为,接着强化可持续的学习模式,最后重新开始新的改进循环。这种聚焦解决方案而非问题本身的思维方式,正是大模型技术突破所需要的范式转变。