热点新闻
2026年2月3日,腾讯混元AI团队在首席AI科学家姚顺雨带领下,正式上线技术博客并发布全球首个专门评测大语言模型上下文学习能力的基准CL-bench。该基准包含500个复杂上下文、1899个任务和31607个验证标准,要求模型必须从上下文中学习预训练中不存在的新知识并正确应用。
研究团队实测10个主流大语言模型发现,模型平均仅解决17.2%的任务,表现最好的GPT-5.1(high)任务成功率也仅有23.7%。结果表明当前SOTA模型几乎都不会从上下文中学习,忽略或误用上下文是导致失败的主要原因。
CL-bench采用无污染设计,所有上下文均为自包含结构,专家平均花费20小时标注每个上下文。项目主页为www.clbench.com,技术博客地址为https://hy.tencent.com/research。
该研究成果揭示了大语言模型在真实场景中经常出错的核心瓶颈:即使提供充足上下文,模型缺乏真正从中学习的能力。团队后续将重点关注如何提升模型上下文学习能力及知识持久化机制。
焦点分析
腾讯混元团队发布的CL-bench研究,从焦点解决短期治疗(SFBT)视角来看,呈现了典型的"例外探寻"技术应用。SFBT强调在问题困境中寻找例外经验,而CL-bench的构建逻辑正是通过系统化创设500个"知识学习例外场景",为大模型突破静态记忆依赖提供了明确的解决导向。
这项研究蕴含的焦点解决思维体现在三个层面:首先采用评分量问技术,将模糊的"上下文学习能力"转化为可量化的1899个具体任务;其次运用应对问句思路,关注模型在31607个验证标准中展现的已有能力而非缺陷;最后通过奇迹问句隐喻,设想模型若能有效学习上下文将实现的23.7%成功率提升空间。
CL-bench所体现的焦点解决技术可广泛应用于五个类似场景:教育领域的个性化学习系统开发需精准评估学生新知吸收能力;企业培训体系需测量员工在岗学习效果;医疗诊断系统需验证从病例数据中学习新病理模式的能力;智能客服系统需评估从对话上下文学习用户偏好的能力;研发创新平台需测评从技术文献中吸收跨领域知识的能力。
该基准的构建方法展现了SFBT的未来导向原则——不过度分析模型为何失败,而是通过精心设计的成功标准明确进步方向。这种思路同样适用于组织学习能力建设、个人技能发展评估、创新团队知识整合效率测量、跨文化沟通能力提升以及适应性领导力发展等领域。
腾讯团队在研究中发现,更高的推理强度通常能提升上下文学习效果,这与SFBT的"小改变带来大变化"理念高度契合。模型在演绎任务(应用明确规则)的表现显著优于归纳任务(从数据发现规律),提示我们焦点解决中的"具体化技术"在知识迁移中的关键作用——将隐性的学习过程转化为显性的操作步骤。
这项研究最终指向一个焦点解决核心命题:当人类从训练数据提供者转变为上下文提供者,竞争焦点将从模型训练优化转向上下文构建能力。这启示我们在人工智能时代,SFBT的资源取向和解决方案聚焦思维将成为核心竞争力,因为最有效的进步往往来自对现有资源的最大化利用而非无止境的新资源投入。