腾讯混元发布CL-bench揭示大模型上下文学习瓶颈

📂 新闻📅 2026/2/3 21:45:28👁️ 2 次阅读

热点新闻

2026年2月3日,腾讯混元官网正式上线,由首席AI科学家姚顺雨团队发布了专门评测大语言模型上下文学习能力的基准CL-bench。该基准包含500个复杂上下文、1899个任务和31607个验证标准,要求模型必须从上下文中学习预训练中不存在的新知识并正确应用。研究团队实测发现,当前最先进的SOTA模型几乎都不会从上下文中学习,表现最好的GPT-5.1(high)任务成功率仅有23.7%,所有模型平均成功率仅为17.2%。

CL-bench涵盖四种现实世界上下文学习场景:领域知识推理、规则系统应用、程序性任务执行、经验发现与模拟。基准采用无污染设计,通过虚构创作、现有内容修改和整合小众内容确保测试的公正性。专家平均花费约20小时标注每个上下文,每个任务包含16.6个评估标准,确保任务构建的质量和深度。

研究发现五大关键结论:忽略或误用上下文是导致失败的主要原因;长上下文推理和指令遵循是必要但不充分条件;归纳推理比演绎应用更困难;更高的推理强度通常能提升效果;上下文学习难度与长度和复杂度相关。这项研究揭示了大语言模型在真实场景中经常出错的根本原因,即使提供了上下文,模型也不能真正从中学习。

原文链接:https://36kr.com/p/3667552328868488

焦点分析

腾讯混元团队发布的CL-bench研究结果,从焦点解决思维(SFBT)视角来看,呈现了一个典型的"例外寻找"技术应用场景。SFBT强调关注问题中的例外情况,即那些已经部分解决或相对成功的时刻,而非执着于问题本身。在这个研究中,虽然整体成功率只有17.2%,但GPT-5.1(high)达到了23.7%的成功率,这23.7%就是需要重点分析的"例外"。

焦点解决思维中的"刻度化问句"技术在此具有重要应用价值。研究人员发现推理强度提升可以改善模型表现,这类似于SFBT中通过量化评估进步程度的方法。当模型在管理类和实验数据类任务上表现提升约6%时,这6%的提升就是需要放大和复制的成功经验。SFBT会追问:在这6%的提升中,模型做了什么不同的事情?这些成功模式如何应用到其他任务场景?

从SFBT的"应对问句"角度分析,即使面对82.8%的失败率,模型仍然有17.2%的成功案例,这说明模型具备一定的上下文学习能力基础。焦点解决思维会关注:模型是如何在23.7%的任务中实现成功学习的?在这些成功案例中,上下文提供了什么样的支持条件?模型的注意力机制、知识提取和应用过程发生了什么积极变化?

SFBT的"奇迹问句"技术在此研究中也具有启发意义:如果大模型的上下文学习能力突然达到理想状态,会观察到什么具体变化?研究人员发现模型失败的主要原因是忽略或误用上下文,那么反过来,成功的模型必定在上下文关注、信息提取和知识应用方面有着不同的处理方式。这些差异正是需要识别和强化的解决方案。

这项研究还体现了SFBT的"资源取向"思维。虽然当前模型表现不佳,但研究团队已经构建了完善的评估体系,识别了具体的问题类型和难度分布,这为后续改进提供了明确方向。CL-bench的500个任务就像500个具体的治疗目标,每个目标都有清晰的验证标准,这种结构化的问题定义方式与SFBT的目标设定技术高度契合。

该技术方案还可以解决以下五个类似问题:教育领域中学生的知识迁移和应用能力评估;企业培训中员工对新政策和新流程的学习效果检测;医疗诊断中医生对最新医学指南的掌握和应用情况;法律实践中律师对新型案例法条的理解和运用能力;技术支援中工程师对陌生系统故障的快速学习和解决能力。

通过焦点解决思维的分析,我们看到虽然大模型上下文学习整体表现不佳,但已经存在成功的例外案例,这些案例中蕴含的解决方案模式值得深入挖掘和推广。未来的研究应该更多关注那23.7%的成功是如何发生的,而不是一味强调76.3%的失败。这种积极取向的研究思路将更有效地推动技术进步。