论文阅读:ICLR 2026 Are Reasoning LLMs Robust to Interventions on their Chain-of-Thought?

张开发
2026/4/20 17:14:16 15 分钟阅读

分享文章

论文阅读:ICLR 2026 Are Reasoning LLMs Robust to Interventions on their Chain-of-Thought?
总目录 大模型安全研究论文整理 2026年版https://blog.csdn.net/WhiffeYF/article/details/159047894https://openreview.net/forum?idaQZIpELFwphttps://openreview.net/pdf?idaQZIpELFwp该论文题为《Are Reasoning LLMs Robust to Interventions on Their Chain-of-Thought?》由慕尼黑工业大学与亥姆霍兹慕尼黑中心等机构研究者Alexander von Recum、Leander Girrbach及Zeynep Akata合作完成发表于国际表征学习会议ICLR 2026。该研究聚焦推理型大语言模型在其逐步思维链Chain-of-Thought, CoT遭受扰动时的自我修复能力。随着推理模型广泛应用其推理过程可能因工具噪声、对抗攻击或意外错误而被污染探明模型能否在“思考中途”识别异常并回归正途对高风险场景下的安全部署具有重要价值。该论文提出了一套可控干预评测框架涵盖良性改写、中性随机文本注入及对抗性错误事实插入等七种扰动并在数学、科学和逻辑任务上评估九款开源模型。以数学解题为例当模型已正确写下“设原两位数为10ab”时研究者突然将其下一步替换为错误公式或无关内容随后让模型继续作答。实验通过多次采样续写观察模型能否在多数情况下识别异常、发出“等等这似乎不对”的怀疑并最终回到正确路径得出答案以此量化其鲁棒性。结果表明推理模型整体具备较强的恢复能力且规模越大鲁棒性越高但干预发生在早期步骤时破坏力更强。一个反直觉的发现是模型对表达“风格”高度敏感同义改写虽保留语义却抑制了怀疑性自我修正信号反而导致准确率下滑。此外从中性噪声中恢复常使推理长度激增逾200%揭示了鲁棒性背后隐藏的计算成本权衡。

更多文章