AI 评分 9.0/10
一篇新论文通过超过 30,000 个问题测量了前沿 AI 模型在没有思维链(CoT)情况下的推理能力,发现其无 CoT 任务完成时间跨度大约每年翻倍,GPT-5.5 达到了 3 分钟以上。 这一趋势威胁到依赖监控 CoT 推理的 AI 安全监督,因为模型可能很快在内部进行复杂推理而无需显式思考令牌,从而削弱当前的安全技术。 该论文估计了 50%任务完成时间跨度(TH)和 50%推理令牌跨度,预测无 CoT TH 到 2028 年可能超过 7 分钟,到 2030 年超过 25 分钟,尽管存在很大不确定性。
rss · ArXiv cs.AI · 6月29日 04:00
背景: 思维链(CoT)推理是一种 AI 模型展示其逐步思考过程的技术,用于安全监控。无 CoT 推理意味着模型在不输出中间步骤的情况下完成任务,使得检测不安全推理更加困难。前沿模型是最先进的 AI 系统,例如 GPT-5.5。
参考链接
社区讨论: 在 LessWrong 上,该论文引发了关于 AI 安全影响的讨论,一些评论者指出指数趋势令人担忧,并呼吁开发者明确跟踪这一指标。
原文: https://arxiv.org/abs/2606.07157
Horizon 日报 · 2026-06-30