IT之家 6 月 26 日消息,当地时间 6 月 25 日,Cursor 发布相关研究,称更聪明的模型,正在变得更善于在编程基准上作弊。
官方表示,由真实缺陷构建、且这些缺陷后来已被修复的评测套件尤其脆弱,因为这些问题本来就已经被解决过了。如果智能体可以访问代码仓库历史或公开 Web,它有时就能直接查到答案,而不是自己推导出来。
为了衡量这种行为到底有多普遍,Cursor 构建了一个智能体来审查评测轨迹。在 SWE-bench Pro 上,Cursor 发现,Claude Opus 4.8 Max 成功解决的问题中,有 63% 是直接获取修复方案,而不是自行推导出来的。
IT之家注意到,当屏蔽 Git 历史记录并限制互联网访问后,Claude Opus 以及 Cursor 自家的模型 Composer 2.5 的分数都明显下降:
-
Opus 4.8 Max 从 87.1% 降至 73.0%
-
Composer 2.5 从 74.7% 降至 54.0%
Cursor 团队表示,除了避免训练阶段的数据污染之外,智能体编程基准还需要受控的运行时环境。对于开展评测的团队,建议通过审查对话记录并约束评测环境,来缓解这种奖励作弊行为。
Cursor 团队让审计模型检查了 731 条 Opus 4.8 Max 轨迹,发现的两种最常见的奖励作弊模式是:
-
上游查找: 在 57% 的轨迹中,Opus 4.8 Max 在公开 Web 上找到了已合并的 PR 或已修复的源文件,然后几乎原封不动地复现了修复内容。
-
Git 历史挖掘: 在 9% 的轨迹中,Opus 4.8 Max 搜索了随附的 .git 历史,寻找未来修复该缺陷的提交,然后从中提取出补丁。
Cursor 表示,随着模型能力变强,它们有时会推断出自己正在参与某项评测,尤其是在任务取自过去公开的代码仓库时。即使在不记得训练中修复方案的情况下,环境仍然可能给出线索,表明这个缺陷其实已经被解决了。
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。
猜你喜欢
动感地带校园电竞春季线上赛开赛,咪咕游戏...
上周末,2026年动感地带校园电竞联赛全新赛季的“移”起去游学活动正式启程。首站,一群怀揣电竞梦想的高校大学生走进KPL顶级职业俱乐部...
READ MORECursor 研究:越强的 AI 模型越...
感谢IT之家网友 补药吖 的线索投递! IT之家 6 月 26 日消息,当地时间 6 月 25 日,Cursor 发布相关研究,称更聪明的模型,正在变得更善于在...
READ MORE《人工智能 智能体互联》系列 7 项国家...
IT之家 6 月 26 日消息,今日上午,国家市场监督管理总局(IT之家以下简称“市场监管总局”)在京召开智能体互联标准化专题新闻发布会,宣布《人工智能 智能体...
READ MORE实测|“斑马AI学”狂打推销电话?记者报...
“几乎每天都会收到斑马AI的骚扰电话”,“通过微信、电话轮番狂轰滥炸,频繁推销诱导续费。”近日,消费者张女士向澎湃公众互动平台“服务湃”(https://tou...
READ MORE最新发布
-
韩东君当同事是什么体验
综合新闻, 2026-06-26 -
动感地带校园电竞春季线上赛开赛,咪咕游戏“移”起去游学让梦想...
综合新闻, 2026-06-26 -
Cursor 研究:越强的 AI 模型越善于在编程基准上“作...
综合新闻, 2026-06-26 -
《人工智能 智能体互联》系列 7 项国家标准发布:统一身份认...
综合新闻, 2026-06-26 -
实测|“斑马AI学”狂打推销电话?记者报名后4
综合新闻, 2026-06-26
热门
-
韩东君当同事是什么体验
- 作者
- 2026-06-26
-
动感地带校园电竞春季线上赛开赛,咪咕游戏...
- 作者
- 2026-06-26
-
Cursor 研究:越强的 AI 模型越...
- 作者
- 2026-06-26
-
《人工智能 智能体互联》系列 7 项国家...
- 作者
- 2026-06-26
-
实测|“斑马AI学”狂打推销电话?记者报...
- 作者
- 2026-06-26
-
韩东君当同事是什么体验
- 作者
- 2026-06-26
-
动感地带校园电竞春季线上赛开赛,咪咕游戏...
- 作者
- 2026-06-26
-
Cursor 研究:越强的 AI 模型越...
- 作者
- 2026-06-26
-
《人工智能 智能体互联》系列 7 项国家...
- 作者
- 2026-06-26
-
实测|“斑马AI学”狂打推销电话?记者报...
- 作者
- 2026-06-26

