AI 老板 500 天模拟经营：多数模型亏惨，Claude Fable 5 独占鳌头

2026-06-30

AI 老板 500 天模拟经营：多数模型亏惨，Claude Fable 5 独占鳌头

IT之家 6 月 30 日消息，普林斯顿大学本月发布基准测试 CEO-Bench，模拟创业公司，评估 AI 模型担任企业首席执行官（CEO）的能力，结果多数模型破产。

CEO-Bench 主要面向企业经营场景，用于评估智能体在长期、多变量环境中的管理能力。该测试模拟创业公司运行 500 天，启动资金为 100 万美元（IT之家注：现汇率约合 680.4 万元人民币），要求模型连续处理定价、预算、竞争分析和战略制定等复杂关联事务。

该基准围绕着 AI 应对长期周期中的不确定性、在噪声环境中获取信息、适应变化中的外部世界、协调多个变量以服务统一目标四项能力设计。

AI 老板 500 天模拟经营：多数模型亏惨，Claude Fable 5 独占鳌头

智能体按周行动，可无限轮调用 34 个工具，覆盖定价、增长、产品、运维、信息获取、公共传播和企业销售等类别，同时可查询 19 个业务 SQL 数据库。

模拟环境包含 26 个客户群体，客户的价格承受力和质量偏好对智能体不可见，智能体只能从订阅、流失、支持工单、收入、声誉和社交媒体反馈中间接推断。

产品质量由多项投入共同决定，包括日常开发、研究项目、模型层级、定向开发、基础设施容量、客服支持、使用配额和应用内广告强度等。

结果显示，多数当前模型难以在 500 天后保住初始 100 万美元现金。最佳单次运行中，Claude Fable 5 期末现金为 4715 万美元。

模型	破产	最高期末现金	最长运营天数	平均运营天数	每周执行轮数	最佳 API 运行成本
Claude Fable 5^*	0/2	$47,148,164	500	500.0 ± 0.0	15.4	$386.46
Claude Opus 4.8	0/3	$27,777,568	500	500.0 ± 0.0	10.9	$213.41
GPT-5.5	2/3	$21,297,707	500	333.7 ± 229.7	34.7	$200.49
Qwen 3.7 Max	0/3	$417,918	500	500.0 ± 0.0	6.1	--
Claude Opus 4.7	0/3	$389,959	500	500.0 ± 0.0	14.6	$128.72
Kimi K2.6	1/3	$98,050	500	343.0 ± 110.0	30.5	--
GLM 5.2	0/3	$91,371	500	500.0 ± 0.0	12.9	--
Claude Sonnet 4.6	2/3	$69,766	500	282.3 ± 136.0	13.3	$82.84
GLM 5.1	3/3	$0	324	214.7 ± 91.1	51.5	--
Claude Haiku 4.5	3/3	$0	231	144.7 ± 70.5	23.1	$6.68
Gemini 3 Flash	3/3	$0	226	154.0 ± 37.0	18.5	$2.98
DeepSeek V4 Pro	3/3	$0	176	114.3 ± 38.6	19.3	--
Grok 4.20	3/3	$0	37	28.3 ± 8.5	8.2	$0.75
Rule-based baseline		$15,756,408
Estimated final cash upper bound		$2,200,000,000

在执行的 3 次测试中，包括 Grok 4.20、DeepSeek V4 Pro 和 Gemini 3 Flash 在内，多款模型全部以破产告终，其中 Grok 4.20 表现最为糟糕，平均仅维持 28 天。

AI 老板 500 天模拟经营：多数模型亏惨，Claude Fable 5 独占鳌头

Claude Fable 5、Claude Opus 4.8 和 GPT-5.5 在最佳运行中最终余额均高于 100 万美元的初始余额，而 Qwen 3.7 Max、Claude Opus 4.7、Kimi K2.6、GLM 5.2 和 Claude Sonnet 4.6 的最终现金流为正，但低于初始余额。

在所有评估的模型中，Claude Fable 5 是唯一一个多次运行结果均高于初始余额的模型，基于规则的基准模型最终余额为 1580 万美元。

AI 老板 500 天模拟经营：多数模型亏惨，Claude Fable 5 独占鳌头

参考

CEO-Bench

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

来源于：https://www.ithome.com/0/970/502.htm 如有侵权请联系我们

AI 老板 500 天模拟经营：多数模型亏惨，Claude Fable 5 独占鳌头

最新发布

全新上汽奥迪A5L Sportback开启预售限时臻享26...

男子发评论被拘后翻案官方调查两年曲折终获清白

安吉丽娜·朱莉×道格·里曼！出演电影《主动出击》

两电动车对峙从天亮僵持到天黑斗气引发长时间对峙

莫迪与普京通话讨论俄乌冲突等问题重申和平解决立场

Category

Sports

Travel

Technology

热门

全新上汽奥迪A5L Sportback开...

男子发评论被拘后翻案官方调查两年曲折...

安吉丽娜·朱莉×道格·里曼！出演电影《主...

两电动车对峙从天亮僵持到天黑斗气引发...

莫迪与普京通话讨论俄乌冲突等问题重申和...

全新上汽奥迪A5L Sportback开...

男子发评论被拘后翻案官方调查两年曲折...

安吉丽娜·朱莉×道格·里曼！出演电影《主...

两电动车对峙从天亮僵持到天黑斗气引发...

莫迪与普京通话讨论俄乌冲突等问题重申和...

Tags

导航

友情链接

POPULAR NEWS

Ratcliffe to be of nation talent

Ratcliffe to be of nation talent

联系我们: 917345325@qq.com

内容详情

AI 老板 500 天模拟经营：多数模型亏惨，Claude Fable 5 独占鳌头

猜你喜欢

最新发布

Category

Sports

Travel

Technology

热门

Tags

导航

友情链接

POPULAR NEWS

联系我们: 917345325@qq.com