blog
2026-06-13

Fable 5突遭下架,GLM-5.2全量开放!


新智元报道


【新智元导读】GLM-5.2全量开放!1M上下文真能用,长任务不忘事。

昨晚,Claude Fable 5被美国政府一封信直接全球下架。

上线才72小时,说没就没。连Anthropic自家外籍员工都不许碰。数亿用户一觉醒来,直接懵了。

老外自己先坐不住了,梗图满天飞——Anthropic那边说「我们的模型太危险了」,美国政府回一句「那我禁了」。


就在刚刚,国产模型回应来了:GLM-5.2,全量用,最高权限开源。

GLM Coding Plan 全量用户开放,Lite、Pro、Max、团队版,今晚全部能用!

下周API上线,MIT协议开源,权重随便拿。

一边在关门,一边在开门。

从GLM-5到5.1再到今晚的5.2,智谱在Coding这条路上死磕了整整一年。

5.1刚把开源模型推到8小时长程任务,社区反馈还很热,5.2就直接把上下文怼到了1M——而且是那种真能用的1M!

这次GLM-5.2有两个关键词:真1M上下文,Coding国产之光。

到底怎么样?全网都在等Bench

在Anthropic这一通操作的背景之下,5.2模型刚一宣布要开源,海外社区就炸了。

国外知名博主AICodeKing在内测完给出的评价相当直接:这个模型品位出色,代码始终非常干净。我让它微调一个完整的本地模型,30分钟就搞定了。全方位都表现优异。

目前已公布的开发者实测Bench来看,性能基本对标Opus 4.8——实打实的国产之光。


智谱其实在前两天就开通了coding plan用户的一波内测(在最近的AI圈发模型中也是常规操作了)

而我们潜水的内测社群里,体感反馈也一致得吓人。

有网友表示,「这是国内第一款在我工作流上达到Opus级的模型」。


另一位内测用户更直白——「用过5.2回不去5.1了,在大项目里面有种4.7到5的跨越式进步。上头的感觉。」


知乎上甚至有人说:「从下周开始,通过中转站用Opus的人必须面对一个问题——你用的Opus如果是GLM-5.2冒充的,你可能分辨不出来,甚至表现更好。」


官方Bench还没出全,全网都在等。但就目前开发者自己跑出来的数据和体感来看,Coding国产第一这个位置,GLM-5.2坐得稳。

第一时间拿到内测资格后,我们也迫不及待地上手实测了下。果然和之前的模型不一样。

一口气写完,三种寻路算法全跑对了

让GLM-5.2写一个寻路算法可视化器。它给你一次搞定。

A*、Dijkstra、BFS——三种算法各有各的套路,一个都没搞混。

连优先队列都是自己写的,不是拿现成的库糊弄。

最狠的是分屏对比:两种算法同时跑,各走各的路、各算各的数,画面上五颜六色地铺开——这等于一个文件里同时管两套独立的搜索过程,状态一串就全乱。它没串。


六套逻辑塞在一个文件里,从头到尾都不打架——算法、动画、交互、对比、统计、迷宫生成,全记着,全对着。

Coding跟长上下文的真功夫,就体现在这种地方。

长任务,不忘事

GLM-5.1已经能连续自主工作8小时,但想再往前推,绕不开一个坎:上下文。

一个连续干几小时活的智能体,要经历数千次工具调用、读写几万行代码、攒下一大堆中间状态。

窗口不够长,它就得不停压缩、丢弃。很多长任务翻车,不是模型不够聪明,是它忘了。

所以1M上下文的意义,不是参数表上一个更大的数字,而是让模型能把整个项目一口气吃进去——代码、决策、约束全记着,从头干到尾不丢东西。

现在标称1M的模型不少,但用过的人都有体感:喂进去是喂进去了,记不太住。

很多模型过了25万token就开始「失忆」;而且上下文越长,算力和显存烧得越猛——不是不能跑,是跑起来又慢又贵,没人敢这么用。

从结构下手,用一套注意力层面的创新组合拳,把1M长度下的效果衰减和推理成本一起压了下来。

在长文基准上,GLM-5.21M长度的衰减明显小于同类模型。

连续干了4小时,搓出一整个合成器工作站

这个case最能说明「长任务,不忘事」到底意味着什么。

一句话需求扔过去——做一个专业级的HTML音乐合成器工作站,WebAudio,零依赖。

然后它就开始干了。不是干几分钟,是整整4个小时,一口气,中间没人插手。

4个小时里它自己写代码、自己组了29个review智能体从4个维度对着自己的代码挑毛病、揪出18个bug全部修掉、还跑了Headless Chrome自动化测试验证完整音频链路。

最狠的是,自动测试还抓到了一个review都没发现的致命bug,它自己修了。

最终交付:177,000个token的工作量,一个回合完成。


这就是1M上下文的意义。

4小时、17万token、几十个模块的状态全攥在手里不丢——这是「记性好」。

而记性好,恰恰是长任务能不能交付的生死线。

74万多条日志喂进去,它没忘开头

我们直接把一整月、几十万token的服务器日志全塞给GLM-5.2,让它揪出一个月前埋下的雪崩苗头。


5月28日的雪崩谁都看得见,但GLM-5.2把根因一路倒推回了5月3日那条藏在第661行的连接池等待警告。

那条WARN当时还自愈着、淹没在几千条正常日志里,毫不起眼。

月末爆发时,它还能精确引用到月初的原始行号和时间戳,把「连接池满载 → 慢性积累 → 彻底耗尽 → 级联503」串成一条完整的因果链。


短上下文模型跑到日志尾段,开头那条火种早就被压缩、丢弃了——它只能告诉你「5月28日崩了」,给不出为什么会崩。

能从结尾想起开头,长上下文才真正变成了推理能力。

上千行代码,三种玩法各有各的物理规则

让GLM-5.2跑一个 2D 粒子物理模拟器。

自由模式里粒子互相吸引、碰撞了还会合并成更大的——质量加在一起、速度按比例分配。

物理课本上那套动量守恒它能老老实实玩明白了。

切到轨道模式,规则整个换了一套:只有中间那颗大星球吸引别人,小粒子之间不合并,不然轨道全乱。

再切烟花模式,引力又变成往下掉的重力,粒子还会慢慢变暗消失。


三种模式共用一套画面循环,但「力怎么算、撞了怎么办、要不要消失」全按模式分开处理,干净利落。

一千多行代码从头写到尾,前面定的规矩后面全记着,没一处自相矛盾。

4份合同一起喂,跨文档揪出隐藏矛盾

4份合同、几万字,一次性全喂进去,它没看花眼。

最见功力的是:合同3说「打官司」,合同1却说「走仲裁」,它一眼看穿这俩凑一块儿会「打架」,还顺藤摸瓜把两份合同串了起来。

这种活,得同时把4份合同攥在脑子里才做得出来。


长上下文在这儿不是「塞得下」,是「记得住、对得上、能交叉」。

前沿智能,不该说没就没

回到开头那件事。

Fable 5上线3天就被强制下架,全球开发者发现自己赖以工作的模型说没就没了。依赖Fable 5构建产品的团队,服务直接挂掉。

你永远不知道自己手里的工具什么时候会被一封信收走。

在海外闭源前沿模型访问不确定性上升的背景下,国产开源模型的含金量还在提升。

智谱坚持coding模型已经超过1年了,这次把开发者千呼万唤的1M、长任务这些已经不新鲜的词做「solid」:让中国开发者手里这台Coding模型,是真能扛复杂大活的那种可用,不再是榜单上好看、用起来打折。

智谱给这次发布写了一句话,下午被AI圈刷屏:前沿智能,不该只属于少数人,也不该被少数规则随时收回。它应该开放、可用、可构建,服务每一位开发者。


这句话听着,格外实在,GLM继续加油。


来源于:https://www.163.com/dy/article/KVBAIA8Q0511ABV6.html    如有侵权请联系我们
Tags : 开放
Share :