blog
2025-08-23

OpenAI GPT-4b 攻克诺奖难题:人体细胞“返老还童”,逆转效率飙升 50 倍

OpenAI 与 Retro Biosciences 合作,借助定制模型 GPT-4b micro 成功设计出优化版「山中因子」,大幅提升了成体细胞逆转为多能干细胞的效率。这一成果不仅改进了细胞工程,更展示了 AI 赋能生命科学研究的全新范式,加速科研进入全新时代。

在生命科学领域,一个长期未解的难题是:如何高效地将成体细胞逆转为多能干细胞。传统方法依赖一种称为「山中因子」的蛋白质。

「山中因子」的一种变体

只要把它导入成体细胞,就能把它们「重编程」为诱导多能干细胞(iPSCs)。

这种「细胞逆转」,能让普通的体细胞回到像胚胎一样的状态,从此人类就有可能再生各种组织,甚至治愈那些无法治疗的疾病。

今天在 AI 的帮助下,人类又一次离「逆转衰老」更进一步!

刚刚,OpenAI 宣布,他们和 Retro Biosciences 的合作已成功利用 GPT‑4b micro 设计出了山中因子的「新颖且显著优化」的变体。

GPT‑4b micro 是 OpenAI 专门为生命科学和蛋白质工程定制的 AI 模型。

可以理解为 GPT-4 系列的一个「微缩实验版」

它不是通用大模型,而是针对蛋白质设计这个任务做了专门优化。

山中因子是一组特殊的蛋白质,因其在诱导产生多能干细胞(iPSCs)和实现细胞年轻化方面的开创性作用而荣获诺贝尔奖。

该技术还被用于开发治疗失明、逆转糖尿病、治疗不孕症以及解决器官短缺等问题的创新疗法。

山中因子

20 世纪末,科学界有一个几乎不可动摇的共识:细胞的命运一旦确定,就无法逆转

如果一个细胞已经分化成皮肤细胞、肌肉细胞或神经细胞,就不能再「回头」变成其他细胞。

皮肤细胞只能是皮肤细胞,神经元只能是神经元,没人相信它们还能逆转,重新变成万能的胚胎样细胞。

获取多能干细胞只能依赖胚胎,这不仅受制于伦理争议,也让再生医学的发展步履维艰。

然而,一位日本科学家山中伸弥(Shinya Yamanaka)并不愿接受这样的限制。

作为骨科医生出身的研究者,他亲眼见过病人因神经损伤、器官衰竭而无药可医。他心里一直有个疑问:

如果能让普通的体细胞回到像胚胎一样的状态,是不是就能再生各种组织,甚至治愈那些无法治疗的疾病呢?

2006 年,他带着团队把几十个与干细胞有关的基因一股脑儿导入小鼠的皮肤细胞,尝试让它们「重启」。

出人意料的是,有些细胞真的开始「逆转」,逐渐表现出胚胎干细胞的特征。

经过不断筛选,他们最终锁定了 OCT4、SOX2、KLF4、MYC 四个关键因子。

只要把这四个基因一起导入成体细胞,就能把它们「重编程」诱导多能干细胞(iPSCs)

这个发现震惊了全世界,也彻底颠覆了「细胞命运不可逆」的传统观点。

正是因为这一里程碑式的突破,山中伸弥和 John Gurdon 在 2012 年获得了诺贝尔生理学或医学奖。

Gurdon 早在 1962 年通过一项经典实验,发现已分化的特定成熟细胞要想变回「从前」,是可逆的。

OpenAI 最新成就

OpenAI 的体外实验结果显示,这些经重新设计的蛋白质所诱导的干细胞重编程标记物表达量,比野生型对照组高出 50 余倍

同时,它们还表现出更强的 DNA 损伤修复能力,这意味着与基线相比,其细胞年轻化潜力更高。

OpenAI 表示,2025 年初他们就取得了这项发现。

后续通过在多种捐赠者来源、多种细胞类型和多种递送方法中的重复实验验证了其可靠性,最终确认所衍生的 iPSC 细胞系具备完全的多能性和基因组稳定性。

下面这三张图展示的是,OpenAI 设计的蛋白质能更高效地诱导干细胞重编程:

初始状态的人类成纤维细胞(第 1 天)

使用标准的山中因子(SOX2, KLF4, OCT4, MYC)重编程 10 天后,细胞形态散乱

使用 RetroSOX 与 RetroKLF 变体(结合 OCT4, MYC)重编程 10 天后,出现了大量具有紧凑、圆形形态的集落,这是细胞迈向 iPSC 状态的典型特征

一款专为蛋白质工程打造的 GPT

OpenAI 是如何实现「逆转细胞」的?

为验证 AI 加速生命科学研究的设想,他们设计并训练了一款定制模型 ——GPT-4b micro

首先,从一个 GPT-4o 的缩减版进行初始化,以充分利用 GPT 系列模型已有的知识储备,随后在一个特殊的数据集上对其进行深度训练。

该数据集主要由蛋白质序列构成,并辅以生物学文本和 Token 化的三维结构数据 —— 这些元素是多数蛋白质语言模型所忽略的。

研究团队对大部分数据进行了丰富,为其添加了额外的上下文信息,包括蛋白质的文本描述、共进化同源序列以及已知的相互作用蛋白质组。

有了这些上下文,GPT-4b micro 便能根据提示词生成具有特定属性的序列。

由于大部分数据不包含结构信息,该模型能够同等出色地处理包含内在无序区域的蛋白质与结构稳定的蛋白质。

这对于山中因子这类靶点尤为关键,因为它们的活性并非依赖于形成单一稳定结构,而是通过与多种结合伴侣发生大量瞬时相互作用来实现的。

KLF4 的 3D 结构可视化

SOX2 的 3D 结构可视化

需要注意的是,这两种蛋白质的大部分区域是非结构化的,拥有可与其他蛋白质结合的柔性臂。

通过在富含进化与功能背景信息的蛋白质数据上训练,研究团队训练样本的有效上下文长度远超独立的蛋白质序列。

OpenAI 发现,在推理时,模型能够处理长达 64,000 个 Token 的提示词,同时在可控性和输出质量上仍有持续提升。

尽管这一上下文长度在文本大语言模型中已属常见,但在蛋白质序列模型领域尚属首次。

在开发过程中,观察到了类似语言模型的 scaling laws—— 在更大数据集上训练的更大模型,在困惑度(perplexity)和下游蛋白质基准测试上均表现出可预测的性能提升。

这使得研究团队能够在训练最终的 GPT-4b micro 模型前,先进行小规模的快速迭代。

然而,蛋白质 AI 模型的硅基评估(in silico evals)价值通常有限,因为这些指标的提升能否转化为真实世界的实用价值尚不明确。

为了证明该模型确实能加速疗法开发,研究团队与 Retro 的科学家们通力合作,由他们使用此模型重新设计了与其细胞重编程研究项目相关的关键蛋白质。

AI 辅助重构 SOX2 与 KLF4

提升干细胞重编程效率

山中因子 ——OCT4、SOX2、KLF4 和 MYC(简称 OSKM)—— 是当今再生生物学领域最重要的蛋白质之一。

然而,这项技术有着一个关键瓶颈 —— 效率低下。

在治疗过程中,通常只有不到 0.1% 的细胞能成功转化,且整个过程耗时三周以上。

对于来自年长或患病捐赠者的细胞,这一转化效率还会进一步降低。

但问题是,想要直接优化蛋白质序列,几乎是不可能的。

SOX2 和 KLF4 分别包含 317 和 513 个氨基酸,其可能变体的数量高达 10^1000 的量级

传统的「定向进化」(directed-evolution)筛选方法,一次只能改变少数几个氨基酸残基,所能探索的设计空间可谓沧海一粟。

一项顶尖的学术研究测试了数千个 SOX2 突变体,仅发现少数几个三突变体能带来有限的效率提升。

另一项长达 15 年的嵌合 SOX 蛋白研究,最终得到的变体也仅与天然 SOX 蛋白有五个氨基酸的差异。

在这次的实验中,Retro 的团队利用人类成纤维细胞(来自皮肤和结缔组织)搭建了一个湿实验室筛选平台。

首先,他们使用标准的 OSKM 因子组合以及初步筛选中手动设计的 SOX2 变体,对平台进行了验证。

随后,他们让 GPT-4b micro 设计一组多样的「RetroSOX」序列。

筛选结果显示,模型给出的建议中超过 30% 的序列,在表达关键多能性标记物方面的表现优于野生型 SOX2,尽管它们与野生型的平均差异超过 100 个氨基酸。

作为对比,传统筛选的阳性率通常低于 10%。

下图显示,在初步筛选(Pilot)、RetroSOX 筛选和 RetroKLF 筛选中,表达早期多能性标记物 SSEA4(左柱)和晚期标记物 TRA-1-60(右柱)的细胞百分比。

可以看到,与效率极低(<0.1%)的常规方法相比,RetroKLF 显著提升了两种标记物的表达水平。

工程化变体在多能性标记物表达上的提升

团队的下一个目标,是重新设计山中因子中分子量最大的 KLF4。

尽管已知 KLF4 可被其他 KLF 家族的因子替代,但并不能提升重编程的效率。

此前,一项通过专家指导进行单氨基酸替换来改良 KLF4 的尝试,在测试了 19 个变体后仅获得一个有效结果。

与 RetroSOX 的策略类似,研究团队提示模型生成了一组增强型的 RetroKLF 变体。

最终,14 个由模型生成的变体性能超越了 RetroSOX 筛选中效果最好的组合方案,阳性率接近 50%。

下面两张图展示的是,AI 设计方法的阳性率和序列编辑深度。

可以看到,将顶尖的 RetroSOX 和 RetroKLF 变体组合使用,带来了最大的性能提升。

筛选阳性率,即性能超越基线的蛋白质候选者比例(左)与人类野生型蛋白质相比,序列被改变的百分比(右)

在三次独立的实验中,成纤维细胞的早期(SSEA-4)和晚期(TRA-1-60, NANOG)标记物水平均出现急剧上升,且晚期标记物的出现时间比使用野生型 OSKM 组合方案提前了数天。

在第 10 天,使用不同 RetroSOX 和 RetroKLF 变体组合(RK1-RK4)的细胞,其晚期标记物 TRA-1-60(左)和 NANOG(右)的表达水平远高于使用标准 OSKM(检测不到)的对照组

此外,研究团队在第 10 天通过碱性磷酸酶(AP)染色对 RetroSOX 和 RetroKLF 变体进行了验证。

结果显示,形成的细胞集落不仅表达晚期多能性标记物,还表现出强大的 AP 活性,这是细胞具备多能性的有力标志。

AP 染色确认了重编程的成功:紫色的集落表示干细胞重编程成功,集落颜色越深、数量越多,表明效率越高

为了进一步确认重编程效率的提升并探索其临床应用潜力,研究团队测试了一种新的递送方式(使用 mRNA 替代病毒载体)和另一种细胞类型 —— 源自三位中年(50 岁以上)捐赠者的人类间充质基质细胞(MSCs)。

仅 7 天内,便有超过 30% 的细胞开始表达关键的多能性标记物(SSEA4 和 TRA-1-60)。

到第 12 天,已出现大量形态与典型 iPSC 相似的集落。这些细胞中超过 85% 激活了包括 OCT4、NANOG、SOX2 和 TRA-1-60 在内的关键干细胞标记物的内源性表达。

接着,研究团队验证了这些由 RetroFactor 衍生的 iPSC 能够成功分化为全部三个主要胚层(内胚层、外胚层和中胚层)。

此外,研究团队将多个单克隆 iPSC 细胞系传代培养,证实了其具有健康的核型和适用于细胞疗法的基因组稳定性。

这些结果全面超越了由合同研究组织(CRO)使用标准因子生成的常规 iPSC 细胞系的基准数据,进一步证明了研究团队工程化变体的稳健性,也为其在不同递送方式和细胞类型中的应用提供了有力证据。

下面三张图中所有的结果共同证实了,研究团队已成功获得健康、且完全重编程的干细胞,从而也全面验证了重编程干细胞的健康与功能。

细胞集落呈现出干细胞特有的圆形、紧密堆积形态

TRA-1-60 干细胞标记物(绿色荧光)呈阳性

细胞核型正常,染色体结构完整

综上所述,高阳性率、深度的序列编辑、标记物的提前出现以及 AP 阳性集落的形成,这些早期证据共同表明,AI 指导的蛋白质设计能够极大地推动干细胞重编程研究的进程。

重构变体增强 DNA 损伤修复能力

接下来,OpenAI 进一步探究了这些重构变体的细胞年轻化潜力,并重点考察了它们恢复衰老细胞年轻特征的能力。

现有的研究表明,山中因子可以在不完全逆转细胞身份的前提下,清除小鼠细胞中与 DNA 损伤相关的衰老标记。

那么,与标准的 OSKM 相比,OpenAI 制作的变体是否能表现出更强的年轻化能力呢?

下图所展示的,便是经阿霉素诱导产生 DNA 损伤后,细胞内损伤标记物 γ-H2AX 的强度(越低越好)。

可以看到,与阴性对照组(GFP)和阳性对照组(OSKM)相比,使用 Retro 变体(RS4, RS5)处理的细胞,γ-H2AX 信号有显著的降低。

也就是说,在遭受同等遗传毒性挑战后,RetroSOX / KLF 组合方案比原始的山中因子能更有效地减少 DNA 损伤。

工程化变体展现出了更强的 DNA 损伤修复能力,为提升细胞年轻化技术和开发未来疗法开辟了一条充满希望的道路

对此,OpenAI 的研究合作负责人 Boris Power 总结道:

当研究人员将深刻的领域洞见与研究团队的语言模型工具相结合时,那些曾经需要耗费数年才能解决的问题,如今可能在几天之内就迎来转机。

总的来说,这次的成功,不仅仅是 AI 创造了几种更高效的蛋白质,更是向研究团队展示了一种利用 AI 深度理解复杂科学问题并提出创新解决方案的全新科研范式。

从寻找抗衰老疗法,到设计新药、解决粮食危机,当人类的智慧与 AI 的超凡算力相结合,研究团队解决科学难题的速度,将发生革命性的改变。

一个由 AI 加速的科研新纪元,正向研究团队走来。

参考资料:

  • https://openai.com/index/accelerating-life-sciences-research-with-retro-biosciences/

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

来源于:https://www.ithome.com/0/877/561.htm    如有侵权请联系我们