
当 AlphaGo 还在实验室蛰伏时,这位 95 后已经预见了强化学习的革命性潜力——Pokee AI 的创始人兼 CEO 朱哲清用十年时间完成了一场 AI 技术的“三级跳”。
从美国杜克大学和斯坦福大学的理论探索到 Meta 的工业实践,他作为高级研究经理主导开发的 Pearl 框架和许多强化学习模型产品不仅为 Meta 创造了数亿美元的商用应用价值,更让他坚定了基于强化学习技术的创业方向。
Pokee.ai 是致力于改变企业工作流的一站式通用 agent 平台,它“用自然语言一句话就能让 AI 帮你把活干完”——从社媒生成发布管理、做 Google Slides、在 Overleaf 上面写论文、生成音视频,到发邮件、调 API、管项目,这些仅需要几分钟的时间。
图丨朱哲清(来源:朱哲清)
最近,DeepTech 与朱哲清聊了聊他的学术洞见与创业思考,希望通过这次交流,更加了解强化学习如何从实验室走向产业应用,以及 AI 智能体未来的发展方向。
从理论到实践的强化学习进化之路
2014 年,朱哲清开启了杜克大学计算机科学专业的本科学习生涯,师从罗纳德·帕尔(Ronald Parr)教授。彼时,谷歌 DeepMind 团队的 AlphaGo 和 MuZero 尚未问世,大多数研究者对强化学习仍保持观望态度。
而朱哲清已敏锐洞察到强化学习与传统监督学习的本质差异:基于静态数据集训练的传统模型受限于既有数据分布,仅能在已知数据点间进行插值推理;而强化学习作为智能体与环境动态交互的产物,其数据分布由策略决策与环境反馈共同塑造,具备在新情境中主动预测行为结果的独特能力。
这种特性与人类认知学习模式高度契合——正如人类无需海量样本即可实现举一反三(例如从加法自然推导出减法运算),强化学习也因此被誉为“人类学习的第一性原理”。
2017 至 2018 年间,强化学习迎来了爆发式发展。他以“最高荣誉毕业生奖”毕业后来到斯坦福大学,并在本杰明·范·罗伊(Benjamin Van Roy)教授指导下获得强化学习博士学位。
语言模型技术的快速发展,也为强化学习创造了前所未有的训练环境:在语言任务中,每个生成的 token 都可视作从数万种可能动作中的一次选择,且完全规避了传统强化学习中“仿真到现实”的转换难题。更重要的是,语言模型强大的泛化能力极大拓展了强化学习的优化边界。
实践表明,仅需设计合适的奖励函数并结合预训练语言模型,就能构建出接近人类水平的代码生成模型,整个过程完全无需人工标注数据。这一突破性进展标志着强化学习正式进入了“自主进化”的新时代,为后续 AI 系统的自我迭代能力奠定了理论基础。
Pearl:首个生产级全栈强化学习框架
在 Meta 七年的实践更让他坚信这一方向的可行性:广告推荐系统和广告预算控制项目中,朱哲清曾以少量数据甚至纯离线数据实现用户体验的显著提升;在短视频系统中,他带领团队证明强化学习探索算法可以大幅度提升内容冷启动能力;在社交网络推荐系统中,他和团队利用强化学习多步推荐算法显著提升用户保留率和参与度。
作为 Meta 强化学习落地的重要架构,朱哲清作为通讯作者带领团队在机器学习顶刊Journal of Machine Learning ResearchJMLR)发表了题为《Pearl:生产级强化学习智能体》(Pearl: A Production-Ready Reinforcement Learning Agent)的论文 [1]。
图丨相关论文(来源:JMLR)
与传统算法库聚焦于训练速度和规模扩展不同,他们创新性地提出了首个生产级全栈式强化学习框架 Pearl。该框架通过模块化架构设计,赋予用户自由组合功能的能力,这极大提升了强化学习解决方案的灵活性和效率。它能一站式解决智能探索、安全保障、动态动作空间、线上学习、线下学习和环境部分可观测性等工业化应用中的核心挑战。
朱哲清对 DeepTech 解释说道:“Pearl 的突破性在于将安全约束、探索策略等多个模块无缝集成到统一 agent 架构中。用户可以通过声明式配置灵活定义探索方式、安全阈值和环境交互机制,甚至支持运行时动态替换奖励函数和经验回放策略。这种模块化的算法组合能力在现有工具库中独树一帜。”
图丨Pearl 的界面(来源:JMLR)
另一项创新之处在于,Pearl 实现了 agent 与运行环境的完全解耦。传统强化学习模型通常与训练环境深度耦合,导致部署时需要复杂的适配工作。而 Pearl 通过标准化 API 接口与容器化封装,使训练后的 agent 无缝部署到生产环境,显著降低了从实验环境到生产系统的迁移成本。
“这种架构优势使得同一套代码能够无缝支持在线学习、离线学习和探索任务,仅需调整少量参数即可实现模式切换,显著提升了工程效率。”朱哲清说。
表丨Pearl 与热门开源强化工具库的功能特性对比(来源:JMLR)
从技术体系来看,Pearl 的创新价值体现在三个方面:首先,提供了全面的算法支持矩阵;其次,构建了从理论到生产的端到端部署管道;最重要的是,填补了强化学习在模块化架构设计方面的长期空白。
需要了解的是,当前市场上的大多数模型虽然在离线训练或在线学习基准测试中表现良好,但在实际生产部署时往往面临显著的性能衰减。以新用户推荐场景为例,传统推荐系统在冷启动等关键场景中往往效果欠佳,需要更智能的探索机制。然而,现实业务场景对探索机制提出了更高要求。
以新用户偏好挖掘为例,系统需要通过主动探索来快速消除信息不确定性,这既需要复杂的多臂老虎机(Multi-Armed Bandit)策略,又涉及深度强化学习与神经网络的协同优化。Pearl 的探索算法模块、线下学习以及动态动作空间的模块的集成,搭建了智能探索系统以大幅提升新内容和用户的交互概率。
(来源:JMLR)
不容忽视的是,这类算法在部署时面临双重挑战:探索行为导致的短期指标波动,以及现有框架对实时交互支持不足。即便是 Pearl 这样的先进框架,在随机采样等基础操作上仍需进一步完善。
针对这些工业化挑战,朱哲清带领团队在 Meta 内部构建了完整的支撑体系:从 Pearl 和生产环境的深度结合,到算法的优化,以及针对性的 A/B 测试设计,以完成整个生产环境的闭环。这套体系不仅验证了算法设计的可行性,更将实验室原型到亿级用户产品的转化周期显著缩短。
图丨朱哲清与杨立昆(Yann LeCun)(右)(来源:朱哲清)
多元价值验证与应用拓展
Pearl 的价值在生产方向、工业应用,以及市场接受程度方面都得到了充分验证。据朱哲清透露,Meta 内部已将 Pearl 应用于广告竞价、推荐系统等场景。据了解,目前 Pearl 的 GitHub star 已接近 2.9K,可支持竞价策略、推荐系统和探索策略的端到端训练与部署 [2-4]。
据估算,相关应用累计创造了数亿美元的商业价值。不同任务类型间仅需参数化调整配置文件即可切换,这种低代码适配性在 Meta 的大规模生产环境中得到了验证。
在后续研究方向上,近期在预印本网站arXiv上线的论文《基于强化学习的 Facebook 广告文案生成优化》(Improving Generative Ad Text on Facebook using Reinforcement Learning)[5],是朱哲清在 Meta 工作期间的“收官之作”。基于 Llama 2 模型和强化学习微调的广告重写项目,则显著提高了广告点击率,平均广告商的广告点击率上升了 6.7%。这些优化已被集成到 Facebook Ads Manager 的自动化广告文案系统中。
图丨相关论文(来源:arXiv)
该研究的核心创新在于突破了以单一人类反馈作为强化学习模型奖励机制的限制,用强泛化性的群体预测模型作为奖励机制,减轻了强化学习模型针对人类反馈优化(RLHF,Reinforcement Learning from Human Feedback)时出现的奖励模型(Reward Model)低泛化性问题。
研究团队提出了一个颠覆性的技术范式:在广告效果优化领域,应采用基于目标受众群体的预期点击率(CTR,click-through rates)预测作为核心优化目标,而非基于标注数据的奖励模型。这源于对数字营销本质的深刻理解——广告效果本质上取决于其与特定用户群体的匹配程度,而非单一的人为标注数据。
(来源:arXiv)
为实现这一目标,研究团队设计了一套完整的解决方案:首先构建高精度的 CTR 预测模型,准确评估广告内容在目标用户群体中的预期表现;随后将该预测模型作为奖励信号,通过强化学习框架微调语言模型,实现广告文案的自动优化与重写。这种方法在保持目标用户画像不变的前提下,通过算法迭代显著提升了广告内容的吸引力和转化效果。
图丨贡献概述(来源:arXiv)
研究团队将该 CTR 预测模型突破了传统人工评审模型的局限:传统方法依赖少量专家(通常仅 1-2 个评审员)的主观判断,泛化能力严重受限;而该模型通过海量用户真实交互数据(数万级样本)驱动,构建了客观、可量化的内容评估体系。这种数据驱动的建模方法不仅大幅提升了预测准确性,更重要的是为语言模型的优化提供了稳定可靠的信号来源。
正是这种数据驱动的建模方式,能够充分发挥语言模型的潜力,通过算法自动优化广告文案,最终实现广告效果的大幅提升。这一创新不仅验证了强化学习在广告优化中的应用价值,也为后续 AI 生成内容的商业化应用提供了重要参考。
希望将强化学习智能体工具空间的优化做得更好
基于多年的强化学习积累,朱哲清敏锐地捕捉到在 AI Agent 时代将工具本身作为动作空间的创新机遇,这一洞见直接催生了 Pokee AI 的创立。2024 年 10 月,这家专注于企业级智能体解决方案的初创公司在美国硅谷成立,截至目前 Point72 Ventures 已牵头完成一轮 1200 万美元的种子轮融资,并与 Google 建立了战略合作关系。
不久前上线公开测试版的 Pokee.ai 表现出卓越的工程实现能力:30% 的日留存率验证了产品的高粘性;在不到一周内便帮助用户处理了 5000 多个工作流和 5 万余项任务,且任务成功率高达 90%。
Pokee 的技术优势体现在多个维度:在工具扩展性方面,系统支持 6000 多个工具的精准调用,准确率达 97%,是目前市面上工具调用模型生态中最高的模型;在生态集成层面,平台实现了上千个互联网和 AI 原生工具的深度对接。
据介绍,该公司当前的研发重点聚焦于新型规划模型的开发,有望在部署效率等方面实现突破性进展。“虽然现阶段我们尚未开展大规模市场推广,但持续的产品迭代未来有望带来更显著的用户增长。”朱哲清透露。
谈及强化学习与 AI 智能体的未来发展,朱哲清认为,将聚焦于推理扩展、多模态能力提升和生态系统优化三个核心方向。
首要突破点是推理扩展。当前通用智能体在处理复杂任务时,仍需攻克数据抓取、图表绘制、用户反馈交互等数十个细分难题,这些都依赖强化学习的反事实推理能力的提升,而非简单堆叠深度学习模型或增强生成功能。在复杂 Agent 任务上,人类标注数据将越来越难以获取,模型自学习能力将变得无比重要。
多模态能力的提升同样关键。现有系统的视觉理解和生成缺陷导致其无法完美完成“图文转换”等跨模态任务,特别是在图中和视频中稳定添加文字这类任务。实现文本、图像、视频等模态的统一表征与联合推理,是突破复杂工作流自动化障碍的重要能力之一。
生态系统的优化则涉及工具调用效率与智能体协作机制。尽管 MCP(Multi-Agent Communication Protocol)等协议为多智能体交互提供了可能,但不容忽视的是,当前存在的稳定性低下、工程效率低、token 消耗大等问题亟待解决。
“实现动作集成的无缝化将是行业共同目标。我希望未来与团队可以将强化学习智能体工具空间的优化做得更好。”朱哲清说。
参考资料:
1.https://www.jmlr.org/papers/volume25/24-0196/24-0196.pdf
2.https://arxiv.org/abs/2310.09426
3.https://arxiv.org/abs/2305.13747
4.https://arxiv.org/abs/2412.04484
5.https://arxiv.org/abs/2507.21983
6.https://www.zheqingbillzhu.com/
运营/排版:何晨龙