AI逆合成分析——化学家的“时光机”如何用大语言模型逆向设计分子

合成一个复杂的有机分子就像在没有地图的情况下规划迷宫路线。本文深入介绍RetroReasoner如何将化学家的策略性思维植入大语言模型，通过显式断键推理和往返奖励机制，实现AI驱动的逆合成分析突破。

合成一个复杂的有机分子，就像在没有地图的情况下规划一条穿越迷宫的路线。化学家需要从目标分子出发，一步步倒推：这个分子的“上一步”是什么？哪些简单原料可以通过化学反应组合成它？这个过程在化学中被称为 retrosynthetic analysis，由诺贝尔奖得主 E.J. Corey 在 20 世纪 60 年代系统化提出。

传统的逆合成分析完全依赖化学家的经验。一个有经验的合成化学家需要经过数十年训练，才能在看到目标分子时“直觉地”判断出最佳断键位置和合成路线。但对于复杂的目标分子——比如抗癌药物紫杉醇（Taxol）——即使是最资深的化学家也可能需要数月才能规划出一条可行的合成路线。

AI 如何改变逆合成

近年来，AI 工具正在从根本上改变逆合成分析的方法。与传统的基于规则（rule-based）的专家系统不同，AI 驱动的逆合成预测能够自动从海量化学反应数据中学习化学知识，而无需人工编码每一条反应规则。

目前的 AI 逆合成方法主要分为两类：

基于模板的方法：从已知的化学反应数据库中提取反应模板（reaction template），然后用机器学习模型预测哪些模板适用于目标分子。这类方法的优点是可解释性强，但受限于模板库的覆盖范围。
无模板的方法：使用 sequence-to-sequence 模型将目标分子直接“翻译”为反应物。这类方法不依赖预定义的模板，但生成的结果可能违反基本化学规则。

RetroReasoner：会“推理”的逆合成大语言模型

2026 年 3 月，韩国研究团队在 arXiv 上发表了 RetroReasoner，这是一个将化学家的策略性思维方式内化到大语言模型中的逆合成推理系统。与以往直接生成反应物的方法不同，RetroReasoner 会显式地推理断键策略——它会先分析目标分子中哪些化学键应该被切断，然后再基于这些断键策略选择具体的反应物。

RetroReasoner 的训练分为两个阶段：

第一阶段——监督微调（SFT）：研究团队构建了 SyntheticRetro 数据集，其中包含结构化的断键理由（disconnection rationale）和对应的反应物预测对。模型通过模仿这些“解题思路”，学会了化学家的推理过程。

第二阶段——强化学习（RL）：这是 RetroReasoner 的精妙之处。它使用了一种“往返奖励”（round-trip reward）机制：将模型预测的反应物输入一个正向合成模型，检查是否能重新生成原始的目标分子。如果能成功“回到原点”，说明逆合成预测是合理的，模型获得正向奖励。这就像解完方程后代入验算。

多步合成规划：蒙特卡洛树搜索

真实的药物合成往往需要十几步甚至几十步反应。对于多步合成规划，RetroReasoner 被整合到一个并行化的 Monte Carlo Tree Search（MCTS）框架中。这个框架可以并行探索多条合成路径，在减少搜索时间的同时增加有效合成路线的数量和多样性。

实验结果表明，RetroReasoner 不仅优于之前的分子大语言模型基线，还超越了专门的逆合成专家模型——特别是在那些极具挑战性的反应实例上，它能生成更广泛、更多样化的可行反应物方案。

这为什么重要

逆合成分析是化学合成中最核心也最困难的环节之一。一个高效的 AI 逆合成系统意味着：

加速药物开发：新药分子从设计到合成的时间可以从数月缩短到数天。
降低合成成本：AI 可以发现人类化学家可能忽略的更短、更经济的合成路线。
可持续性：AI 可以优先选择使用更安全溶剂、更低能耗条件的“绿色”合成路线。
知识民主化：AI 工具让经验不足的化学家也能做出接近专家水平的合成决策。

正如 RetroReasoner 所示，未来的 AI 化学工具不会仅仅是“黑箱预测器”——它们将具备化学家式的推理能力，能够解释为什么选择某条路线，而不仅仅是给出一个结果。这是 AI 从“化学计算器”进化为“化学伙伴”的关键一步。