← 返回内容列表

2,498个AI化学专家联合作战——Nature封面级框架MOSAIC如何让AI「学会」合成新分子

2,498个AI化学专家联合作战——Nature封面级框架MOSAIC如何让AI「学会」合成新分子

2026年Nature封面级成果MOSAIC:基于Llama-3.1-8B将化学反应空间用Voronoi聚类划分为2498个专家区域,实现71%合成成功率,发现全新反应方法学。

每年,全球化学家发表超过数十万种新化学反应。但对任何一个化学家来说,从这海量文献中快速找到适合自己目标分子的合成路线,几乎是不可能完成的任务。2026年1月发表在 Nature 上的 MOSAICMultiple Optimized Specialists for AI-assisted Chemical Prediction),正是为了解决这一困境而生。

2498个"化学专家"的集体决策

MOSAIC 的核心思路可以用一个词概括:分而治之。研究团队并未训练一个超级大模型去"记住"所有化学反应,而是基于 LLMLarge Language Model)架构 Llama-3.1-8B-Instruct,将化学反应空间用 Voronoi 聚类 划分为 2,498 个专精区域,每个区域训练一个"化学专家"。

当用户输入一个合成需求——例如"把化合物A转化为化合物B"——MOSAIC 自动将任务路由到最相关的专家群。这些专家各自给出预测方案,系统综合后输出一份带有置信度评分的可执行实验方案。置信度通过"距离指标"量化:距离小于50代表高置信度(结构高度相似),100-200为中等置信度(核心转化模式一致但底物差异较大),超过200则为低置信度但仍有参考价值。

71%成功率 + 发现全新反应方法学

论文报告的核心数据令人印象深刻:在涵盖制药、材料、农用化学品和化妆品四个领域的综合性实验中,MOSAIC 达到了 71% 的总体合成成功率,成功合成了超过 35 个全新化合物。更值得注意的是,MOSAIC 还发现了其训练数据中不存在的全新反应方法学——这意味着 AI 不仅是在"复述"已知知识,而是在真正"创造"新化学。

从专利到实验台:AI闭环验证

MOSAIC 的训练数据来自 Pistachio 数据库(2024Q1版本),数据源主要是专利文献。但论文的突破在于不仅止于"纸上预测"——所有方案都经过了实际实验室验证。这种"AI预测→实验验证→反馈迭代"的闭环,是 AI 辅助化学从理论研究走向工业化应用的关键一步。

意义:一种通用范式

MOSAIC 的方法论意义可能超越化学本身。正如论文作者所指出,这种"将庞大领域划分为可搜索专家区域"的策略,是一种可推广的通用AI辅助发现范式——适用于任何信息增长速度超过人类高效获取和应用速度的领域。代码已在 GitHub 开源(haoteli/MOSAIC),为后续研究提供了坚实基础。

2,498个AI化学专家联合作战——Nature封面级框架MOSAIC如何让AI「学会」合成新分子 | 必学必会