2,498个AI化学专家联合作战——Nature封面级框架MOSAIC如何让AI「学会」合成新分子

2026年Nature封面级成果MOSAIC：基于Llama-3.1-8B将化学反应空间用Voronoi聚类划分为2498个专家区域，实现71%合成成功率，发现全新反应方法学。

每年，全球化学家发表超过数十万种新化学反应。但对任何一个化学家来说，从这海量文献中快速找到适合自己目标分子的合成路线，几乎是不可能完成的任务。2026年1月发表在 Nature 上的 MOSAIC（Multiple Optimized Specialists for AI-assisted Chemical Prediction），正是为了解决这一困境而生。

2498个"化学专家"的集体决策

MOSAIC 的核心思路可以用一个词概括：分而治之。研究团队并未训练一个超级大模型去"记住"所有化学反应，而是基于 LLM（Large Language Model）架构 Llama-3.1-8B-Instruct，将化学反应空间用 Voronoi 聚类划分为 2,498 个专精区域，每个区域训练一个"化学专家"。

当用户输入一个合成需求——例如"把化合物A转化为化合物B"——MOSAIC 自动将任务路由到最相关的专家群。这些专家各自给出预测方案，系统综合后输出一份带有置信度评分的可执行实验方案。置信度通过"距离指标"量化：距离小于50代表高置信度（结构高度相似），100-200为中等置信度（核心转化模式一致但底物差异较大），超过200则为低置信度但仍有参考价值。

71%成功率 + 发现全新反应方法学

论文报告的核心数据令人印象深刻：在涵盖制药、材料、农用化学品和化妆品四个领域的综合性实验中，MOSAIC 达到了 71% 的总体合成成功率，成功合成了超过 35 个全新化合物。更值得注意的是，MOSAIC 还发现了其训练数据中不存在的全新反应方法学——这意味着 AI 不仅是在"复述"已知知识，而是在真正"创造"新化学。

从专利到实验台：AI闭环验证

MOSAIC 的训练数据来自 Pistachio 数据库（2024Q1版本），数据源主要是专利文献。但论文的突破在于不仅止于"纸上预测"——所有方案都经过了实际实验室验证。这种"AI预测→实验验证→反馈迭代"的闭环，是 AI 辅助化学从理论研究走向工业化应用的关键一步。

意义：一种通用范式

MOSAIC 的方法论意义可能超越化学本身。正如论文作者所指出，这种"将庞大领域划分为可搜索专家区域"的策略，是一种可推广的通用AI辅助发现范式——适用于任何信息增长速度超过人类高效获取和应用速度的领域。代码已在 GitHub 开源（haoteli/MOSAIC），为后续研究提供了坚实基础。