预计阅读时间：1分钟42秒

计算化学并不是分子机器学习的全部

主张在分子机器学习中优先使用高质量的实验数据而非计算化学数据

计算化学并不是分子机器学习的全部

主张在分子机器学习中优先使用高质量的实验数据而非计算化学数据

化学是机器学习正在积极变革的领域之一。比如，在合成规划、反应产率预测以及各种生物特性预测等方面，机器学习都发挥了重要作用。可以预见，未来这一领域将会带来更为显著的进步，进而彻底改变医疗、农业、能源等多个行业。

然而，该领域面临的一个重大挑战是可用数据量非常少。举例来说，当处理纯化学问题时，比如产率预测，涉及到的化合物数量只有数千，生物催化中的酶/底物对也仅有几万个，而药物研发中大规模生化分析可能涉及数百万个分子。相比其他机器学习领域的进展，例如GPT-3训练中使用的3000亿个数据点，化学领域的数据量相距甚远。显然，想要在化学领域取得真正的进展，必须收集大量数据。

那么，人们如何应对这一问题呢？与其从头开始重新开发化学合成的自动化实验平台（为什么自动化实验室化学是错误的值得单独撰写一篇文章），我们选择了一种更直接的方式：利用现有的计算能力进行量子化学计算，试图获取可靠的真实数据。这类研究扩展得如此广泛，以至于每一篇提出新图神经网络（GNN）变体的论文都会用这些计算数据来验证其结果。很多公司在这个领域启动研究时都会雇用计算化学家，比如Isomorphic Labs就曾招聘分子动力学专家。

然而，这种方法存在至少三个问题。

首先，当你建模一个系统时，不可避免地会引入一些基于你知识和信念的近似和偏差。在这方面，有些方法较好，有些则较差。以计算化学中的一个基本例子为例——计算反应能量分布。这个想法是将反应分解为多个步骤，然后分析每个步骤的能量和反应障碍（即，确定需要向系统输入多少能量才能进入另一种状态）。现在，你可以进行一些高通量计算来改变底物的结构，然后训练模型，进而优化某些反应特性。问题解决了，是时候利用这个方法进行配体设计，发现新催化剂，改善世界了吧？不幸的是，事情没有这么简单。

以我自己的研究为例，假设你试图模拟Sonogashira反应中的钯/NHC配合物。你按照教科书的步骤：氧化加成、迁移金属化、还原消除。但如果你的反应途径遇到了一种不寻常的还原消除类型呢？那么你的整个计算工作流程可能会被打乱，导致无法预料的障碍和结果。

在不同的情况下，人们可能会忽略或错误表示很多重要细节。溶剂是否准确建模？目标蛋白的结构是否精确？你是否充分探索了构象空间？现实中，这些问题的答案大多是否定的。

其次，计算方法的速度和精度存在权衡。当你的计算需要几天时间才能完成，而实验只需要几小时，你认为哪个更有价值？虽然计算提供了更多的信息，但这些信息是否真的对你的特定应用有意义？

第三，你将注意力从真正重要的事情上移开了。在药物发现、毒理学和生物催化领域，最大的挑战是“活性悬崖”——结构相似的分子在性质上存在显著差异。理想情况下，我们希望开发出一套能够很好处理这些问题的方法。那么，QM9数据集是否适合用于这一点？答案是否定的。是否存在可以用于解决这一问题的计算数据？也许吧。你可以提到分子对接或分子动力学来预测目标配体的相互作用，但基于前面提到的原因，它们的精度和实际用途仍然存在很大疑问。

总的来说，我们的关注点应从计算方法转向在化学机器学习领域中，如何收集更多高质量的实验数据（从实验角度来说，想想Tim Cernak在默克公司取得的进展）。

原文链接