机器学习指导催化剂设计,提高反应的产率

准确识别催化活性的描述符对深入理解催化作用,以及为催化剂筛选奠定基础至关重要。然而,常用方法的可预测性和准确性低。

近日,美国纽约州立大学石溪分校(SUNY SB)和布鲁克海文国家实验室(BNL)的化学家开发了一种新的机器学习 (ML) 框架,该框架可以锁定多步化学转化的哪些步骤应该进行调整以提高生产率。该方法可以帮助指导催化剂的设计。

该研究以「ENHANCED DESCRIPTOR IDENTIFICATION AND MECHANISM UNDERSTANDING FOR CATALYTIC ACTIVITY USING A DATA-DRIVEN FRAMEWORK: REVEALING THE IMPORTANCE OF INTERACTIONS BETWEEN ELEMENTARY STEPS」为题,发表在《CATALYSIS SCIENCE & TECHNOLOGY》上。

该论文第一作者 WENJIE LIAO 说:「我们的目标是确定反应网络中的哪个基本步骤或哪个步骤子集控制催化活性。」

以铜基催化剂上的 CO 加氢制甲醇为例,该反应由七个相当简单的基本步骤(基元反应)组成。该团队开发了使用铜基催化剂分析 CO 转化为甲醇的方法。

领导这项工作的化学家 PING LIU 说:「我们使用这个反应作为我们的 ML 框架方法的一个例子,但是你可以将任何反应放入这个框架中。」

将多步化学反应想象成具有不同高度的山丘的过山车。每个山丘的高度代表从一个步骤到下一个步骤所需的能量。为了加快整体反应,催化剂必须针对影响最大的一个或多个步骤。

传统上,寻求改善这种反应的科学家会计算每次改变一个活化障碍可能会如何影响整体生产率。这种类型的分析可以确定哪个步骤是「限速」的,哪些步骤决定了反应的选择性――也就是说,反应物是生成期望的产物,还是通过其他途径生成不想要的副产物。

但是,据 LIU 说,「这些估计结果非常粗略,对于一些催化剂组有很多错误。这对催化剂设计和筛选非常不利,而这正是我们正在努力做的事情。」

「现在,我们不是一次解决一个障碍,而是同时解决所有障碍。我们使用机器学习来解释该数据集。该方法提供了更可靠的结果,包括反应中的各个步骤如何协同工作。」 LIAO 说。

在这里,研究人员开发了一种替代方法,该方法遵循完善的从数据中提取知识的框架,以提高描述符识别的准确性和效率。还采用了常用的「速率控制程度」(DRC) 分析方法进行比较。这种新方法利用了全局敏感性分析中的代理模型和机器学习(ML),与正交多项式函数等传统代理模型相比,ML 可以访问一系列灵活的非参数回归模型,提供有效的数据驱动函数逼近。

结果表明,新方方法比现有的基于尺度关系和导数的方法要准确得多,能够大大提高描述符识别和速率预测的准确性。更重要的是,它还可以通过评估代理模型进行动力学分析计算成本的增加可以忽略不计,因此可以提取更好的机制理解和最终设计指南。

科学家们首先构建了一个数据集来训练他们的机器学习模型。该数据集是基于 DFT 计算的活化能,通过反应的七个步骤,将原子的一种排列方式转变为另一种排列方式。然后,科学家们进行了基于计算机的模拟,以探索如果他们同时改变所有七个激活障碍会发生什么――一些上升,一些下降,一些单独,一些成对。

「我们包含的数据范围是基于对这些反应和催化系统的以往经验,在有趣的变化范围内,这可能会给你带来更好的性能。」LIU 说。

通过模拟 28 个「描述符」的变化――包括七个步骤的活化能,以及一次改变两个步骤的成对步骤――该团队生成了一个包含 500 个数据点的综合数据集。该数据集预测了所有这些单独的调整和成对的调整将如何影响甲醇生产。然后,该模型根据 28 个描述符在推动甲醇产量方面的重要性对它们进行评分。

「我们的模型从数据中 [学习],并确定了它预测将对生产产生最大影响的六个关键描述符。」LIAO 说。

在确定了重要的描述符之后,科学家们只使用这六个「活跃」描述符重新训练了 ML 模型。这种改进的 ML 模型能够完全基于这六个参数的 DFT 计算来预测催化活性。

图示:KMC-在训练集、测试集和金属-CU(111)(M = AU, CU, PT, PD, NI)上模拟甲醇转换频率(TOF)和改进 ML 模型预测的值。

虽然描述符的数量从 28 个大幅减少到 6 个,但在训练集和测试集中,RMSE 测量的模型精度甚至比初步模型略有提高,表明删除的描述符大多是非信息性的。

「你不必计算整个 28 个描述符,现在你可以只计算 6 个描述符,得到你感兴趣的甲醇转化率。」LIU 说。

为了确认所选描述符的有效性,从重新训练的模型中一次删除一个。结果表明,每个有效描述符的删除导致测试集中的预测准确度大幅下降。有趣的是,去除归一化二阶描述符后的准确度损失甚至大于去除一阶描述符,这表明包含所有六个描述符是必要的,并且归一化二阶描述符对于实现高可预测性比一阶描述符更重要。

图示:删除指示的描述符后,由测试集中的 RMSE 测量的精度损失。

该团队表示,他们还可以使用该模型来筛选催化剂。如果他们可以设计一种催化剂来提高六个活性描述符的值,那么该模型可以预测最大的甲醇生产率。

当研究小组将模型的预测与催化剂的实验性能以及各种金属与铜的合金的性能进行比较时,预测与实验结果相符。将 ML 方法与以前用于预测合金性能的方法进行比较表明,ML 方法要优越得多。

这些数据还揭示了许多关于能垒变化如何影响反应机制的细节。特别有趣和重要的是,反应的不同步骤如何协同工作。例如,数据表明,在某些情况下,仅在限速步骤中降低能垒本身并不能提高甲醇产量。但是,调整反应网络中更早一步的能垒,同时将限速步骤的活化能保持在理想范围内,会增加甲醇产量。

「我们的方法为我们提供了详细的信息,我们可能可以用来设计一种催化剂,很好地协调这两个步骤之间的相互作用。」LIU 说。

但 LIU 对将这种数据驱动的 ML 框架应用于更复杂的反应的潜力感到最兴奋。

LIU 说:「我们使用甲醇反应来演示我们的方法。但它生成数据库的方式,以及我们训练 ML 模型的方式,以及我们如何根据每个描述符函数的作用来确定其重要性的整体权重的方式,这很容易应用于其他反应中。」

「SCIENCEAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。

欢迎关注标星,并点击右下角点赞和在看。