论文阅读:ZymCTRL: a conditional language model for the controllable generation of artificial enzymes
1、研究背景
- 研究问题:这篇文章旨在解决如何设计具有特定功能的人工酶的问题。酶因其复杂的活性位点能够加速化学转化而具有吸引力,且作为可生物降解的纳米材料,具有作为可持续大规模工业催化剂的巨大潜力。
- 研究难点:尽管在酶设计领域取得了显著进展,但现有酶的催化速率通常低于其自然对应物,且设计过程中对序列特征的精确控制非常困难。
- 相关工作:近年来,人工智能在蛋白质研究领域的应用取得了显著进展,特别是在结构预测和蛋白质设计方面。Transformer架构在自然语言处理领域的成功应用也启发了其在蛋白质设计中的应用。
2、研究方法
这篇论文提出了ZymCTRL,一种条件语言模型,用于根据用户提示生成特定类别的酶。具体来说,
- 数据集准备:使用BRENDA数据库,该数据库包含3700万条酶序列,并根据其酶类别(EC)进行分类。为了确保模型的泛化能力,去除了具有多个标签的序列,最终得到3600万条序列。
- 模型训练:ZymCTRL采用Transformer架构的解码器模块进行训练,目标是生成酶序列。模型通过最小化负对数似然损失来学习EC控制标签与后续氨基酸之间的关系。公式如下:
- 条件生成:在生成过程中,用户可以指定一个目标催化反应作为模型生成的条件。模型根据预训练的EC类别生成新的酶序列。