蛋白质结构和功能的形成,很大程度上取决于侧链原子间的相互作用,因此,精准的蛋白质侧链预测(PSCP)是解决蛋白质结构预测和蛋白质设计难题的关键一环。但此前蛋白质结构预测大多聚焦于主链结构,侧链结构预测是一个未被完全解决的难题。
近日,分子之心许锦波团队推出一种新的PSCP深度架构AttnPacker,在速度、内存效率和整体精度方面取得大幅提升,是目前已知的最优侧链结构预测算法,也是全球首创的可同时进行侧链预测和蛋白质序列设计的AI算法。相关论文发表在世界著名的学术刊物 《美国科学院院刊》(PNAS)上。
蛋白质侧链预测:被忽略的破冰之刃
蛋白质由数个氨基酸折叠而成,其结构分为主链和侧链。侧链的差异性对蛋白质的结构与功能有巨大影响,尤其是生物活性。基于对侧链结构的清晰认知,科学家们能够更精准地测定蛋白质三维结构,解析蛋白质-蛋白质之间的相互作用,并进行理性蛋白设计。应用到药物设计领域,科学家们便能更快、更准确地找到适合药物与受体的结合点位,甚至根据需要优化或设计结合点位;在酶优化领域,科学家们可以通过对蛋白质序列的优化改造,让多个侧链参与催化反应,实现更高效、特异性更高的催化效果。
随着2016年许锦波教授提出第一个AI蛋白质折叠算法,以及Deepmind 开发AlphaFold在其基础上发扬光大,大多数蛋白质主链的三维结构已经可以被预测得很好,但蛋白质侧链结构预测未被完全突破。无论是AlphaFold2等热门蛋白质结构预测算法,还是DLPacker、RosettaPacker等专注侧链结构预测的算法,准确度或速度都不尽如人意,这也在一定程度上限制了蛋白质设计技术的发展。
传统方法,如RosettaPacker,主要使用能量优化方法,先对侧链原子的分布进行分组,再针对某个特定氨基酸来搜索侧链的分组,寻找能量最小的组合。这些方法主要区别于研究者对旋转异构体文库、能量函数和能量最小化程序的选择,准确性受限于对搜索启发式方法和离散抽样程序的使用。业界也有基于深度学习的侧链预测方法,如DLPacker,它将PSCP表述为图像到图像的转换问题,并采用了U-net模型结构。但预测精度和速度依然不够理想。
侧链结构预测与设计的局限成为制约蛋白质设计技术在创新药研发、合成生物学等领域广泛应用的因素之一。
许锦波教授从2003年开始研究蛋白质侧链结构预测问题,是该领域研究时间最长的科学家之一。他早期使用图论算法来缩短时间、提升精度,曾开发出第一个不需要完全暴力运算的侧链结构预测算法,相关论文被国际计算分子生物学顶会RECOMB收录,并在美国计算机协会(ACM)官方刊物《Journal of the ACM》发表。“这20年中,我们持续探索更精准、更快速预测蛋白质侧链结构的方法。2016年,深度学习为蛋白质三维结构预测带来突破后,我们开始尝试用深度学习方法预测侧链结构,”许锦波表示,希望AttnPacker等能够进一步推进解决产业应用中的蛋白质优化、设计需求。
AttnPacker:快速、精准解决蛋白质的预测、优化和设计难题
AttnPacker是一种端到端的预测蛋白质侧链坐标的深度学习方法。它联合模拟了侧链相互作用,直接预测的侧链结构在物理上更可行,具有更少的原子碰撞和更理想的键长和角度。
具体而言,AttnPacker引入了一种利用PSCP的几何和关系方面的深度图转换器架构。受AlphaFold2启发,分子之心提出了位置感知三角形更新,以使用基于图形的框架来计算三角形注意力和乘法更新,从而优化成对特征。通过这种方法,AttnPacker的内存显著减少并拥有更高容量的模型。此外,分子之心探索了几种SE(3) 等变注意力机制,并提出了一种用于从3D点学习的等变变换器架构。
图注:AttnPacker运行流程
在预测效果上,AttnPacker对天然和非天然主链结构都显示出准确性和效率上的改进。同时保证了物理上的真实性,与理想键长和角度的偏差可以忽略不计,且实现了空间位阻最小。
分子之心在CASP13和 CASP14天然和非天然蛋白质主链数据集上对AttnPacker与目前最先进的方法——SCWRL4、FASPR、RosettaPacker和DLPacker进行对比测试。结果显示,AttnPacker在CASP13和CASP14天然主链上显著优于传统蛋白质侧链预测方法,平均重建RMSD比每个测试集上的次优方法低18%以上。AttnPacker还超越了深度学习方法DLPacker,平均RMSD降低了11%以上,同时也显著提高了侧链二面角精度。除了准确性,AttnPacker产生的原子碰撞明显少于其他方法。
图注:给出天然主链结构时,各算法在CASP13和CASP14目标蛋白上的侧链结构预测结果。星号表示平均冲突值低于天然结构。
在CASP13和CASP14非天然主链上,AttnPacker也明显优于其他方法,原子碰撞也明显少于其他方法。
图注:给出非天然主链结构时,各算法在CASP13和CASP14目标蛋白上的侧链结构预测结果。星号表示平均冲突值低于相应天然结构。
由于创新性地摈弃了离散的旋转异构体库以及计算上昂贵的构象搜索和采样步骤,直接结合主链3D几何结构来并行计算所有侧链坐标。AttnPacker与基于深度学习的方法DLPacker、基于物理的方法RosettaPacker相比,计算效率显著提高,减少了100倍以上的推理时间。
Method |
AttnPacker |
DLPack |
RosPack |
FASPR |
SCWRL4 |
Rel. Time |
1.0 |
124.4 |
151.7 |
0.5 |
14.7 |
图注:不同PSCP方法的时间比较。重建所有83个CASP13目标蛋白的侧链原子的相对时间。
AttnPacker在蛋白质设计上的表现同样优秀。分子之心训练了一个AttnPacker变体用以协同设计,该变体可实现媲美当下最先进的方法的天然序列恢复率,同时还可生产高度精确的组装。Rosetta模拟验证显示,AttnPacker设计的结构通常会产生更低的Rosetta能量。
图注:用ESMFold scTM和plDDT指标对比天然蛋白质序列和AttnPacker 生成的序列,以评估AttnPacker的生成质量,结果表现出强相关性。
除了效果和效率惊人之外,AttnPaker还有一个非常实用的价值——它非常易用。AttnPaker只需要一个蛋白质的结构文件即可运行。相比之下,OPUS-Rota4(28)需要来自DLPacker的原子环境的体素表示、来自trRosetta100的逻辑、二级结构和来自OPUS-CM输出的约束文件。另外,由于AttnPacker直接预测侧链坐标,输出是完全可微分的,这有利于下游预测任务,例如细化或蛋白质-蛋白质相互作用。“预测效果好、效率高、易用,这些优势有利于对于AttnPacker在研究和工业领域的广泛使用。”许锦波教授表示。
目前,AttnPacker的预训练模型、源代码和推理脚本都已在Github上开源(https://github.com/MattMcPartlon/AttnPacker)。(来源:36氪)
(免责声明:本文为本网站出于传播商业信息之目的进行转载发布,不代表本网站的观点及立场。本文所涉文、图、音视频等资料之一切权利和法律责任归材料提供方所有和承担。本网站对此资讯文字、图片等所有信息的真实性不作任何保证或承诺,亦不构成任何购买、投资等建议,据此操作者风险自担。)