AlphaFold又更新迭代!第三代比之前厉害在哪里?
来源:科普中国
发布时间:2024-05-20
浏览次数:950

版权归原作者所有,如有侵权,请联系我们

导读:5月9日,AlphaFold 3重磅问世,准确性远超以往水平。在很多学者看来,这相当于给他们“戴上一副高清眼镜”,对生物分子系统结构进行更准确的预测。

此次发布的AlphaFold 3能预测蛋白质与其他蛋白质、核酸、小分子、离子、修饰蛋白质残基的复合物,以及抗体-抗原的相互作用,准确性显著超过当前的预测工具。

我们第一时间联系深圳湾实验室系统与物理生物学研究所副所长、资深研究员周耀旗老师,早在去年11月,周耀旗通过对Deepmind与Isomorphic Labs 共同发布了的新闻稿对新一代AlphaFold模型:

AlphaFold3进行评论,他指出“AlphaFold3改变了以前AlphaFold2只能用于蛋白质结构预测的局限性,而使它能够预测跟其它分子的复合物结构,包括小分子配体、多肽、多糖、蛋白质、核酸(DNA 和 RNA)以及含有翻译后修饰(PTM)的生物分子,可以说是包罗万象了。”可以说,提早就预判了AlphaFfold3的主要特点。

今天,周耀旗老师将为我们解答AlphaFold3究竟厉害在哪里?

叶水送 | 采访

周耀旗(深圳湾实验室)| 嘉宾

为什么蛋白质结构预测很重要?

问:为什么蛋白质结构预测很重要?

周耀旗:我们生命体系的存在和发展主要靠几类重要的生物大分子的协同相互作用。其中一条重要中心法则是包含遗传信息的DNA分子,通过RNA分子,翻译生成蛋白质分子。蛋白质分子是一个几乎全能的分子机器,有记录在案的就有一万多种功能,包括分子马达、结构支持、信号传递、运输、加速生命必需化学反应、以及抵抗病毒、细菌侵入的抗体等等。

从化学组成来讲,蛋白质是一个非常简单的线性高分子,由20个氨基酸排列组合而成,不同氨基酸排列就构成了不同功能的蛋白质。这跟我们的英语单词很相似,每个字是20个字母所组成,不同数量字母的组合,形成不同意义的单词。

跟英语单词不一样的地方是,蛋白质之所以能够具有各种各样的功能,是因为多数蛋白质能够自己折叠成一个稳定的、独特的三维结构来执行它的功能。譬如有的蛋白质在细胞膜内能够形成一个通道,控制某些分子在细胞内部的进进出出。因此知道蛋白质所形成的结构形状就可以知道蛋白质这个分子机器是干什么的,怎么工作的。知道蛋白质怎么工作非常重要,因为人类的大多数疾病是由于一个或者一些蛋白质出了问题,把这些出了问题的蛋白质关掉是治病的手段之一。因此,高精度的蛋白质结构是药物设计的一个重要组成部分。

长期以来,蛋白质所形成的结构主要靠非常昂贵的仪器,非常耗时耗人工的实验方法来解析,主要的仪器是核磁共振,X射线晶体衍射,冷冻电镜。60年来,也才解析了20万个蛋白质,是已知蛋白质数目的千分之一,所以全部用实验手段来解析所有的蛋白质结构,无论是金钱上还是时间上都是不现实的, 因此,计算生物学家一直在努力发展计算方法来预测蛋白质结构,促进我们对生命机制的理解和疾病的药物开发。

回顾AlphaFold发展历程

问:自2020年11月AlphaFold问世,现在已更新至第三代,每一次都令人惊艳,它是如何一步步发展过来的?每一代都有哪些特色?您能否简单回顾下

周耀旗:AlphaFold的第一次问世是2018年,它参加了每两年一度的第13届蛋白质结构双盲预测比赛,所谓双盲就是计算生物学家进行结构预测的时候,大家都不知道结构是长什么样的,因为测定这些结构的实验还没有公布。而在实验结构出来之后,评估预测结构的准确性的科学家也不知道是那个计算生物学家做的预测,可以避免主观的因素。

从1996年第二届比赛开始,到2016年的22年,进展非常慢,特别是对那些难度大,没有已知结构来作为模板的从头预测方法, 100分满分,预测结构的分数22年才从27分进展到32分左右,要想达到85分以上的实验精确度,估计还要200多年。

AlphaFold的2018年第一次问世把分数提到了>60及格以上,而2020年问世AlphaFold2一下子提到了85分,优秀。第一代的AlphaFold解的是一个1+2=3的问题,用神经网络来预测一维主链的二面角走向,以及二维的主链原子间的接触距离,然后把预测的一维角度概率和二维距离概率转化成蛋白质的能量函数,对该蛋白的3维结构进行能量最小化的优化。第二代的AlphaFold解的也是一个1+2=3的问题,不同的是它完全避开了能量函数,把整个体系搬到的神经网络里面,进行了所谓的端-到-端的训练和预测,通过蛋白质序列和结构的大数据,以及高达9千万参数的大模型,实现了蛋白质结构的高精度预测的飞跃。

AlphaFold 3有哪些优势和短板?

问:第三代和之前有何不同?有哪些新突破,还有何待发展之处?

周耀旗:刚刚问世的第三代AlphaFold跟以前的AlphaFold的最大不同是它不再局限于单个蛋白质结构的预测,而是努力成为一个通用模型,可以用于蛋白质与其他分子相互作用复合物结构的预测,包括蛋白质的修饰,DNA分子,RNA分子,以及各种各样的小分子。

除了应用能力的扩展,它在计算方法上也有创新。把第二代AlphaFold中的进化模块改成效率更高的成对模块,把第二代AlphaFold中的结构模块变成直接产生三维坐标的扩散模块,大幅度降低了计算的复杂度。

这个方法主要在蛋白质-小分子配体,蛋白质-蛋白质,抗体-抗原结构,蛋白质- RNA/DNA复合物结构上比当前最好方法前进了一大步,在蛋白质修饰后的结构预测实现了0到1的突破。但在RNA结构预测方面,还不如基于我们BRiQ能量函数的AIchemy-RNA2方法。此外,在蛋白质单体结构预测上也没有新的突破,还是严重依赖于同源序列的多少和质量。

人工智能在研究领域还有哪些应用?

问:AI for Science的概念这两年被反复提及,人工智能在研究领域(以生物医学为主)还有哪些应用?

周耀旗:除了刚刚所说的AlphaFold在分子结构预测这个的基础研究以及它对新药物开发设计这方面的应用之外,人工智能也将彻底改变了生物医学其他的方方面面。几个明显的例子是:

首先,医学影像分析:人工智能将用于分析医学影像,如X射线、MRI、CT扫描和组织病理学切片。

其次,个性化医学:人工智能算法分析病人数据,包括遗传信息、病史和生活方式因素,能够识别疾病风险因素、预测疾病进展,为病人制定个体化治疗方案,将改善治疗效果并减少不良反应。

还有,虚拟健康助手和聊天机器人:人工智能驱动的聊天机器人和虚拟健康助手为病人提供个性化的健康建议、症状评估、用药提醒和随时随地获取医疗信息。

此外,还有健康监测与可穿戴设备,电子健康记录的数据挖掘,医疗机器人和手术等等。这些只是人工智能如何改变生物医学领域的一些例子,不断进行的研究和创新将带来新的应用和进展,这仅仅是开始,未来将有全方位的颠覆性变化。

与ChatGPT、Sora有何异同点?

问:alphafold 3也用到生成式AI,和现在被热议的chatgpt、sora等,它们有什么异同点?

周耀旗:在alphafold 3和Sora一样,都是利用扩散模型架构来进行结构或者视频的生成。扩散模型架构从随机噪声开始,逐步对其进行细化以生成最终结果。 而语言模型ChatGPT基于 Transformer 架构,这是一种已经成为大型语言模型标准的深度学习架构。

本文为科普中国·星空计划扶持作品

团队/作者:深究科学

审核:陶宁 中国科学院生物物理研究所副研究员

叶盛 北京航天航空大学 研究员

出品:中国科协科普部

监制:中国科学技术出版社有限公司、北京中科星河文化传媒有限公司

欢迎扫码关注深i科普!

我们将定期推出

公益、免费、优惠的科普活动和科普好物!


听说,打赏我的人最后都找到了真爱。
做科普,我们是认真的!
扫描关注深i科普公众号
加入科普活动群
  • 参加最新科普活动
  • 认识科普小朋友
  • 成为科学小记者