DeepMind的AlphaFold工具已经确定了地球上几乎所有已知生物体中大约2亿种蛋白质的结构。 近年来人工智能与各种数字化工具,已逐步渗透到健康产业的方方面面,在多个领域展现了突破瓶颈和降本增效的巨大潜力。 当地时间7月28日,DeepMind公司与欧洲分子生物学实验室的欧洲生物信息学研究所(EMBLEBI)合作公布了生物学领域的一项重大飞跃。他们利用人工智能(AI)开发出了一款开放的、可像使用搜索引擎一样搜索蛋白质结构的数据库AlphaFoldDB数据库。AlphaFoldDB项目预测出超过100万个物种的2。14亿个蛋白质结构,几乎涵盖了地球上所有已知蛋白质。这一突破将加速新药开发,并为基础科学带来全新革命。 一年前,DeepMind公司宣布开源了AlphaFold2,当时,AlphaFold2被誉为蛋白质折叠结构预测这一生物学方面长达50年重要问题的当前最优解,它将准确性平均分提升到了92。4(百分制),误差不超过一个原子的大小。 DeepMind使用称为深度学习的人工智能技术开发了AlphaFold网络,希望借助AlphaFold的人工智能系统可以更加准确地预测蛋白质的形状。 一年前,DeepMind公司宣布推出了AlphaFold2,并将其免费开放给全世界。该数据库中最初包含了35万个结构预测,涵盖了人类、小鼠和其他19种其他广泛研究的生物体制造的几乎所有蛋白质。此后,该数据库中的可预测结构扩展到了100万个。 仅仅过去了一年,DeepMind就宣布AlphaFoldDB已从100万个结构扩展到超过2亿个结构,扩大超过200倍,这一进展将极大地提升人们对于生物学的理解。 AlphaFold能够预测出几乎所有已知蛋白质的结构(图片来源:DeepMind) 基本上你可以认为它涵盖了整个蛋白质领域,DeepMind首席执行官DemisHassabis在新闻发布会上说。我们正开启数字生物学新时代的大门。为什么了解和预测蛋白质折叠结构很重要? 我们的生命离不开蛋白质。蛋白质是一切生命活动的基础物质,它是运输氧气的载体,是帮助抵御病毒的抗体,也是消化食物的酶。蛋白质之所以能够承担多种多样的功能,很大程度上是因为它们具有丰富而复杂的空间结构。 蛋白质其实是一种复杂的生物机器。每一种蛋白质都有其独特的功能:有的负责在机体内运输代谢物质,比如血红蛋白;有的负责加速生物化学反应,比如淀粉酶;有的负责调节新陈代谢,比如胰岛素;有的则直接构成生物机体组织,比如胶原蛋白等。 虽然功能多种多样,但其实所有已知的蛋白质的结构都是由21种已知的氨基酸构成的。这些氨基酸当中也只包含碳、氢、氧、氮、硫和硒这六种元素。 但是,这些氨基酸在链条上的排列组合、链条的折叠方式,以及最终折叠的结构,决定了蛋白质的最终功能。而蛋白质的3D形状或结构决定了它在细胞中的功能。大多数药物都是使用结构信息设计的,准确的图谱通常是发现蛋白质如何工作的第一步。 因此,准确了解蛋白质的折叠结构对于生命科学、环境科学等人类目前面对的重要课题都十分关键。 伦敦大学学院的计算生物学家ChristineOrengo说:我们正在为释放这个巨大的宝库做准备,AlphaFold数据库能为我们预测所有数据真是太棒了。AlphaFold到底强在哪? 去年AlphaFold2的发布就在生命科学界引起了轰动,生物界一直充分利用该工具寻求生物技术上的突破。 AlphaFold网络可以对蛋白质的3D形状或结构进行高度准确的预测。那么AlphaFold出现之前,科学家们是如何预测蛋白质折叠结构的?在传统上,科学家会使用例如X射线晶体学和低温电子显微镜来解析蛋白质结构,但这种方法是非常耗时且昂贵的实验方法。 新发布的AlphaFold数据库中几乎所有已知的蛋白质都将助力新研究的开展。Orengo的团队已经使用AlphaFold数据库来识别新型蛋白质家族,他们现在将在更大范围内进行这项工作。 ChristineOrengo表示,她的实验室还将使用扩展的数据库来了解具有有用特性的蛋白质的进化,例如那些可能导致癌症的物质。在数据库中识别这些蛋白质的远亲可以查明它们特性的基础。 首尔国立大学的计算生物学家MartinSteinegger帮助开发了基于云的AlphaFold版本,他很高兴看到数据库的扩展。但他表示,研究人员可能仍需要自己运行网络。人们越来越多地使用AlphaFold来确定蛋白质如何相互作用,而这样的预测不在数据库中。通过对来自土壤、海水和其他宏基因组来源的遗传物质进行测序,也无法鉴定出微生物蛋白质。 Steinegger补充说扩展的AlphaFold数据库的一些复杂应用程序可能还依赖于下载其全部23TB的内容,这对许多团队来说是不可行的。基于云的存储也可能证明成本高昂。 Steinegger与人共同开发了一个名为FoldSeek的软件工具,它可以快速找到结构相似的蛋白质,并且应该能够大大压缩AlphaFold数据。 即使包含了所有已知的蛋白质,AlphaFold数据库也需要随着新生物的发现而更新。随着新的结构信息可用,AlphaFold的预测也将进行改进。AlphaFold的发布,力证了AI可以推动人类进步 AlphaFold的最新的更新意味着主流蛋白质数据库UniProt上的大多数页面上都带有蛋白质预测结构这个功能。研究者可以通过谷歌云公共数据集(GoogleCloudPublicDatasets)下载2亿多个结构,让世界各地的科学家更容易访问AlphaFold。 Scripps转化研究所创始人EricTopol表示:AlphaFold是生命科学领域独一无二且具有里程碑意义的重大突破,展示了AI的力量。过去确定蛋白质的3D结构需要数月或数年,现在只需几秒钟。AlphaFold让蛋白质3D结构能更快、更大规模地被发现,包括破解核孔复合体的结构。随着AlphaFold新版本的发布,里面预测的蛋白质结构几乎囊括了整个宇宙中所有的蛋白质结构,我们可以期待每天都有更多的生物谜团被解开。 自AlphaFold发布以来,已经产生了极其重大的影响。 DeepMind表示,AlphaFold的成功尤其值得,因为它是我们构建过的最复杂的AI系统,需要多项关键创新,也因为它对下游产生了十分有意义的影响。AlphaFold展示了人工智能可以精确预测蛋白质的形状,甚至精确到原子精度、精确到尺寸、精确到分钟,它不仅为一项长达50年的重大挑战提供了解决方案,还成为了我们对AI能力的预判提供了第一个重大证据:AI可以显著加快科学发现,进而推动人类进步。 迄今为止,来自190个国家地区的超过50万名研究人员访问了AlphaFoldDB,查看了超过200万个结构。一些免费提供的蛋白质结构也已被集成到了其他公共数据集中,例如Ensembl、UniProt和OpenTargets,被数百万用户访问。 参考链接: https:www。nature。comarticlesd41586022020832 https:www。yangtse。comzncontent1094405。html https:www。deepmind。comblogalphafoldrevealsthestructureoftheproteinuniverse