除了下围棋 AI还能预测"难缠"的蛋白质结构
在2020年各种重大科学新闻评选中,“人工智能预测蛋白质三维结构”是上榜率很高的一项内容。50年来,科学家们一直在努力解决生物学最大的挑战之一——预测一串氨基酸在变成工作蛋白质时折叠成的精确三维形状。2020年,他们通过一款人工智能程序,实现了这一目标。那么,这个工作的意义是什么?人工智能又是如何做到这一点的?

除了下围棋 AI还能预测"难缠"的蛋白质结构

来源:科技日报2021-01-07

在2020年各种重大科学新闻评选中,“人工智能预测蛋白质三维结构”是上榜率很高的一项内容。50年来,科学家们一直在努力解决生物学最大的挑战之一——预测一串氨基酸在变成工作蛋白质时折叠成的精确三维形状。2020年,他们通过一款人工智能程序,实现了这一目标。那么,这个工作的意义是什么?人工智能又是如何做到这一点的?

困扰科学家近50年的难题

我们的生命离不开蛋白质。蛋白质是一切生命活动的基础物质,它是运输氧气的载体,是帮助抵御病毒的抗体,也是消化食物的酶。蛋白质之所以能够承担多种多样的功能,很大程度上是因为它们具有丰富而复杂的空间结构。

可是,蛋白质如何折叠成这些独特的形状呢?这是生物学领域的一个重大挑战,已经困扰科学家们近50年时间。而就在最近,英国DeepMind公司研究人员创建的人工智能系统AlphaFold将蛋白质结构预测的准确度提高到了原子水平,可以说基本解决了这个“蛋白质折叠问题”。这比许多科学家的预期要早了几十年,显示出人工智能对解决重大科学问题的潜力。

蛋白质占据我们每个人体重的大约20%,是除水分(60%)以外第二多的物质种类,其它的脂质、碳水化合物、核酸以及各种无机物加起来,也仅仅占到20%。蛋白质在人体中含量如此之高并不奇怪,因为蛋白质是生命活动的主要承担者,没有蛋白质就没有生命。

人类的生命活动须臾都离不开蛋白质的参与。无论是身体收缩肌肉、眼睛感知光亮,还是消化系统将食物转化为能量,我们身体的每一项功能之所以能够正常运转,几乎都依赖于蛋白质。

目前地球上已知的蛋白质大约有两亿种,每一种蛋白质都有独特的空间结构。蛋白质在生物体中能够发挥多种多样的功能,很大程度上取决于它们的三维结构。

例如,我们免疫系统中的抗体蛋白是“Y”形的,并且会形成独特的钩状,这使得它们能够附着在病毒和细菌上,检测和标记致病微生物,将其彻底消灭。胶原蛋白的形状像拧起来的绳索,因而能够在软骨、韧带、骨骼和皮肤之间传递张力。还有在被称为“基因魔剪”的CRISPR-Cas9基因编辑技术中,Cas9蛋白质利用CRISPR基因序列作为向导,像剪刀一样灵巧地剪切和粘贴DNA片段。

然而,确定蛋白质的空间结构一直是生物学中的巨大挑战。1972年,也就是将近50年前,诺贝尔化学奖得主克里斯蒂安·安芬森就猜测,蛋白质的氨基酸序列应该可以完全决定其空间结构。可是要如何根据蛋白质的氨基酸序列来确定它的空间结构呢?这就是困扰科学家们近50年的“蛋白质折叠问题”。

蛋白质如何将自己折叠起来

蛋白质就像是一台精心组装的机器,它的零件是我们身体内的20种氨基酸。在基因编码合成氨基酸序列的过程中,一个个氨基酸分子遵照基因序列中蕴含的遗传信息指令,像珠子一样有序缀连起来,形成多肽链,构成蛋白质的一级结构。

然而,通常的机器只要按照设计图将零件组装起来就可以运转,而氨基酸分子连接成多肽链后,蛋白质分子的建造还没有结束,它还需要进一步折叠出空间结构才能发挥功能。可是基因序列只决定氨基酸序列的合成,并不包含更多信息指导它如何折叠成独特的三维结构。

事实上,氨基酸序列的折叠方式蕴含在自身之中,它们自己设计自己如何折叠。一级多肽链中的氨基酸分子像是懂得彼此沟通一样,它们有些相互排斥,有些彼此吸引,形成螺旋、折叠成褶皱,构成蛋白质的二级结构。接着,它还会进一步折叠成独特的空间结构,像一根毛线绕成线团那样,构成蛋白质的三级结构。

整个蛋白质折叠的过程看似随机,却又仿佛遵循着一张设计蓝图,一旦组成蛋白质的氨基酸序列确定下来,它的折叠方式也就完全确定了。这实际上很符合直觉,我们可以想象,如果同样的氨基酸序列可以折叠成不同结构的蛋白质,发挥不同的功能,我们的身体内部会陷入怎样的混乱状态。

自然界经过漫长的生命进化过程,蛋白质分子在眨眼之间就能够自发地完成整个折叠过程。但科学家们发现,如果想要通过计算氨基酸分子间的相互作用来预测它们如何折叠,那么要穷尽所有可能的蛋白质构型,需要的时间将比整个宇宙年龄还要长。

这个问题困扰了科学家们很长时间。但是在人工智能进入这个领域后,预测蛋白质折叠的准确性很快获得提升。

AI出手精确预测蛋白质结构

人工智能(AI)的一种实现手段是时下流行的机器学习。2016年打败人类围棋冠军的AlphaGo和此次预测蛋白质结构的AlphaFold,利用的都是机器学习算法。它的大致思路是,先将大量已有的数据——包括结果(比如围棋棋谱、猫狗图片等)输入计算机,然后计算机对这些数据进行分析,利用它惊人的计算能力从这些数据中寻找特征或规律。这样,对于以后输入的新数据,它就能作出“富有经验”的高明反应了。

更为先进的人工智能算法甚至允许只输入很少量的学习样本,就能掌握相关技能。比如AlphaGo的升级版本根本不需要输入棋谱,只要知道围棋的规则,就能根据算法对规则进行自我摸索和训练,通过自己跟自己对弈,最终获得超越人类顶级围棋高手的能力。

AlphaFold解决蛋白质折叠问题的过程与AlphaGo学习下围棋的过程类似,只不过输入的是大量蛋白质的序列和结构数据——这些数据来自实验室中实际测得的数据。Alpha-Fold从中找寻氨基酸分子之间的相互作用、蛋白质片段之间的演化关系,从而获得了预测蛋白质结构的强大能力。最终,只要知道蛋白质的氨基酸序列,就能迅速而准确地预测出它的结构,相当于通过精妙的算法,将蛋白质的一级结构和三级结构准确地联系了起来。

在2018年的蛋白质结构预测竞赛中,AlphaFold在所有参赛团队中排名第一,准确地从43种蛋白质中预测出了24种蛋白质的结构,取得了前所未有的进步。

到了2020年,AlphaFold的升级版本从生物学、物理学和机器学习领域的最新进展中汲取灵感,升级算法,再次以压倒性的优异成绩夺冠。这一次,AlphaFold预测的多种蛋白质结构与实验结果仅仅存在原子尺度的细微差异,达到了与传统的试验方法相媲美的程度,可以说AlphaFold基本解决了蛋白质折叠问题。

AI会让生物学家失业吗

AlphaFold取得里程碑性质的进展,让人类有望在诸多领域得到来自AI的切实助力。例如在医药领域,阿尔茨海默症、帕金森综合征、亨廷顿综合征等神经系统病变都与蛋白质的错误折叠有关,这直接导致蛋白质结构和功能出现异常。而AI的介入将让人类更有效地了解这些错误折叠背后的机理,从而提出更加有效的治疗方案。又如新冠病毒,大约由30种蛋白质组成,在2020年蛋白质结构预测竞赛中,AlphaFold精确预测了其中一种蛋白质(ORF8)的结构。

工业领域同样会受到这一成就的积极影响。以酶化工为例,多种蛋白酶已经作为反应催化剂获得了广泛应用。其中很多种都是人类近年才发现的新型蛋白质,它们个个身怀绝技,有些能够分解原油、有些能够降解塑料。对于这些蛋白质的结构和催化机理,我们目前都只有非常初步的认识,AI无疑将大大加速相关研究的进展。

有趣的是,在听闻AlphaFold解决了蛋白质折叠问题的消息后,很多人调侃说,结构生物学家以后要失业了。不过事实上,AlphaFold只是为结构生物学家们提供了获得蛋白质结构的一种手段,正如传统的核磁共振、X射线衍射和冷冻电镜方法一样。这些特定结构在生命体中如何发挥功能,才是更需要结构生物学家们回答的问题。

如著名结构生物学家颜宁所言,结构只是用来做出生物学发现的手段。比如弄清楚剪切体这个庞然大物的结构之后,由此揭示出“几百个蛋白质如众星捧月般簇拥着RNA,一剪子一钩针地剪接DNA序列中的内含子和外显子”,这个过程才是真正的神奇。

除了预测蛋白质结构,Alpha-Fold也将促进蛋白质设计的发展。在未来,AI或许可以帮助人类根据自身独特需要,创造出自然界中原本不存在的蛋白质。届时,必将是生命科学的一次飞跃。

无障碍
首页 | 新闻 原创 视听 | 问政 评论 专题 | 区县 娱乐 财经 | 旅游 政法 直播 | 文艺 教育 生活 应急 | 房产 健康 汽车 | 取证 鸣家 会客厅 | 万花瞳 百姓故事 公益 | 信用
  • 站内
站内
分享
新浪微博
腾讯微博
微信
QQ空间
QQ好友

除了下围棋 AI还能预测"难缠"的蛋白质结构

2021-01-07 05:25:00 来源: 0 条评论

在2020年各种重大科学新闻评选中,“人工智能预测蛋白质三维结构”是上榜率很高的一项内容。50年来,科学家们一直在努力解决生物学最大的挑战之一——预测一串氨基酸在变成工作蛋白质时折叠成的精确三维形状。2020年,他们通过一款人工智能程序,实现了这一目标。那么,这个工作的意义是什么?人工智能又是如何做到这一点的?

困扰科学家近50年的难题

我们的生命离不开蛋白质。蛋白质是一切生命活动的基础物质,它是运输氧气的载体,是帮助抵御病毒的抗体,也是消化食物的酶。蛋白质之所以能够承担多种多样的功能,很大程度上是因为它们具有丰富而复杂的空间结构。

可是,蛋白质如何折叠成这些独特的形状呢?这是生物学领域的一个重大挑战,已经困扰科学家们近50年时间。而就在最近,英国DeepMind公司研究人员创建的人工智能系统AlphaFold将蛋白质结构预测的准确度提高到了原子水平,可以说基本解决了这个“蛋白质折叠问题”。这比许多科学家的预期要早了几十年,显示出人工智能对解决重大科学问题的潜力。

蛋白质占据我们每个人体重的大约20%,是除水分(60%)以外第二多的物质种类,其它的脂质、碳水化合物、核酸以及各种无机物加起来,也仅仅占到20%。蛋白质在人体中含量如此之高并不奇怪,因为蛋白质是生命活动的主要承担者,没有蛋白质就没有生命。

人类的生命活动须臾都离不开蛋白质的参与。无论是身体收缩肌肉、眼睛感知光亮,还是消化系统将食物转化为能量,我们身体的每一项功能之所以能够正常运转,几乎都依赖于蛋白质。

目前地球上已知的蛋白质大约有两亿种,每一种蛋白质都有独特的空间结构。蛋白质在生物体中能够发挥多种多样的功能,很大程度上取决于它们的三维结构。

例如,我们免疫系统中的抗体蛋白是“Y”形的,并且会形成独特的钩状,这使得它们能够附着在病毒和细菌上,检测和标记致病微生物,将其彻底消灭。胶原蛋白的形状像拧起来的绳索,因而能够在软骨、韧带、骨骼和皮肤之间传递张力。还有在被称为“基因魔剪”的CRISPR-Cas9基因编辑技术中,Cas9蛋白质利用CRISPR基因序列作为向导,像剪刀一样灵巧地剪切和粘贴DNA片段。

然而,确定蛋白质的空间结构一直是生物学中的巨大挑战。1972年,也就是将近50年前,诺贝尔化学奖得主克里斯蒂安·安芬森就猜测,蛋白质的氨基酸序列应该可以完全决定其空间结构。可是要如何根据蛋白质的氨基酸序列来确定它的空间结构呢?这就是困扰科学家们近50年的“蛋白质折叠问题”。

蛋白质如何将自己折叠起来

蛋白质就像是一台精心组装的机器,它的零件是我们身体内的20种氨基酸。在基因编码合成氨基酸序列的过程中,一个个氨基酸分子遵照基因序列中蕴含的遗传信息指令,像珠子一样有序缀连起来,形成多肽链,构成蛋白质的一级结构。

然而,通常的机器只要按照设计图将零件组装起来就可以运转,而氨基酸分子连接成多肽链后,蛋白质分子的建造还没有结束,它还需要进一步折叠出空间结构才能发挥功能。可是基因序列只决定氨基酸序列的合成,并不包含更多信息指导它如何折叠成独特的三维结构。

事实上,氨基酸序列的折叠方式蕴含在自身之中,它们自己设计自己如何折叠。一级多肽链中的氨基酸分子像是懂得彼此沟通一样,它们有些相互排斥,有些彼此吸引,形成螺旋、折叠成褶皱,构成蛋白质的二级结构。接着,它还会进一步折叠成独特的空间结构,像一根毛线绕成线团那样,构成蛋白质的三级结构。

整个蛋白质折叠的过程看似随机,却又仿佛遵循着一张设计蓝图,一旦组成蛋白质的氨基酸序列确定下来,它的折叠方式也就完全确定了。这实际上很符合直觉,我们可以想象,如果同样的氨基酸序列可以折叠成不同结构的蛋白质,发挥不同的功能,我们的身体内部会陷入怎样的混乱状态。

自然界经过漫长的生命进化过程,蛋白质分子在眨眼之间就能够自发地完成整个折叠过程。但科学家们发现,如果想要通过计算氨基酸分子间的相互作用来预测它们如何折叠,那么要穷尽所有可能的蛋白质构型,需要的时间将比整个宇宙年龄还要长。

这个问题困扰了科学家们很长时间。但是在人工智能进入这个领域后,预测蛋白质折叠的准确性很快获得提升。

AI出手精确预测蛋白质结构

人工智能(AI)的一种实现手段是时下流行的机器学习。2016年打败人类围棋冠军的AlphaGo和此次预测蛋白质结构的AlphaFold,利用的都是机器学习算法。它的大致思路是,先将大量已有的数据——包括结果(比如围棋棋谱、猫狗图片等)输入计算机,然后计算机对这些数据进行分析,利用它惊人的计算能力从这些数据中寻找特征或规律。这样,对于以后输入的新数据,它就能作出“富有经验”的高明反应了。

更为先进的人工智能算法甚至允许只输入很少量的学习样本,就能掌握相关技能。比如AlphaGo的升级版本根本不需要输入棋谱,只要知道围棋的规则,就能根据算法对规则进行自我摸索和训练,通过自己跟自己对弈,最终获得超越人类顶级围棋高手的能力。

AlphaFold解决蛋白质折叠问题的过程与AlphaGo学习下围棋的过程类似,只不过输入的是大量蛋白质的序列和结构数据——这些数据来自实验室中实际测得的数据。Alpha-Fold从中找寻氨基酸分子之间的相互作用、蛋白质片段之间的演化关系,从而获得了预测蛋白质结构的强大能力。最终,只要知道蛋白质的氨基酸序列,就能迅速而准确地预测出它的结构,相当于通过精妙的算法,将蛋白质的一级结构和三级结构准确地联系了起来。

在2018年的蛋白质结构预测竞赛中,AlphaFold在所有参赛团队中排名第一,准确地从43种蛋白质中预测出了24种蛋白质的结构,取得了前所未有的进步。

到了2020年,AlphaFold的升级版本从生物学、物理学和机器学习领域的最新进展中汲取灵感,升级算法,再次以压倒性的优异成绩夺冠。这一次,AlphaFold预测的多种蛋白质结构与实验结果仅仅存在原子尺度的细微差异,达到了与传统的试验方法相媲美的程度,可以说AlphaFold基本解决了蛋白质折叠问题。

AI会让生物学家失业吗

AlphaFold取得里程碑性质的进展,让人类有望在诸多领域得到来自AI的切实助力。例如在医药领域,阿尔茨海默症、帕金森综合征、亨廷顿综合征等神经系统病变都与蛋白质的错误折叠有关,这直接导致蛋白质结构和功能出现异常。而AI的介入将让人类更有效地了解这些错误折叠背后的机理,从而提出更加有效的治疗方案。又如新冠病毒,大约由30种蛋白质组成,在2020年蛋白质结构预测竞赛中,AlphaFold精确预测了其中一种蛋白质(ORF8)的结构。

工业领域同样会受到这一成就的积极影响。以酶化工为例,多种蛋白酶已经作为反应催化剂获得了广泛应用。其中很多种都是人类近年才发现的新型蛋白质,它们个个身怀绝技,有些能够分解原油、有些能够降解塑料。对于这些蛋白质的结构和催化机理,我们目前都只有非常初步的认识,AI无疑将大大加速相关研究的进展。

有趣的是,在听闻AlphaFold解决了蛋白质折叠问题的消息后,很多人调侃说,结构生物学家以后要失业了。不过事实上,AlphaFold只是为结构生物学家们提供了获得蛋白质结构的一种手段,正如传统的核磁共振、X射线衍射和冷冻电镜方法一样。这些特定结构在生命体中如何发挥功能,才是更需要结构生物学家们回答的问题。

如著名结构生物学家颜宁所言,结构只是用来做出生物学发现的手段。比如弄清楚剪切体这个庞然大物的结构之后,由此揭示出“几百个蛋白质如众星捧月般簇拥着RNA,一剪子一钩针地剪接DNA序列中的内含子和外显子”,这个过程才是真正的神奇。

除了预测蛋白质结构,Alpha-Fold也将促进蛋白质设计的发展。在未来,AI或许可以帮助人类根据自身独特需要,创造出自然界中原本不存在的蛋白质。届时,必将是生命科学的一次飞跃。

亲爱的用户,“重庆”客户端现已正式改版升级为“新重庆”客户端。为不影响后续使用,请扫描上方二维码,及时下载新版本。更优质的内容,更便捷的体验,我们在“新重庆”等你!
看天下
[责任编辑: 余浩 ]
发言请遵守新闻跟帖服务协议
精彩视频
版权声明:
联系方式:重庆华龙网集团股份有限公司 咨询电话:60367951
①重庆日报报业集团授权华龙网,在互联网上使用、发布、交流集团14报1刊的新闻信息。未经本网授权,不得转载、摘编或利用其它方式使用重庆日报报业集团任何作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:华龙网”或“来源:华龙网-重庆XX”。违反上述声明者,本网将追究其相关法律责任。
② 凡本网注明“来源:华龙网”的作品,系由本网自行采编,版权属华龙网。未经本网授权,不得转载、摘编或利用其它方式使用。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:华龙网”。违反上述声明者,本网将追究其相关法律责任。
③ 华龙网及其客户端标明非华龙网的确定来源或未标注华龙网LOGO、名称、水印的文字、图片、音频、视频等稿件均为非原创作品。如转载涉及版权等问题,请及时与华龙网联系,联系邮箱:cqnewszbs@163.com。
附:重庆日报报业集团14报1刊:重庆日报 重庆晚报 重庆晨报 重庆商报 时代信报 新女报 健康人报 重庆法制报 三峡都市报 巴渝都市报 武陵都市报 渝州服务导报 人居周报 都市热报 今日重庆
关闭