AI对于生物学,早就不只是AlphaFold了-全球今亮点

虎嗅网   2023-04-22 06:11:47

本文来自微信公众号:biokiwi (ID:biokiwi),作者:无奶树,题图来自:视觉中国

“21世纪是生命科学的世纪”,不知道曾经是谁提出了这个概念。


(资料图)

从这几年的势头看起来,21世纪,应该也是人工智能(AI)的世纪。前脚是2016年会下围棋的AlphaGO,后脚是2021年震惊结构生物学的AlphaFold2,再到如今可能影响数十亿人工作和生活的ChatGPT。

AI,已经开始创造各种新的历史了。

这几年最火的几个AI(左图为AlphaGO纪录片海报,右上图为AlphaFold预测完全部序列蛋白质结构的数据库,右下图是OpenAI官网对ChatGPT的介绍)

而这其中,对生命科学震撼最大的要属当然是前两年的AlphaFold2:超高准确度的蛋白质结构预测能力,几乎完全改写了结构生物学的研究方式,也让相关的生物学研究更加便利。

但是,你要是以为生命科学里的AI只有AlphaFold,那你就大错特错了。

从预测到创造,AI要颠覆蛋白质世界

不过要展开聊生命科学里的AI,蛋白质结构预测还是绕不过去的话题。

自从2021年DeepMind公司推出了AlphaFold2,和华盛顿大学开发出的RoseTTAFold这两项充满代表性的蛋白质预测工具之后,这个领域就变得一发不可收拾了。

首先是持续发力的AlphaFold2。

正式发布后只过了半年多,2022年7月,DeepMind公司的CEO,杰米斯·哈萨比斯(Demis Hassabis)就在新闻发布会宣布:我们已经掌握了“整个蛋白质世界”(The entire protein universe)——AlphaFold马不停蹄地运转,成功完成了现有蛋白质数据库中全部2.14亿种蛋白质的结构预测。

2.14亿种蛋白质中,有35%被评估为高度准确,虽然这个数字看起来不高,但是按照目前实验检测的水平,全部做完也就差不多这个水平——更何况,截至目前实验检测花了几十年也只测出了14万种。

这些蛋白质结构,也已经发布在AlphaFold和欧洲生物信息学研究所(EMBL-EBI)建立的数据库中,供科研工作者们使用(https://alphafold.ebi.ac.uk/,前文图)

但这也只是AI在蛋白质领域发力的开始。

我们知道,蛋白质是由DNA转录、翻译形成的,而DNA测序也远比蛋白质测序更加快速、价格更低。因此,DNA数据库的数据量远比蛋白质数据库多。这多出来的,很关键的一部分,叫做宏基因组(Metagenome)

在过去几年,科学家们从野外等特殊环境,比如土壤、海洋、肠道等等,直接通过测序得到了成千上万种未知且无法培养的微生物DNA信息,也就是所谓的宏基因组。

宏基因组产生的过程 | 图源:Wooley JC, 2010.

仅在DeepMind公司宣布完成了“整个蛋白质世界”三个月后,2022年10月,Meta公司(原名Facebook)就拓宽了这个“蛋白质世界”的边界(“dark matter” of the protein universe)——他们利用自己开发的大型语言模型算法ESMFold,预测了6.17亿种来自宏基因组信息的微生物蛋白质结构。

ESMFold算法的准确度虽然略逊于AlphaFold,但它的优势在于能以60倍于AlphaFold的速度去预测短序列蛋白质的结构,这就使得它在预测结构相对简单的微生物蛋白质上有了很大的优势。

6.17亿种蛋白质结构的全览 | 图源:ESM Metagenomic Atlas

这让人不禁好奇,差不多全预测完之后,AI下一步会在蛋白质结构上做些什么?没过几天,AI又开始颠覆生物学家的认知了——创造蛋白质。

这其实是一个和蛋白质结构预测刚好相反的问题:蛋白质结构预测是从序列到结构,而创造蛋白质是要求从我们希望得到的结构,反推出合适的蛋白质序列。过去这是个计算量巨大的工作,现在AI也能完成了。

四种目前常用的设计蛋白质策略 | 图片翻译自:Nature

相比于大批量预测蛋白质结构,创造蛋白质的目的就更加明确——我们希望能创造出自然界不存在,但是对人类非常有用的蛋白质。

实际上,目前大部分尝试设计都很精彩,但是实验验证阶段就不那么顺利了——AI设计出来的蛋白质结构,往往不能像预期的那样被正确表达、合成出来。

不过设计蛋白质的尝试还在不断进步和迭代,可能在不远的将来就能够出现在我们的日常生活里。例如最新的研究中,利用ProteinMPNN和RoseTTAFold方法设计出来的蛋白质,不仅在自然界完全不存在,并且大大提高了这些蛋白质结构的稳定性,预计在未来会被用作疾病治疗的抗原抗体,或者生物化学反应所需的生物酶。 

蛋白质设计的过程,通过不断改变序列让蛋白质结构趋于稳定(结构的稳定基于AlphaFold预测,越红代表越不稳定,越蓝代表越稳定) | 图源:Nature

AI会取代我们的大脑吗?

在生命科学研究中,还有一个难以攻克的问题:如何解读意识?我们的大脑有数十亿个神经元,它们组成的网络连接错综复杂,现有的神经科学研究虽然成果累累,但是仍然不知道人类是怎么思考的。

那,AI可以做到吗?也许马上就可以了。

功能核磁共振技术(fMRI)可以检测到当我们在做某件事情时大脑血流的变化,来寻找被激活的大脑区域,在过去十几年也被用于研究大脑各个脑区的具体功能。

这是fMRI的图像,通过和静息状态的对比,研究者可以找到被激活的脑区(红色标记)

随着AI的发展,研究者近几年开始了“逆向”推导:既然我们可以检测到大脑的激活状态,那么,是不是就可以通过激活状态,来反向推出人在想什么呢?比如,可以复原出人类看到的东西?

于是研究者首先给志愿者看了成千上万张不同的图片,并测量、记录他们脑区的激活状态,作为AI的训练集。之后再利用训练出来的模型,来检测AI推测人看到的、或者想象的图片的能力。

实验设计的流程,上图为利用大量图片构建训练集,构建深度神经网络模型;下图则是基于模型,解析大脑信号产生的意识图像 | 图源:Koide-Majima N, 2023.

结果其实不算特别理想。因为fMRI数据比较少,无法构建足够大的训练集,虽然AI能形成一定的轮廓,但是也仅限于给出大概的形状。

但是,如果给AI一点小小的文字提示辅助,它就能快速形成和真实图像高度相似的结果!

第一列是志愿者看到的图片,第二列(z)是单纯基于大脑活动检测AI生成的图片,第三列(c)是单纯基于文字信息AI做的图片,第四列则是基于二三列的信息共同生成的结果,已经依稀可以分辨出原来图片的样子 | 图源:Takagi Y, 2023.

第一行为真实照片,第二行则为AI基于大脑活动和文字提示形成的图像 | 图源:Takagi Y, 2023.

当然,这些研究的目的不是为了让AI理解人类,而是希望通过AI分析的过程,更好地理解大脑运作的方式——比如研究者们计划利用这套模型,在未来检测动物的大脑活动,来看看动物们眼中的世界会是什么样子的。

除此以外,研究者还尝试让志愿者想象一个画面,再让AI基于大脑活动来生成图像。虽然得到的图像更加抽象了,但是研究者认为这对于未来的心理学研究有很重要的意义。

三组图像基于想象的脑活动预测的结果,第一行为2019年的研究,第二行为2023年的研究,可以看到算法的提升 | 图源:Koide-Majima N, 2023.

AI早已深入生物医学的方方面面

当我们走向更广阔的生物医学领域,你会发现,AI早就是个“老玩家”了。

比如在基因组学研究中,虽然科学家已经产生了海量的数据,包括基因组、转录组、表观组等等,但这些分子层面的变化如何一步步影响到生物最终的表型?在过去,这个问题往往需要大量的实验验证。

而现如今,利用神经网络的方法,研究者们已经开始尝试基于DNA或RNA序列,预测其背后可能发生的各种各样复杂的调控过程,甚至到表型最终形成的状态。

基因调控是个复杂的问题,而研究者正在针对不同的调控过程利用AI进行预测,图中是转录因子调控基因表达的过程 | 图源:Novakovsky G, 2023.

另外,随着人口的高度聚集,传染病会以更高的频率爆发,就好像最近三年肆虐全球的新冠病毒。

研究者正在考虑将AI引入到传染病的监测过程当中——基于早期个别病例的检测和发病情况,就可以快速预测、探知传染病出现的可能性与位置,进而“扼杀”这些有害的细菌、病毒、真菌、寄生虫等传染病疫情暴发的苗头。

AI在未来的传染病检测中可能有着核心且重要的地位 | 图源:Agrebi S, 2020.

再者,近几十年生物学研究与数据呈现出指数型增长的状态——越来越多的生物学研究与知识不断产出,但是很多研究者却难以及时消化。而像ChatGPT这样的语言模型,就能有效地挖掘这些海量生物学研究结果,甚至可以基于现有的各种结果提炼出新的结论(这其实是很多荟萃分析正在做的事情)

事实上,以上提到的这些只不过是生物学研究中AI应用的冰山一角。

在《生命3.0》一书中,物理学家马克斯·泰格马克提出了一个很有意思的比喻:假设人类的各种能力分布在一副地形图里,“算术”、“死记硬背”的能力在洼地里,而“下棋”在山麓上,“科学”和“艺术”在山顶,而人工智能就好像不断漫上来的水面,会先把简单的能力填充,并一步步努力向上。

那么现在,人工智能的浪潮已经漫过山麓,正在冲击山顶了。

人类能力景观图 | 图源:《生命3.0》

正如我们文章里展示的各个例子,站在山顶之一的生命科学,其实正在不断被AI“挑战”着。但目前来看,AI对于生命科学更多的不是取代,而是互相配合。

比如在AI最热门的结构生物学领域,虽然AlphaFold和ESMFold已经预测完了世界上几乎全部已知的蛋白质结构,但是只有大约三分之一是高度准确的。而那些不准确的其实就是结构生物学家们正在努力攻克的难题。

利用低温冷冻电子显微镜和AlphaFold相互配合,预测出复杂的核孔蛋白结构 | 图源:Fontana P, 2022.

综合来看,至少在未来10~20年内,生命科学与AI更多的不是“挑战者”与“被挑战者”的关系,而是一种互相“合作”的配合关系——AI会是一项有效的工具,服务于科学研究与疾病治疗。

你说更远的未来?那可能是谁都不知道的世界了。

参考资料

Callaway E. 'The entire protein universe': AI predicts shape of nearly every known protein[J]. Nature, 2022, 608(7921): 15-16.

Lin Z, Akin H, Rao R, et al. Evolutionary-scale prediction of atomic-level protein structure with a language model[J]. Science, 2023, 379(6637): 1123-1130.

Callaway E. Scientists are using AI to dream up revolutionary new proteins[J]. Nature, 2022.

Ferruz N, Heinzinger M, Akdel M, et al. From sequence to function through structure: deep learning for protein design[J]. Computational and Structural Biotechnology Journal, 2022.

Wicky B I M, Milles L F, Courbet A, et al. Hallucinating symmetric protein assemblies[J]. Science, 2022, 378(6615): 56-61.

Wang J, Lisanza S, Juergens D, et al. Scaffolding protein functional sites using deep learning[J]. Science, 2022, 377(6604): 387-394.

Koide-Majima N, Nishimoto S, Majima K. Mental image reconstruction from human brain activity[J]. bioRxiv, 2023: 2023.01. 22.525062.

Takagi Y, Nishimoto S. High-resolution image reconstruction with latent diffusion models from human brain activity[J]. bioRxiv, 2022: 2022.11. 18.517004.

Novakovsky G, Dexter N, Libbrecht M W, et al. Obtaining genetics insights from deep learning via explainable artificial intelligence[J]. Nature Reviews Genetics, 2023, 24(2): 125-137.

Agrebi S, Larbi A. Use of artificial intelligence in infectious diseases[M]//Artificial intelligence in precision health. Academic Press, 2020: 415-438.

Fontana P, Dong Y, Pi X, et al. Structure of cytoplasmic ring of nuclear pore complex by integrative cryo-EM and AlphaFold[J]. Science, 2022, 376(6598): eabm9326.

本文来自微信公众号:biokiwi (ID:biokiwi),作者:无奶树