AI 与合成生物学「联姻」的五大挑战:技术、数据、算法、评估与社会学
在过去的二十年里,生物学发生了翻天覆地的变化,建立在生物系统上的工程成为了可能。赋予了我们细胞遗传密码(DNA)排序能力的基因组革命是这一巨大变化的主要推手。而基因组革命带来的最新发现之一,正是使用CRISPR在体内精确编辑DNA的能力。
遗传密码的高级表现,如蛋白质的合成,被称为「表型」(phenotype)。高通量表型数据与DNA的精确编辑结合到一起,将底层代码的变化与外部表型联系了起来。
图注:Wacomka
图注:本图体现了细胞遗传密码(DNA)的高层次表现
图注:生物学中经常使用的数据集/数据类型(本列表收录不全)
1合成生物学的潜力
合成生物学将对食品、能源、气候、医药和材料……以至于世界上每个领域都产生变革性的影响。
图注:合成生物学可能会影响世界上的每一个领域
合成生物学已经为世人带来了不用牺牲猪就能获得猪的胰岛素(在之前的基因工程阶段就能做到)、合成皮革、压根不是蜘蛛吐的蛛丝做的大衣、抗疟疾和抗癌药物、尝起来像肉的无肉汉堡、可再生生物燃料、没有啤酒花的啤酒花味啤酒,已灭绝了的花朵的香味,用于化妆品的人造胶原蛋白,消除携带登革热蚊子的基因。许多人认为这只是冰山一角,因为设计生物的能力带来了改造世界的无限可能性,而且在这一领域,公共和私人投资水平都在不断增长。
图注:学术(a)和商业(b)领域的显著增长为 AI 在合成生物领域的应用提供了丰富的信息、数据和环境资源。
此外,进入AI 第三次浪潮后,AI 专注于将环境融入模型,其影响合成生物学的潜力大大增加。
众所周知,生物体的基因型与其说是其表型的蓝图,不如说是一个复杂的、相互关联的、动态系统的初始条件。生物学家们花了几十年的时间来构建和管理一套大型包含调节、关联、变化速度和功能在内的属性,用来描述这个复杂的、动态的系统。其他资源如基因网络、已知功能关联、蛋白质与蛋白质的相互作用、蛋白质与代谢物的相互作用以及转录、翻译和交互的知识驱动的动态模型则为人工智能模型提供了丰富的资源。
模型的可解释性对于揭示新的设计原则也是至关重要的。这些模型给了生物学家去解决关于生物系统的更复杂的问题的能力,并且建立综合的、可解释的模型去加速发现与研究。我们可以从合成生物学出版物的数量以及合成生物学的商业机会中明显看出该领域知识和资源的增长。
2AI 及其对合成生物学的影响
与AI在合成生物领域的潜力相比,它在合成生物领域的影响有限。
我们已经看到了AI的成功应用,但仍然局限于特定的数据集和研究问题。AI在该领域目前面对的挑战,仍然是对更广泛的应用程序和其他数据集来说有多大的通用性。
数据挖掘、统计和机械建模目前是该领域计算生物学和生物信息学的主要驱动因素,但这些技术与人工智能/机器学习之间的界限往往是模糊的。例如,聚类是一种数据挖掘技术,可以识别基因表达数据中的模式和结构,这些模式可以表明工程修改是否会导致细胞的毒性结果。这些聚类技术还可以作为无监督学习模型,在未标记的数据集中找到结构。这些正在开发中的经典技术和新的AI/ML(机器学习)方法将在未来的领域合成生物中发挥更大的作用和影响,因为届时人们对于更大的数据集将习以为常。转录组数据量每7个月翻一番,蛋白质组学和代谢组学的高通量工作流程越来越可用。
此外,实验室工作微流控芯片的逐步自动化和小型化预示着未来数据处理和分析将使得合成生物学的生产力倍增。DARPA的协同发现和设计(SD2, 2018–2021) 计划专注于构建人工智能模型,旨在拉近AI与合成生物学需求的差距。这一点在一些采用该领域SoTA技术的公司中也很明显(例如Amyris、Zymergen或Ginkgo Bioworks)。
AI和合成生物学在一些方面存在重叠,比如将现有AI/ML应用于现有数据集;生成新的数据集(例如即将到来的NIH Bridge2AI);并创造新的AI/ML技术来应用于新的或现有的数据。虽然SD2在最后一项中有所贡献,但其仍有一定潜力,未来也有较长的路要走。
人工智能可以帮助合成生物学克服一个大挑战,即预测生物工程方法对生物主体和环境的影响。由于无法预测生物工程的结果,合成生物学的细胞工程目标(即逆设计)只能通过大量的试错来实现。人工智能提供了一个利用公开数据和实验数据来预测对生物主体和环境影响的机会。
为细胞编程设计遗传结构。 许多合成生物学领域的研究都集中在基因结构/基因线路的工程上,这与设计电子电路面临着的挑战大相径庭。
人工智能技术结合了已知的生物物理、机器学习和强化学习模型,能够有效预测结构对主体的影响,反之亦然,虽然已经颇为强大,但仍然有改进空间。而在机器辅助基因线路设计方面,已有各种人工智能技术投入应用,其中包括专家系统、多智能体系统、约束推理、启发式搜索、优化和机器学习。
基于序列的模型和图卷积网络在工程生物系统领域也得到了关注。因子-图神经网络已被用于将生物知识纳入深度学习模型。图卷积网络已被用于从蛋白质与蛋白质相互作用网络中预测蛋白质的功能。基于序列的卷积和递归神经网络模型已被用于识别蛋白质的潜在结合位点、基因的表达和新的生物结构的设计。人工智能最有用之处是应用于开发综合模型,而这将减少需要进行的实验或设计的数量。
代谢工程。在代谢工程中,人工智能已经应用到生物工程过程的几乎所有阶段,例如人工神经网络已被用于预测翻译起始位点,注释蛋白质功能,预测合成途径,优化多个外源基因的表达水平,预测调控元件的强度,预测质粒表达,优化营养浓度和发酵条件,预测酶动力学参数,了解基因型与表型的关联,预测CRISPR的指导效果等阶段。聚类已被用于发现次生代谢物生物合成基因聚类和识别催化特定反应的酶。集合方法已被用于预测途径动态、最优生长温度,并在定向进化方法中找到赋予更高适应度的蛋白质。支持向量机已被用于优化核糖体结合位点序列和预测CRISPR引导RNA的行为。在代谢工程的各阶段中,人工智能最有希望被应用于流程放大,这是该领域的一个重大瓶颈,以及下游处理(例如从发酵液中系统提取所产生的分子)。
实验自动化。在帮助自动化实验室工作和推荐实验设计方面,人工智能的影响已经远远超出了DBTL周期的“学习”阶段。自动化正逐渐在实践中变得十分重要,因为自动化是获得训练人工智能算法所需的高质量、大容量、低偏差数据的最可靠的方式,自动化还使得可预测的生物工程成为可能。自动化提供了将复杂协议快速转移和扩展到其他实验室的机会。例如,液体处理机器人站构成了生物铸造厂和云实验室的支柱。这些铸造厂已经能够看到在未来自身会被机器人和规划算法颠覆,从而获得快速迭代通过DBTL周期的能力。语义网络、本体和模式彻底改变了设计和协议的表示、通信和交换。这些工具支持快速实验,并以结构化、可查询的格式生成更多的数据。在一个大多数内容要么丢失,要么被人工记录在实验室笔记中的领域,人工智能的前景推动领域发生重大变化,从而减少生成数据的障碍。
微流体是宏观液体处理的替代品,具有更高的通量、更少的试剂消耗和更便宜的结垢。事实上,微流体可能是实现自动驾驶实验室的关键技术,它有望通过使用人工智能增强自动化实验平台,大大加快研发过程。自动驾驶实验室涉及完全自动化的DBTL周期,其中人工智能算法会根据之前的实验结果进行假设,积极寻找有前景的实验程序。因此这可能是合成生物领域人工智能研究人员的最大机会。虽然自动DBTL回路已经在液体处理机器人工作站中得到了证明,但微流控芯片提供的可扩展性、高通量能力和制造灵活性可能会提供最终的技术飞跃,使人工智能成为现实。
3用AI研究合成生物学所面临的挑战
人工智能已经开始进入各种合成生物应用领域,但仍然存在的技术和社会问题成为了这两个领域之间的障碍。
技术挑战。将人工智能应用于合成生物学的技术挑战是:数据分散在不同的模式中,难以组合,非结构化,往往缺乏收集数据的背景;模型需要的数据比通常在单个实验中收集的数据多得多,而且缺乏可解释性和不确定性量化;并且在更大的设计任务中,没有度量标准或标准来有效地评估模型的性能。此外,实验往往设计为只探索积极的结果,这使得模型的评估变得复杂化或偏倚。
图注:将人工智能技术应用于合成生物学领域的挑战。
数据挑战。缺乏合适的数据集仍然是人工智能与合成生物学结合的首要障碍。将人工智能应用于合成生物学需要从个体实验中获得大量标记过的、精选的、高质量、情境丰富的数据。尽管该社区在建立包含各种生物序列(甚至全基因组)和表型的数据库方面取得了进展,但标记数据仍然很匮乏。此处所说的“标记数据”指的是映射到捕捉它们的生物功能或细胞反应的测量的表型数据。正是这种测量和标签的存在让AI/ML和合成生物学解决方案日趋成熟,和其他领域一样让AI与人类的能力相互竞争。
缺乏对数据工程的投资是缺乏适用数据集的部分原因。在人工智能技术进步的光芒掩盖下,人们往往看不到支持和确保其成功的计算基础设施需求。AI社区将其称为需求金字塔,数据工程是其中一个重要的组成部分。数据工程中包括了实验规划、数据收集、结构化、访问和探索的步骤。成功的AI应用程序故事包含标准化、一致和可复制的数据工程步骤。虽然我们现在可以以前所未有的规模和细节收集生物数据,但这些数据往往不能立即适用于机器学习。目前在采用全社区标准来存储和共享测量数据、实验条件和使得数据更服从于AI技术的其他元数据方面仍存在许多障碍。需要进行严格的工作和达成高度共识才能使这些标准迅速被采用,同时促进数据质量评估的通用标准。简而言之,人工智能模型需要在所有实验中进行一致和可比的测量,这就会延长实验时间线。这一要求为已经遵循复杂协议进行科研实验人员又增加了巨大的负担。因此,为了赶近在眉睫的项目期限,收集数据的长期需要往往会被牺牲掉。
图注:一个规范的AI/ML基础设施可以支持合成生物学研究。虽然研究中期往往是人们关注的焦点,但基础才是至关重要的,需要大量的资源投资。
这种情况通常会造成稀疏的数据集合,稀疏的数据集合只表示构成组学数据栈的多个层的一小部分。在这种情况下,数据表示对集成这些孤立数据集进行综合建模的能力有重大影响。目前,业界在各个垂直领域都投入了大量工作,执行数据清理、模式对齐以及提取、转换和加载操作(ETL),用这种方式收集难以控制的数字数据,并将其准备为适合分析的形式。这些任务占据了数据科学家近50%到80%的时间,限制了他们深入探索的能力。处理大量的数据类型(数据多模态)是合成生物学研究人员面临的一个挑战,与数据量相比,预处理活动的复杂性随着数据多样性的增加而急剧增加。
建模/算法的挑战。许多推动当前人工智能进步的流行算法(例如计算机视觉和NLP领域的流行算法)在分析组学数据时都没有鲁棒性。当应用于特定实验中收集的数据时,这些模型的传统应用常常遭受“维数灾难”的困扰。在特定条件下,一个实验人员可以就一个生物体产生超过12,000个测量值(维度)的基因组学、转录组学和蛋白质组学数据。对于这样一个实验,标记实例的数量(例如,成功或失败)通常最多只有几十到几百个。对于这些高维数据类型,很少捕捉到系统的动态(时间分辨率)。这些测量误差使得对复杂的动态系统进行推断成为一个重大挑战。
图注:维数灾难
组学数据与其他数据模式(如顺序数据、文本数据和基于网络的数据)既有相似之处,也有不同之处,而经典方法并不总是适用。这些数据相同的特征包括位置编码和依赖关系,以及复杂的交互模式。然而这些数据之间也有一些基本的差异,如:它们的潜在表征,有意义分析所需的背景,以及跨模态的相关标准化以进行生物学上有意义的比较。因此,很难找到有鲁棒性的生成模型(类似于高斯模型或随机块模型)可以准确地描述组学数据。
此外,生物序列和系统代表了复杂的生物功能编码,但很少有系统的方法以类似解释语义或从书面文本上下文的方式来解释这些编码。这些不同的特征使得通过数据探索提取见解、生成和验证假设具备挑战性。工程生物学涉及到学习黑盒系统的挑战,我们可以观察输入和输出,但我们对系统内部工作的了解有限。考虑到这些生物系统运行在组合的大参数空间中,人工智能解决方案使用策略有效地设计实验以探索生物系统,从而产生各种假设并进行验证,等于是在这个空间中提出了巨大的需求和机会 。
最后,许多流行的AI算法解决方案没有明确地考虑不确定性,也没有显示出在输入扰动下控制误差的鲁棒机制。考虑到我们正在尝试设计的生物系统中固有的随机性和噪声,这种基本差距在合成生物空间中尤其重要。
指标/评估的挑战。基于预测和准确性的标准AI评价指标不足以应用在合成生物学领域中。像ℝ这样的回归模型或基于分类模型的准确性的度量标准不能解释我们试图建模的潜在生物系统的复杂性。在这个领域中,量化一个模型能够阐明生物系统内部工作和获取现有领域知识的其他指标也同样重要。为此,包含可解释性和透明度原则的人工智能解决方案是支持迭代和跨学科研究的关键。此外,对于恰当地量化不确定性的能力,我们需要创造性地开发新的指标来衡量这些方法的有效性。
我们还需要适当的实验设计指标。评估和验证合成生物学中的模型有时需要额外的实验和额外的资源。少量的分类错误或小错误可能会对研究目标产生重大影响。这些成本应整合到人工智能模型的目标函数或评估中,以反映误分类对现实世界的影响。
社会学的挑战。在利用人工智能与合成生物学结合的方面,社会学方面的问题可能比技术障碍更具挑战性(反之亦有可能)。我们的印象是,研究当中所涉及的完全不同的文化之间缺乏协调和理解,因此会导致一些社会学方面的障碍。虽然已经已经有些办法能解决这种障碍,但有趣的是,学术界和工业界仍然存在一些旷日持久的社会学问题。
之所以会出现社会问题,是因为两个非常不同群体的专家:计算科学家和实验室科学家在工作中碰撞摩擦,产生了一定的分歧。
计算科学家和实验室科学家接受的训练不同之处太多。经过训练的计算科学家倾向于专注于抽象、热衷于自动化、计算效率和颠覆性方法。他们自然倾向于任务专门化,并想方设法将重复性任务丢给自动化计算机系统去做。而实验室科学家都很实际,他们接受过具体观察的训练,更喜欢通过可解释的分析来准确描述实验的具体结果。
图注:计算科学家和实验室科学家来自不同的研究文化背景,他们必须学会共同协作,才能从人工智能和合成生物结合中充分受益。
这两个世界有着不同的文化,这不仅反映在这两部分人如何解决问题,也反映在他们认为哪些问题值得解决。
例如,致力于建设支持通用研究的基础设施,与致力于研究特定研究问题的努力之间一直很紧张。计算科学家倾向于提供可用于各种项目的可靠基础设施,而实验科学家往往专注于最终目标。计算科学家喜欢开发数学模型来解释和预测生物系统的行为,而实验室科学家喜欢产生定性的假设,并尽快通过实验来检验这些假设(至少在研究微生物时,因为这些实验可以在3-5天内很快完成)。
此外,计算机科学家们往往只对一些虚高的目标感到兴奋,比如生物工程生物对火星、生活写编译器能够创建DNA来满足所需的规范,重建树采取所需的形状,生物工程龙在现实生活中,或者用人工智能取代科学家。实验室的科学家们则认为这种目标纯属“炒作”,因为之前的案例中,计算类型承诺了许多,却没有兑现,他们宁愿只考虑使用当前的技术状态可以实现的目标。
解决社会的挑战。解决这些社会学问题的方法是去鼓励跨学科的团队和需求。虽然我们不能否认,在公司(团队一荣俱荣一损俱损)中实现这种包容的环境可能比在学术环境中更容易,因为在学术环境中一个研究生或博士后往往是发表了几篇第一作者论文就宣称成功了,而不需要与其他学科进行整合。
实现这种整合的一种可能的方式是开办交叉培训课程,让实验室科学家接受编程和机器学习的培训,让计算科学家接受实验培训。这样就能给两个社区都带来一些有价值的、独特的、必要的文化交流。大家越早发现这一点,合成生物学就能发展得越快。
从长远来看,我们需要将生物和生物工程的教学与自动化和数学相结合的大学课程。虽然目前有一些学校正在开办这样的课程,但目前只是杯水车薪而已。
4观点和机会
人工智能可以从根本上增强合成生物学,还能通过为工程阶段空间增加第三个轴,比如物理、化学或者生物,从而使其充分发挥影响力。最明显的是,人工智能可以在生物工程结果中产生准确的预测,从而实现有效的逆向设计。
此外,人工智能还可以支持科学家设计实验,并选择何时何地采样,而目前这一问题需要训练有素的专家来解决。人工智能还可以支持自动搜索、高吞吐量分析和基于大数据源的假设生成,这些数据源包括历史实验数据、在线数据库、本体和其他技术材料。
人工智能可以允许合成生物学领域专家更快地探索大型设计空间,并提出一些有趣的“跳出框框”的假设,从而增加专家们的知识。合成生物学为当前的人工智能解决方案提出了一些独特的挑战,如果这些挑战得到解决,将使得合成生物学和人工智能领域得到根本性进步。设计生物系统本质上依赖于控制系统的能力,这是对系统基本规律理解的终极考验。因此,能够实现合成生物研究的人工智能解决方案必须能够描述能够做到最佳预测的机制。
尽管最近基于深度学习架构的人工智能技术已经改变了我们对特征工程和模式发现的看法,但就推理和解释其学习机制的能力而言,它们仍处于起步阶段。
因此,结合因果推理、可解释性、鲁棒性和不确定性估计需求的人工智能解决方案在这一跨学科领域具有巨大的潜在影响。生物系统的复杂性使得纯粹基于蛮力关联发现的人工智能解决方案无法有效地描述系统的内在特征。将物理和机械模型与数据驱动模型顺利地结合起来的一类新算法是一个令人兴奋的新研究方向。目前我们在气候科学和计算化学方面看到了一些初步的积极成果,希望在生物系统研究方面也能取得类似的进展。
由于人工智能提供了修改生物系统的工具,合成生物学还可以反过来激发新的人工智能方法。生物学启发了诸如神经网络、遗传算法、强化学习、计算机视觉和群体机器人等人工智能的基本要素。事实上,有许多生物现象可以用也值得用数字技术来模拟的。例如,基因调控涉及到一个精巧的相互作用网络,它不仅允许细胞感知环境并对环境作出反应,而且还保持细胞的存活和稳定。保持体内平衡(由生命系统维持的稳定的内部、物理和化学条件的状态)涉及到在适当的时间、适当的数量产生适当的细胞成分,感知内部梯度,并小心地调节细胞与环境的交换。我们能不能理解并利用这种能力来生产真正自我调节的人工智能或机器人呢?
另一个例子涉及紧急属性(即,由系统显示但不由其组成部分显示的属性)。例如,蚁群的行为和反应是一个单一的有机体,不仅仅是单个蚂蚁的总和。类似地,意识(即,对内部或外部存在的感知或意识)是一种来自物理基础(比如神经元)的定性特征。自组织和集体建造结构的群机器人已经存在。我们能不能用涌现的一般理论来创造机器人和生物系统的混合体呢?我们能从一个完全不同的物理基质,比如晶体管中创造意识吗?最后一个可能的例子涉及自我修复和复制:即使是最简单的生命例子也显示出自我修复和复制的能力。我们能理解这种现象产生自我修复和复制的人工智能的困境吗?
虽然这种生物模拟以前就有人考虑过,但“合成生物”的美妙之处在于,它为我们提供了“修补”生物系统的能力,以测试生物模拟的模型和基本原理。例如,我们现在可以在基因组规模上修补细胞基因调控,对其进行修改,并测试到底是什么导致了其非凡的韧性和适应性。或者我们可以对蚂蚁进行生物工程,测试随后会发生什么样的蚁群行为,以及这种行为如何影响蚂蚁的存活率。或者我们可以改变细胞的自我修复和自我复制机制,测试长期进化对其竞争能力的影响。
此外,在细胞建模中,我们能够很好地理解所涉及的生物机制。就算了解了神经网络如何检测眼睛的形状,也不太可能就明白大脑是怎么做同样的事情的,但合成生物学的研究不一样。机械模型的预测并不完美,但产生了质量上可以接受的结果。将这些机制模型与ML的预测能力相结合,可以帮助弥合两者之间的差距,并提供生物学上的见解,解释为什么某些ML模型在预测生物行为方面比其他模型更有效。这种见解可以引导我们研究新的ML体系结构和方法。
人工智能可以帮助合成生物,合成生物也可以反过来帮助人工智能,这两个学科在持续反馈循环中的相互作用,将创造我们现在不能想象的未来,就像本杰明·富兰克林也无法想象他对电的发现,在未来有一天会使互联网成为可能。