DNA和RNA被比作“说明书”,里面包含着活的“机器”运行所需要的信息。但是,虽然像计算机和机器人这样的电子机器是为特定目的而设计的,但生物有机体是由一组更混乱、更复杂的函数来管理的,这些函数缺乏二进制代码的可预测性。要想找到解决生物学问题的新方法,就需要对看似难以驾驭的变量进行梳理——即使是最无畏的人脑也会畏惧这项任务。
来自哈佛大学怀斯研究所和麻省理工学院的两组科学家已经设计出超越人脑的路径,绕过这个障碍;他们开发了一套机器学习算法,可以分析大量基于rna的“立足点”序列,并预测哪些在感知和响应预期目标序列方面最有效。正如今天同时发表在《自然通讯》上的两篇论文所报道的那样,这些算法也可以推广到合成生物学的其他问题上,杏耀代理并且可以加速生物技术工具的发展,以改善科学和医学,帮助拯救生命。
“这些成就是令人兴奋的,因为他们的起点我们问更好的问题的能力的基本原则RNA折叠,我们需要知道为了达到有意义的发现和构建有用的生物技术,“路易斯Soenksen说,博士,博士后Wyss麻省理工学院研究所和风险Builder Jameel诊所是co-first两篇论文的第一作者。
数据科学家之间的合作从Wyss研究所的预测BioAnalytics倡议和合成生物学家在Wyss核心教员吉姆·柯林斯的麻省理工学院的实验室创建应用机器学习的计算能力,神经网络,和其他算法架构复杂的生物学问题,迄今为止,蔑视决议。作为他们方法的试验场,这两个团队将重点放在了一类特殊的工程RNA分子上:在“关闭”状态下折叠成发夹形状的支撑开关。当一个互补的RNA链与发卡末端的“触发”序列结合时,“触点开关”就会开启,暴露出之前隐藏在发卡内的序列,核糖体就可以与下游基因结合并将其转化为蛋白质分子。这种对特定分子的存在做出反应的基因表达的精确控制使得立足点开关成为感知环境中的物质、检测疾病和其他目的的非常强大的组件。
然而,许多触点开关在实验测试时并没有很好地工作,尽管根据已知的RNA折叠规则,它们已经被设计成针对给定输入产生所需的输出。认识到这个问题后,团队决定使用机器学习来分析大量的脚趾开关序列,并利用分析所得的见解来更准确地预测哪些脚趾能可靠地完成预期的任务,这将使研究人员能够在各种实验中快速识别出高质量的脚趾。
他们面临的第一个障碍是,没有足够大的数据集来进行深度学习技术的有效分析。作者自己负责生成一个对训练这些模型有用的数据集。“我们设计并合成了一个巨大的图书馆立足开关,总共近100000,通过系统取样短触发区域沿整个基因组的23个病毒和906年人类转录因子,”Alex Garruss说,哈佛大学研究生工作Wyss研究所是co-first第一篇论文的作者。“这个数据集前所未有的规模使我们能够使用先进的机器学习技术来识别和理解用于下游应用和未来设计的有用开关。”
有了足够的数据,研究小组首先使用了传统上用于分析合成RNA分子的工具,看看他们是否能准确地预测立足点开关的行为,因为现在有了更多的例子。然而,他们尝试的所有方法——包括基于热力学和物理特征的机械建模——都不能准确地预测出哪个脚趾的功能更好。
一张图片相当于一千个碱基对
研究人员随后探索了各种机器学习技术,看看它们是否能创建具有更好预测能力的模型。第一篇论文的作者决定不把立足点开关作为碱基序列来分析,而是作为碱基对可能性的二维“图像”来分析。“我们知道基线规则如何RNA分子相互碱基对的债券,但是分子扭来扭去的,他们从来没有一个完美的形状,而是一个概率他们可能在不同的形状,”尼古拉斯说Angenent-Mari,麻省理工学院的研究生工作Wyss研究所和co-first第一篇论文的作者。“计算机视觉算法已经成为非常善于分析图像,所以我们创建了一个图像的表示所有可能的折叠状态的每个开关站稳脚跟,并训练了那些照片上的机器学习算法可以识别的模式指示是否一个给定的图片将是一个好的或坏的立足之地。”
他们基于视觉的方法的另一个好处是,团队能够“看到”在确定一个给定的序列是“好”还是“坏”时,算法“关注”最多的是一个立足点开关序列的哪个部分。他们将这种解释方法命名为可视化二级结构显著图(VIS4Map),并将其应用于整个立足点开关数据集。VIS4Map成功地确定了立足交换机的物理元素,影响他们的性能,并允许研究人员得出结论,站稳脚跟有潜在竞争内部结构的“漏”,因此低质量比那些更少的这种结构,提供洞察RNA折叠机制没有发现使用传统分析技术。
“能够理解和解释为什么某些工具工作或不工作在人工智能社区是一个次要目标一段时间,但可解释性需要在我们关注的前沿研究生物学,因为这些系统的潜在原因行为往往不能凭着直觉,”吉姆·柯林斯说,博士,第一篇论文的资深作者。“有意义的发现和颠覆是深刻理解自然如何运作的结果,这个项目表明,如果机器学习得到适当的设计和应用,可以极大地增强我们获得关于生物系统重要见解的能力。”柯林斯也是麻省理工学院医学工程和科学的泰尔米尔教授。
现在你说的是我的语言了
第一个团队将立足点切换序列作为2D图像进行分析,以预测其质量,而第二个团队创建了两个不同的深度学习架构,使用正交技术来应对挑战。然后,他们不仅预测了立足点的质量,还利用他们的模型针对不同的目的优化和重新设计了性能不佳的立足点开关,并将其报告在第二篇论文中。
第一个模型基于卷积神经网络(CNN)和多层感知器(MLP),将脚点序列视为1D图像或核苷酸碱基行,并识别碱基的模式和这些碱基之间的潜在相互作用,以预测好的和坏的脚点。该团队利用这个模型创建了一种名为STORM(基于序列的立足点优化和重新设计模型)的优化方法,该方法允许从头开始完全重新设计立足点序列。这种“空白板”工具最适合用于生成作为合成基因电路的一部分、执行特定功能的新型立足点开关,从而使复杂的生物工具得以创建。
STORM和它背后的模型真正酷的地方在于,在输入了第一篇论文的数据之后,我们能够仅用168个样本对模型进行微调,并使用改进后的模型来优化触点开关。,质疑的假设您需要生成大量数据集的每一次你想要机器学习算法应用到一个新问题,并建议深度学习可能比我们想象的更适用于合成生物学家,”杰基co-first作者Valeri表示,麻省理工学院的一名研究生,Wyss研究所。
第二个模型基于自然语言处理(NLP),将每个立足点序列视为由“单词”模式组成的“短语”,最终学习如何将某些单词组合在一起,
注册杏耀平台的理由 ,形成一个连贯的短语。我喜欢把每一个触点开关看作是一首俳句诗:就像俳句一样,它是其母语言(RNA)中非常具体的短语安排。从本质上说,我们是通过给这个模型灌输大量的例子来训练它如何写出一首好的俳句。”
拉梅什和他的合作者将基于nlp的模型与基于cnn的模型集成在一起,创建了NuSpeak(核酸语音),这是一种优化方法,允许他们重新设计一个给定的支撑开关的最后9个核苷酸,同时保持剩余的21个核苷酸完好无损。这项技术允许创造用于检测特定致病RNA序列存在的脚趾,并可用于开发新的诊断测试。
该团队通过优化用于检测SARS-CoV-2病毒基因组片段的立足点开关,在实验上验证了这两个平台。NuSpeak将传感器的性能平均提高了160%,而STORM为四种“糟糕”的SARS-CoV-2病毒RNA传感器创造了更好的版本,性能提高了28倍。
暴风雨和NuSpeak平台的“一个真正的好处是,它们能使您快速设计和优化合成生物学的组件,我们显示的发展立足COVID-19诊断传感器,“co-first作者凯蒂·柯林斯说,麻省理工学院本科学生Wyss研究所曾与麻省理工学院副教授盖,医学博士,博士,第二篇论文的通讯作者。
“数据驱动的方法通过机器学习打开门真正有价值的计算机科学和合成生物学之间的协同效应,我们只是刚开始触及到问题的表面,“•迪奥戈卡马乔说,博士,第二篇论文的通讯作者是谁的高级生物信息学预测BioAnalytics倡议的科学家和位联席Wyss研究所。“也许我们在这些论文中开发的工具最重要的方面是,它们可以推广到其他类型的rna基序列,如诱导启动子和自然发生的核糖体,因此可以广泛应用于生物技术和医学中的问题和机遇。”
论文的其他作者包括维斯的核心教员和乔治教堂医学院遗传学教授博士;还有威斯和麻省理工学院的研究生米格尔·阿尔坎塔和比安卡·勒佩。
“人工智能是一股刚刚开始影响科学和工业的浪潮,杏耀连接在帮助解决棘手问题方面具有不可思议的潜力。这些研究中所描述的突破证明了将计算与合成生物学结合在一起发展新的更强大的生物启发技术的力量,此外还导致了对生物控制的基本机制的新见解,”Wyss研究所的创始主任Don Ingber医学博士说。因格贝尔还是哈佛医学院和波士顿儿童医院血管生物学项目的Judah Folkman教授,同时也是哈佛大学约翰·a·保尔森工程与应用科学学院的生物工程教授。