MDC的研究人员开发了一种新工具,可以更容易地最大化深度学习在基因组学研究中的作用。他们在《自然通讯》杂志上描述了这种名为杖鼓的新方法。
想象一下,在你能做晚饭之前,你首先必须重建厨房,专门为每个食谱设计。你花在准备上的时间比真正做饭的时间要多得多。对计算生物学家来说,分析基因组数据也是一个同样耗时的过程。甚至在开始分析之前,他们就花了大量宝贵的时间来格式化和准备海量数据集,以提供给深度学习模型。
为了简化这一过程,赫尔姆霍兹协会(MDC) Max Delbrueck分子医学中心的研究人员开发了一种通用编程工具,该工具可以将各种基因组数据转换为深度学习模型分析所需的格式。“之前,你浪费了很多时间在技术方面,而不是专注于生物的问题你想的答案,”沃尔夫冈•科普博士说,一个科学家在生物信息学和组学数据科学研究小组MDC的柏林医学系统生物学研究所吗? (BIMSB),这篇论文的第一作者。“通过杖鼓,我们的目标是减轻一些技术负担,让尽可能多的人使用它。”
唯一名称,通用解决方案
杖鼓得名于一种传统的韩国鼓,它的形状像一个朝外的沙漏。沙漏的两大部分代表杖鼓关注的领域:基因组数据的预处理、结果可视化和模型评估。中间的窄连接器代表了研究人员希望使用的任何类型的深度学习模型的占位符。
深度学习模型包括对大量数据进行排序并找到相关特征或模式的算法。虽然深度学习是一个非常强大的工具,但它在基因组学中的使用一直很有限。大多数已发布的模型倾向于只处理固定类型的数据,只能回答一个特定的问题。换出或添加新数据通常需要从头开始并进行大量编程工作。
杖鼓将不同的基因组数据类型转换成一种通用格式,杏耀客服可以插入到使用python(一种广泛使用的编程语言)的任何机器学习或深度学习模型中。
生物信息学和组学数据科学研究小组负责人阿尔图纳·阿卡林博士说:“我们的方法的特别之处在于,你可以轻松地使用任何基因组数据集来解决你的深度学习问题,任何形式的数据都可以。”
分离是关键
Akalin的研究小组有双重任务:开发新的机器学习工具,并利用它们来研究生物学和医学方面的问题。在他们自己的研究工作中,他们不断地为花费在格式化数据上的时间感到沮丧。他们意识到,部分问题在于每个深度学习模型都包含了自己的数据预处理。通过将数据提取和格式化从分析中分离出来,它提供了一种更容易的方式来交换、组合或重用数据部分。这就像把所有的厨房工具和食材都放在手边,随时准备尝试新的菜谱。
“困难在于找到灵活性和可用性之间的平衡,”Kopp说。“如果太灵活,
杏耀平台经营之道 ,人们会被不同的选择淹没,很难开始。”
Kopp已经准备了一些教程来帮助其他人开始使用杖鼓,以及示例数据集和案例研究。《自然通讯》的这篇论文展示了杖骨在处理大量数据、结合数据流和回答不同类型问题方面的多功能性,比如预测DNA序列和/或染色质的结合位点,以及分类和回归任务。
没完没了的应用
杖鼓的优势主要体现在前端,研究人员希望为深度学习提供一个完整的解决方案。杖鼓还包括深度学习分析后的结果可视化,并评估模型学习的内容。值得注意的是,该团队将“高阶序列编码”纳入到包中,从而可以捕获相邻核苷酸之间的相关性。这有助于提高某些分析的准确性。杖鼓让深度学习变得更容易、更方便用户使用,帮助我们打开了回答各种生物学问题的大门。
“最有趣的应用之一是预测突变对基因调控的影响,杏耀代理”Akalin说。“这令人兴奋,因为现在我们可以开始了解个体基因组,例如,我们可以查明导致调控变化的遗传变异,或者我们可以解释发生在肿瘤中的调控突变。”