最小空间分析使快速长读基因组组装成为可能

2021年9月14日|员工的记者

纽约——根据一项新的研究，一种新的算法方法可以使用笔记本电脑上的内存，快速地将精确的长序列读取集合到整个基因组中。

像太平洋生物科学公司和牛津纳米孔技术公司的长读测序技术可以产生tb级的序列数据。新创这些读取的组装可能是资源密集型的，需要时间和计算内存。

来自麻省理工学院和巴斯德研究所的研究人员开发了一种新的方法，使用最小空间de Bruijn图(mvwin德赢ac米兰合作dBGs)来组装长读基因组。用这种方法，他们在不到10分钟的时间里用8个核和10gb的随机访问存储器组装了一个人类基因组他们报告说在电池系统周二。他们同样可以快速构建大量细菌基因组的索引，然后搜索抗微生物药物耐药性基因的迹象，说明如何能够快速处理测序数据，从而实现个性化医疗。

来自麻省理工学院的通讯作者Bonnie Berger在一封电子邮件中说:“在这项工作之前，单个人类基因组组装需要数天和数百gb的内存，这是实现个性化医疗的一个重大障碍。”“我们的方法mdBG将个人电脑上的计算资源减少到分钟，比现有方法快了两个数量级。”

MdBG依赖于表示核苷酸序列短段而不是单个核苷酸的最小化器。通过这种方式，mdbg只存储核苷酸总数的一小部分，但不会影响基因组序列。

他们应用他们的方法来组装PacBio的长读取果蝇并将mdBG与其他汇编程序(如HiCanu、Hifiasm和Peregrine)的性能进行了比较。

为果蝇该方法是用Rust语言编写的，它在1分9秒内组装了基因组，并使用了1.5 GB的内存。相比之下，Peregrine花了40分11秒，使用了12 GB的内存。

与此同时，对于一个人体装配，rust-mdBG需要10分23秒和10gb的内存，而Peregrine需要14小时8分钟和188 GB的内存。

巴斯德研究所的Rayan Chikhi补充说:“除了基因组组装，我们的mdbg还可以用于在大量细菌基因组中非常有效地搜索抗微生物药物耐药性基因，这是个性化抗生素治疗的关键。”

例如，研究人员使用mdBG为661405个细菌基因组构建了一个索引，这个过程耗时3小时50分钟，需要58 GB。他们进一步查询了泛基因组图是否存在抗微生物耐药性基因，这需要大约12分钟，而不是其他方法的7小时，并且使用不到1 GB的内存。

目前，该方法使用PacBio读取效果最好，作者指出，因为他们有非常低的错误率和他们希望它很快就能处理牛津纳米孔的读数．

Berger和Chikhi补充说，他们计划进一步发展他们的方法，例如在没有缝隙的情况下分解整个染色体。他们说:“从更广泛的角度考虑，我们设想与领域科学家接触，帮助他们开发快速的基因组测试站点，超越可能遗漏基因组之间重要差异的PCR和标记阵列。”

申请下

测序

信息学

算法

基因组组装

长片段读取技术vwin德赢ac米兰合作

麻省理工学院

巴斯德研究所

牛津纳米孔

太平洋生物科学

纳米孔测序

北美

欧洲

下一代发现工作流程

最小空间分析使快速长读基因组组装成为可能

申请下

AnPac Bio收到纳斯达克关于上市要求的额外警告

Guardant Health获得日本批准用于肿瘤突变分析液体活检检测

FDA批准Lynparza作为辅助治疗乳腺癌brca突变与万千基因CDx

新闻人物:自适应生物技术、新基因组学、生物动力学等方面的新任命

犬GWAS导致与德国牧羊犬消化状况相关的基因座

发布到基因组网的新产品:Seven Bridges, Thermo Fisher, Opentrons，更多

美国通过支出法案

是什么让它变成粉色的?

同样适用于小狗

科学展示了OpenCell蛋白质组图，斗鱼驯化的测序分析

犬GWAS导致与德国牧羊犬消化状况相关的基因座

希望之城CRC患者数据对Natera最小残留疾病检测价值提出质疑
溢价

从靶向长Reads中进行重复扩张疾病诊断显示出临床应用潜力
溢价

Natera驳斥股票暴跌后空头报告中的指控

由于家庭分子COVID-19检测的需求，Lucira Health第四季度收入大幅增长

最小空间分析使快速长读基因组组装成为可能

申请下

希望之城CRC患者数据对Natera最小残留疾病检测价值提出质疑 溢价

从靶向长Reads中进行重复扩张疾病诊断显示出临床应用潜力 溢价

希望之城CRC患者数据对Natera最小残留疾病检测价值提出质疑
溢价

从靶向长Reads中进行重复扩张疾病诊断显示出临床应用潜力
溢价