跳到主要内容
溢价试验:

申请年度报价

儿童基因组答案项目推进了罕见疾病检测的长读测序

溢价

巴尔的摩——密苏里州堪萨斯城儿童慈善研究所儿童基因组答案(GA4K)项目的研究人员已经证明了长读测序和机器学习在改善罕见儿科疾病诊断方面的临床效用。

上个月发表在医学遗传学在美国,GA4K研究人员描述了他们分析1000多名疑似罕见遗传疾病的儿童患者及其家人基因组的早期工作。它涉及短读外显子组测序、短读基因组测序和PacBio HiFi基因组测序的组合,结果对先前基因检测阴性的患者的诊断率为11%,而对以前没有基因检测的患者的诊断率几乎为35%。

作为该计划的一部分,该团队还建立了一个开放获取的数据库,包括罕见变异、去识别谱系和编码表型,以推动对目前通过临床测序难以解决的最困难罕见疾病的进一步研究。

“我们想要做的是系统地通过临床测序的盲点,”儿童仁慈基因组医学中心主任、GA4K的首席研究员Tomi Pastinen说,他指的是,即使按照目前的标准进行全面的基因分析,超过一半的罕见病患者仍然难以找到正确的诊断。VWIN娱乐网站

帕斯蒂宁表示,GA4K项目是去年成立的儿童慈善研究所的“基础性努力”。虽然最近的论文强调了该项目第一年的成就,但GA4K已经进入第三年,迄今已经对3000多名患者的基因组进行了测序。

Pastinen表示,GA4K项目有多个方面。首先,它旨在解决一旦临床外显子组测序结果为阴性时该怎么办的“全社区困境”。最初,GA4K将基因检测工作流程扩展到短读全基因组测序,对于那些获得负外显子组测序结果的人来说,这在临床领域仍然是相对罕见的。对于那些短读全基因组测序仍无法解决的患者,它进一步将努力扩展到长读全基因组测序。

在发表的研究中,研究人员分析了1080名患者,他们的病症从先天性异常到儿童后期的神经和神经行为临床表现。大多数患者没有得到任何基因诊断。据Pastinen介绍,这篇论文分析的所有样本都经过了Illumina外显子组测序,而且几乎所有样本都使用了Illumina或MGI测序技术进行了全基因组测序。vwin德赢ac米兰合作使用Pacific Biosciences HiFi长读测序技术对大约550个样本进行了进一步研究。

帕斯蒂宁说,该项目的另一个方面是建立一个未诊断疾病的基因数据库,便于其他研究人员获取,以促进未来的研究,特别是那些使用长读测序的研究。他说:“我们的方法的很大一部分是与社区的其他人共享数据,以便众包阴性(基因测试结果)基因组。”

他指出,研究人员目前在基因组数据共享方面面临挑战。例如,GeneMatcher服务他说,这是一种便于研究人员将未发表的变异与相关表型进行匹配的工具,但考虑到匹配过程中数据交换的范围狭窄,这一过程可能会导致假阳性变异和过匹配。另一方面,Pastinen说,尽管将整个测序和表型数据存储到NIH的基因型和表型数据库(dbGaP)为研究人员提供了细粒的基因组数据,但考虑到数百tb的数据,这需要“大量的生物信息学资源”。

他说,为了应对这些挑战,GA4K的部分任务是构建一个“低门槛”、完全开放获取的数据库,存储最有可能的致病变异与去识别的表型和谱系,同时省去上传全基因组序列的负担。他说,该数据库比传统的基因匹配服务更容易浏览,并提供了更大规模的证据,以避免假阳性匹配,同时仍然节省计算资源。

为了实现变体优先级的一致性,该团队探索使用开源机器学习算法来帮助解释变体。“我们想生成的是一个统一的系统,”Pastinen说,他补充说,他希望机器学习方法能够消除人工变量分析中至少一部分的不一致性,他说,人工变量分析“可能非常主观”。

此外,Pastinen表示,机器学习算法可以帮助节省分析成本和周转时间。他说,基于测序的基因诊断最大的成本之一是分析师的开销,虽然机器学习不会完全取代人工解释,但它可能会使很大一部分基因组分析实现自动化,让训练有素的遗传学家可以“把精力集中在诊断的最终签字上,而不是大海捞针”。

目前已有超过500个样本使用PacBio HiFi长读序列进行测序,整个GA4K项目的测序数据是目前的两倍。Pastinen表示,数据共享的另一个重要方面是帮助建立一个框架,以推动长读序列在临床领域的应用。他说,团队将PacBio长读测序应用于罕见病检测的一个“初始障碍”是缺乏长读参考数据库。他说:“如果没有任何参考数据,你就无法判断这是正常事件,还是潜在的致病罕见事件。”

这篇论文还证明了长读测序在改善罕见病诊断方面的优势。具体来说,PacBio HiFi长读测序与短读测序相比,将罕见编码结构变异的发现率提高了4倍以上。此外,Pastinen指出,与短读测序或临床微阵列相比,长读测序在识别较小的结构变异(从50个碱基对到几千个碱基对)和重复扩展方面更强大。

这些发现在很大程度上反映了日益繁荣的长读测序研究领域的其他研究。例如,同样使用PacBio HiFi测序,HudsonAlpha生物技术研究所的高级科学家Susan Hiatt已经生成了6个神经发育障碍的先父母三人的长读测序数据,他们之前有负基因组测序。vwin德赢ac米兰合作

上周,希亚特在美国医学遗传学和基因组学学院的年会上说,研究结果表明“长读数据确实允许更准确的排列和变异的召唤”,并补充说,她的研究表明,长读测序发现了更多的生物学相关计数新创单核苷酸变异等等新创与短读测序相比,Alu插入序列在基因组的低复杂度和低可图谱性区域具有更好的可图谱性。

与此同时,在ACMG会议上,西雅图儿童医院和华盛顿大学的儿科和医学遗传学专家Danny Miller使用牛津纳米孔技术公司的长读测序技术,展示了纳米孔长读测序技术在解决片段重复变异方面的临床应用的试点数据。

米勒指出:“片段重复对短读序列测序具有挑战性,因为它们存在于基因组的多个位置,而短读序列将与这些区域的一些相似性对齐。”“这是一个很好的例子,当你在这些地区有变异时,长阅读可以帮助澄清问题。”

尽管长读测序技术前景广阔,但要在临床上广泛应用,仍有许多障碍需要克服。儿童慈善医院的艾米丽·法罗(Emily Farrow)在ACMG会议上说,具体来说,在测序成本方面,长读测序仍然比短读测序“贵得多”。她是儿童慈善基金会论文的合著者之一。然后是速度和吞吐量,她补充说,“它们不等同于短篇阅读;现在没有别的办法了。”

“对于我们来说,获得60个基因组,我们有多个(PacBio)仪器,这将需要几周的时间,”Pastinen说,他同意吞吐量可能是长读取测序的瓶颈。

此外,他说长读测序还要求更高的DNA质量,这可能成为采用该技术的另一个障碍。vwin德赢ac米兰合作虽然在他的团队的研究中使用的血液DNA分离方法与短读测序和微阵列分析使用的方法是相同的,Pastinen说,“如果你研究的是非血液的DNA来源和潜在的旧DNA样本,你将在长读测序中遇到更多的麻烦,因为它确实需要高质量的DNA。”他还指出,对于采集口腔拭子的直接面向消费者的检测,对于长读测序来说,DNA质量可能太低。

数据分析是采用长读测序的另一个潜在瓶颈。当谈到Oxford Nanopore测序时,Miller说,分析测序数据的管道可能是“复杂的,计算成本高,而且经常变化。”

Pastinen表示,未来GA4K计划继续开发使用长读测序的罕见病检测方法。他说:“我们的设想和目前实际追求的是扩大[长读测序],不仅研究这些患者的DNA序列,还研究这些患者的RNA序列。”

最终,Pastinen希望他的团队能够将长读测序变成“一线综合基因检测”,从而结束罕见疾病患者的诊断之旅。他说:“这就是为什么我们在长读测序上投入了很大一部分精力。”“如果我们进一步开发,它有可能覆盖大多数临床适应症。”

扫描

也许还能用

据《纽约时报》报道,一项新的研究通过植入前基因检测发现异常胚胎的非整倍体结果。

就涉嫌伪造COVID-19结果达成和解

据《洛杉矶时报》报道,Sameday Technologies公司就伪造新冠病毒检测结果达成了2000多万美元的和解协议。

非营利组织推动资助机构的有效性

据Stat News报道,一个新的非营利组织旨在推动美国联邦研究机构提高效率。

癌症突变特征的科学论文,跨血脑屏障传递CRISRP-Cas9机制的系统

本周《科学》杂志:数千对肿瘤-正常配对的突变特征分析,以及更多。
Baidu
map