跳到主要内容
溢价试验:

索取年度报价

端粒-端粒团队组装完整的人类基因组,以参考泛基因组

溢价

本故事已更新,以纠正迪安娜·丘奇的评论。她指的是与ENCODE的兼容性,而不是GENCODE。

纽约——根据一份新的报告,来自端粒到端粒联盟(T2T)的研究人员组装了“第一个真正完整的30.55亿对人类基因组碱基对序列”BioRxiv上周发布了预印本。

除Y染色体外,所有人类染色体的无间隙组装为人类基因组增加了超过150mb以前未知的内容,大部分是来自某些染色体的中心区和端中心臂的片段复制和卫星重复。虽然从技术上讲,该基因组是二倍体,但它来自一个完整的葡萄胎,这是一种有两个相同单倍型副本的子宫生长类型。但是这里所使用的新方法,特别是来自太平洋生物科学公司和牛津纳米孔技术公司的基于图的长读测序序列组装,已经为获取不仅仅是一个完整的基因组铺平了道路,而且足够代表大多数人类基因组多样性。

“这是峰会前的最后一个大本营,”国家人类基因组研究所的生物信息学家、T2T的联合主席亚当·菲利普说。“有了人类基因组计划(HGP),虽然它创造了数十亿美元的产业,开启了巨大的发现,但我的后脑勺总是有一种挥之不去的感觉,‘哎呀,这还没有真正完成,’”他说。

他希望基因组学界将T2T-CHM13组装本身视为一项成就,并将其用作线性参考基因组。他说:“所有的比较都表明,这个基因组比GRCh38更具代表性。”“这更人性化。”

基因组编辑公司Inscripta哺乳动物业务副总裁迪安娜·丘奇(Deanna Church)说:“作者们在展示价值方面做得很好。”她曾是国家生物技术信息中心的工作人员,在那里她帮助领导了基因组参考联盟的GRCh38参考基因组的开发。vwin德赢ac米兰合作“这是一个比GRCh38更好的组装,”她说。

尽管美国政府支持的人类基因组计划在2003年宣布完成,但它从未提供过一个能让完美主义者满意的基因组。在与Celera Genomics(由前NIH研究员克雷格•文特尔(Craig Venter)领导的私人公司进行了一场令人担忧的竞赛之后,双方在2001年提交两份基因组草案时称这是一场平局。一个2007文特尔基因组的论文声称是第一个命名个体的二倍体基因组,2008年的一篇论文声称提供了一个完整的一个人的基因组(DNA结构先驱、前冷泉港实验室主任詹姆斯·沃森)使用下一代测序技术,但两者仍然存在差距,包括2009年的GRCh37和2013年的GRCh38在内的参考基因组也是如此。vwin德赢ac米兰合作

以前这些努力的局限性基本上是技术上的。中心点区域和片段重复可以有数百个碱基长,这使得Sanger和短读测序方法无法穿透。

2018年,由诺丁汉大学的马特·松和英国伯明翰大学的尼克·洛曼领导的研究人员发表一个基因组组装他们用了一个新的协议产生N50长度大于100kb至880kb的纳米孔读数。这使得缺口的数量减少到大约100个。通过在这个项目上的合作,菲利普和加州大学圣克鲁斯分校的卫星重复研究员凯伦·米加确信无间隙基因组是可能的推出了同年晚些时候成立了T2T财团。

丘奇说,他们选择研究完整的葡萄胎及其不太复杂的基因组,这是非常重要的,可能与项目中使用的测序技术同样重要。vwin德赢ac米兰合作“这真的简化了问题。可能会有一点杂合性,但这是表示一个真正的单倍型的简化方式,”她说。

2020年6月,T2T发表第一篇论文无间隙的染色体的组装该基因是由超长纳米孔reads、PacBio测序、Bionano Genomics的光学基因组定位、10x Genomics(现已停产)和Illumina的linked reads技术以及Hi-C检测产生的远程交互数据创建的。

但为了获得完整的玉米卷饼,T2T团队转向了一种主要基于PacBio的HiFi读取技术的方法,这种方法只使用至少有Q20质量评分的读取,创建了一个准确率超过99.9%的一致序列。vwin德赢ac米兰合作虽然纳米孔超长读数很容易组装,但错误率太高,研究人员不得不使用其他技术来使组装足够精确。Phillippy指出,使用Illumina短读取甚至PacBio读取的所谓“抛光”实际上是错误的来源。

在开发HiCanu的过程中基于装配去年,Phillippy和博士后Sergey Nurk发现他们可以使用PacBio的HiFi数据来组装着丝粒。

菲利普说:“就在大流行刚开始的时候,(努尔克)给我带来了第一张装配图,我们看到所有的染色体基本上都在一起。”“接下来的问题就是找出正确的方法来处理这些数据。”

为了创建T2T-CHM13,该团队使用从HiCanu和Miniasm(布罗德研究所的李恒开发的汇编程序)中提取的代码,从HiFi读取创建了一个“保守的”基因组图。利用牛津纳米孔的超长读取,研究人员能够在图中找到正确的路径,为每条染色体生成一致的序列。最后还有一个打磨的步骤;然而,菲利普说,这样做的更正并不多。“我们确实在最后阶段使用了Illumina来调用变体,”以及纳米孔和HiFi数据,他指出。除了使用谷歌的DeepVariant外,一个策划团队还手动识别了添加到基因组中的一些修正。

该项目总共花费了大约一年的时间,测序成本至少为5万美元。“还有很多其他的数据集,经过多年的验证,逐渐积累起来,”Phillippy说。“所以,我粗略估计,如果以我们现在所知道的情况再来一次,5万美元将是我的估计。该项目的实际成本更高。”他的实验室正计划开发一种新的组装算法,可以整合HiFi和纳米孔数据,可能在一年或更短的时间内发布。

使用的方法帮助研究人员解释了大约182 Mb的新序列,约占人类基因组的8%,其中大部分由于其重复的性质或与其他基因组区域的几乎相同,以前是无法理解的。作者指出,中心卫星重复约180 Mb,节段重复约68 Mb,尽管这两类重复有重叠之处。

这次组装增加了3000多个新基因,其中包括大约150个蛋白质编码基因。片段重复的数量,也被称为低拷贝重复,从24097增加到41528。66.1 Mb被分配给了五个端粒中心染色体上的非常短的臂,它们可以包含核糖体DNA、卫星重复和片段重复,这些在之前的组装中基本上被忽略了。

Church说:“虽然我认为[T2T-CHM13]不仅仅是一种渐进式的改进,但我不清楚是否有能够采用它的工具。”“如果没有像GnomAD(基因组聚合数据库)或ENCODE这样的资源,我不相信我们会看到广泛采用该程序集。”她指出,虽然GRCh38是一个比它的前身更好的集合,但许多研究人员仍然使用以前的版本GRCh37。她说:“过渡到一个新的组装需要付出巨大的努力。”“这不仅仅是碱基序列的问题。”

如果不进行额外的研究,这两种工具都不能用于新的组件。“推测几乎所有(GnomAD和ENCODE)的数据都将来自短读测序实验,因此不容易映射到基因组的新重复区域,”Phillippy说。将GnomaD数据转移到新的参考文献中只会带来最小的好处,而在新的基因组区域中发现新的变异将需要更多的长读测序。“GnomAD是一个巨大的资源,在新的测序技术上重建它可能需要很长时间,”Phillippy说。vwin德赢ac米兰合作

同样,ENCODE数据也需要用新的方法进行复制,他说,但根据新的参考资料重新分析“可能会通过减少由不完整的CRGh38参考资料引起的偏差和其他错误来改善结果”,他补充说,T2T团队正在撰写一份直接解决这些问题的手稿。

新的基因组呈现为线性结构,所以现有的校准软件工具应该可以正常工作,Phillippy说。像许多其他资源一样,它包含的基因组内容主要与欧洲遗产有关。”如果你对已经存在的参考基因组感到满意,我看不出你需要改变过程的理由,”他说。“我们说的是可能有几百个基因受到改进的影响。”但在结构变异的研究中,等式发生了变化,他说:“我参与的大部分新的长阅读研究都计划使用它。”Phillippy他还指出,他与GENCODE团队(ENCODE项目的一部分,绘制蛋白质编码基因)的成员讨论了一项多年的努力,以策划新的基因组区域,并将其用于未来GENCODE版本。

菲利普和丘奇都认为,最终目标应该是多个阶段的基因组,代表来自世界各地的个体,这也是人类泛基因组参考联盟(Human Pangenome Reference Consortium)正在追求的目标。Phillippy说,一个具有不同的、阶段性的单倍型的无间隙基因组最快可以在一年内准备好,更多的有望很快跟进。

菲利普斯说:“一旦我们完成了这项工作,接下来的工作就会变得非常容易。”然后,有了多个参照基因组可供校准,生物信息学领域将真正需要对校准和变异调用的新方法做出回应。

他说:“让我们看看100个基因组是什么样子的,然后围绕它构建工具。”

扫描

对Theranos公司巴尔瓦尼的审判开始

据《华尔街日报》报道,辩方辩称,负责Theranos的是伊丽莎白·霍姆斯,而不是拉梅什·巴尔瓦尼。

寻找孩子

据美国有线电视新闻网报道,Moderna计划寻求批准其针对6岁以下儿童的SARS-CoV-2疫苗。

玉米传播的洞察

《纽约时报》写道,一项对古人类DNA的分析表明,玉米和农业技术可能是数千年前随着人们从南方迁移到玛雅地区而到来的。vwin德赢ac米兰合作

scGBS核酸研究论文,全局染色体重排模型,STRIDE

本周的核酸研究:单细胞基因分型测序方法,基于crispr的染色体重排研究方法,等等。
Baidu
map