首页 > 新闻快讯 > 文章详细

中山眼科中心肖传乐/刘奕志团队开发Nanopore测序数据新校正组装算法,并组装视网膜母细胞瘤的高完整度基因组

发布日期:2021-01-09   http://www.zgjsyw.com
导读:中山眼科中心肖传乐/刘奕志团队开发Nanopore测序数据新校正组装算法,并组装视网膜母细胞瘤的高完整度基因组中山眼科中心肖传乐/刘奕志团队开发Nanopore测序数据新校正组装算法,并组装视网膜母细胞瘤的高完整度基因组三代测序技术(Pa
  中山眼科中心肖传乐/刘奕志团队开发Nanopore测序数据新校正组装算法,并组装视网膜母细胞瘤的高完整度基因组

三代测序技术(PacBio和Oxford Nanopore)可解决基因组重复区域的组装难题,提高基因组完整性,已成为发育、再生、肿瘤和其它疾病过程中细胞基因组组装的主流技术。其中,纳米孔(Nanopore)测序技术的迅速发展更使得测序成本显著降低,并且由于其可实现超长读长(高达1Mbp),在复杂基因组组装中具有天然优势。然而,目前Nanopore的测序错误分布广泛(10-30%,图1A),存在高错误局部区域(1000bp中存在50%测序错误,图1B),并且高错误局部区域的发生随着测序读长增加而显著增加(图1C),从而导致超长文库数据中20-30%的序列存在高错误区域。现有的错误校正软件只能通过裁剪的方式剔除高错误局部区域,显著降低了Nanopore序列完整性和组装完整性。

 

图 1 Nanopore测序错误分布特征

最近,中山眼科中心肖传乐/刘奕志团队和王建新团队于2021年1月4日在Nature Communications杂志上联合发表题为“Efficient assembly of Nanopore reads via highly accurate and intact error correction”的研究论文,提出了Nanopore渐进式校正组装模型,开发了相应软件NECAT,应用于组装高完整度的视网膜母细胞瘤基因组,并发现了多个结构变异位点。

 

研究者提出了渐进式序列校正策略,首先选择高精度的序列校正错误率的区域(图2B),之后优选校正后高精度序列校正高错误局部区域,从而保证了序列校正速度和完整性(图2C);另外,研究者还提出渐进式组装策略,通过校正后高精度的序列组装基因组骨架(图2D),之后通过原始序列提升基因组完整度(图2E),从而保证基因组组装结果的正确性和完整性。研究者将上述模型开发了NECAT软件,开放给国内外其它科研人员,进行长达1年的体验提升。

 

图2 NECAT校正组装流程图

随后,研究者收集了多种模式生物Nanopore数据集进行性能测试,结果表明:NECAT校正后序列平均精度可达95-98%,可恢复原始数据中99%的高错误局部区域(HERS),从而保留了序列长度完整性(表1);NECAT组装完整性明显高于同类校正组装软件,且组装错误量显著低于同类软件。另外,研究者将NECAT校正结果与多个组装软件结合使用发现:NECAT校正结果显著提高其它Nanopore组装软件的组装质量。

 

表1 NECAT序列错误校正性能评估

最后,研究者完成了视网膜母细胞瘤Nanopore测序,并应用NECAT组装出了完整度较高母细胞瘤癌症基因组,通过组装结果发现了很多高精度结构变异(SV)位点,其很多位点都与目前实验报道和功能预测相符(图3)。与原始数据SV检测方法相比,NECAT组装结果检测SV精度显著高于目前SV检测方法。上述结果表明,通过NECAT序列校正,显著降低高错误区域所造成的SV假阳性结果。

 

图3 视网膜母细胞瘤基因组染色体图谱及SV位点

综上所述,本研究提出的渐进式校正组装方法可以有效解决了Nanopore复杂测序错误问题,显著提高了Nanopore数据组装完整性、正确性和数据利用率。另外,通过NECAT序列校正,可以有效降低高错误区域SV的假阳性。

原文链接:

https://www.nature.com/articles/s41467-020-20236-7

预约挂号注册

向全国无数位爱心医生提问
(病情描述不能少于10字)
健康小提示:注意不要长时间持续疲劳用眼,保护好您的视力.

特别推荐医院