中山眼科中心肖传乐/刘奕志团队开发Nanopore测序数据新校正组装算法,并组装视网膜母细胞瘤的高完整度基因组
三代测序技术(PacBio和Oxford Nanopore)可解决基因组重复区域的组装难题,提高基因组完整性,已成为发育、再生、肿瘤和其它疾病过程中细胞基因组组装的主流技术。其中,纳米孔(Nanopore)测序技术的迅速发展更使得测序成本显著降低,并且由于其可实现超长读长(高达1Mbp),在复杂基因组组装中具有天然优势。然而,目前Nanopore的测序错误分布广泛(10-30%,图1A),存在高错误局部区域(1000bp中存在50%测序错误,图1B),并且高错误局部区域的发生随着测序读长增加而显著增加(图1C),从而导致超长文库数据中20-30%的序列存在高错误区域。现有的错误校正软件只能通过裁剪的方式剔除高错误局部区域,显著降低了Nanopore序列完整性和组装完整性。
图 1 Nanopore测序错误分布特征
最近,中山眼科中心肖传乐/刘奕志团队和王建新团队于2021年1月4日在Nature Communications杂志上联合发表题为“Efficient assembly of Nanopore reads via highly accurate and intact error correction”的研究论文,提出了Nanopore渐进式校正组装模型,开发了相应软件NECAT,应用于组装高完整度的视网膜母细胞瘤基因组,并发现了多个结构变异位点。
研究者提出了渐进式序列校正策略,首先选择高精度的序列校正错误率的区域(图2B),之后优选校正后高精度序列校正高错误局部区域,从而保证了序列校正速度和完整性(图2C);另外,研究者还提出渐进式组装策略,通过校正后高精度的序列组装基因组骨架(图2D),之后通过原始序列提升基因组完整度(图2E),从而保证基因组组装结果的正确性和完整性。研究者将上述模型开发了NECAT软件,开放给国内外其它科研人员,进行长达1年的体验提升。
图2 NECAT校正组装流程图
随后,研究者收集了多种模式生物Nanopore数据集进行性能测试,结果表明:NECAT校正后序列平均精度可达95-98%,可恢复原始数据中99%的高错误局部区域(HERS),从而保留了序列长度完整性(表1);NECAT组装完整性明显高于同类校正组装软件,且组装错误量显著低于同类软件。另外,研究者将NECAT校正结果与多个组装软件结合使用发现:NECAT校正结果显著提高其它Nanopore组装软件的组装质量。
表1 NECAT序列错误校正性能评估
最后,研究者完成了视网膜母细胞瘤Nanopore测序,并应用NECAT组装出了完整度较高母细胞瘤癌症基因组,通过组装结果发现了很多高精度结构变异(SV)位点,其很多位点都与目前实验报道和功能预测相符(图3)。与原始数据SV检测方法相比,NECAT组装结果检测SV精度显著高于目前SV检测方法。上述结果表明,通过NECAT序列校正,显著降低高错误区域所造成的SV假阳性结果。
图3 视网膜母细胞瘤基因组染色体图谱及SV位点
综上所述,本研究提出的渐进式校正组装方法可以有效解决了Nanopore复杂测序错误问题,显著提高了Nanopore数据组装完整性、正确性和数据利用率。另外,通过NECAT序列校正,可以有效降低高错误区域SV的假阳性。
原文链接:
https://www.nature.com/articles/s41467-020-20236-7