ConStrains:一种可以将宏基因组中微生物种类鉴定到菌株的新算法

       近日,Nature子刊《Nature Biotechnology》在线发表论文,介绍一种名为ConStrains的新算法,可以将宏基因组数据集之中各种微生物的分类,高效准确地鉴定到菌株的层次。

目前大多数常用的宏基因组微生物多样性检测工具,只能将微生物鉴定到种(species)的水平,但这往往是不够的,因为同一细菌、真菌或病毒的不同株型,可能在功能上存在较大的差异。比如说,人肠道微生物中,相对无害的大肠杆菌和肠出血性大肠杆菌在物种水平上看起来很相似,但后者因为携带毒力因子,可以引起严重腹泻。要对宏基因组中微生物菌群有透彻的了解,就非常有必要了解同一种微生物不同菌株之间的差异,有的时候这比了解不同微生物物种之间的差异更为重要。目前已有的一些可以不通过纯培养将微生物鉴定到菌株水平的方法,都各自存在一些局限。比如说单细胞测序需要耗费大量精力进行细胞分离及悬浮,不适合大规模检测;HiC技术需要额外进行基于染色体交联的建库和测序;PathoScope、Sigma等计算方法,又强烈依赖于所研究菌株的参考基因组序列...

ConStrains(名字来源于Conspecific Strains,取“同一物种不同菌株”之意)算法,采用的是一种新的分析策略。微生物的不同菌株,其基因组中总有部分基因是高度保守的,这些基因的集合就叫“核心基因组”。不同菌株的核心基因组之间,也会存在单核苷酸多态性(SNP)。ConStrains算法的关键,就是通过检测核心基因组中各SNP位点各种碱基出现的频率,来推测不同菌株的丰度差异,以及某些特定基因的基因型。由于该算法只用到菌株之间共有的基因组部分,因此只需要知道所研究微生物物种的一个参考基因组就可以,不需要所有菌株的基因组。至于测序深度,一般每个样本测到10X以上就足够了。

通过模拟数据和数据库中实际宏基因组数据的检验,ConStrains都取得了较为满意的结果。其中一组涉及婴儿肠道微生物宏基因组的研究,对9个婴儿个体从出生到三岁共54个样本进行了分析,发现其中主要微生物物种虽然总体水平基本保持稳定,但菌株的丰度组成其实是在不断变化之中的,例如主要微生物——长双歧杆菌就是如此。这是以前没有发现的,可能和婴儿肠道从最初的适应乳汁/奶粉中糖类吸收到断奶后的变化有关。

ConStrains算法用python编写,采用全自动化流程,作为开源软件,所有从事宏基因组研究及微生物多样性检测的信息分析人员都可以下载使用。本论文第一作者,也是该算法主要开发者,是在美国麻省理工学院-哈佛大学联合成立的Broad Institute及麻省总医院任职的华人科学家罗程伟(音译)。

原文检索: 
Luo,C., et al. ConStrains identifies microbial strains in metagenomic datasets. Nature Biotechnology.DOI: 10.1038/nbt.3319 (2015).

本文由石忆湘博士整理