600字范文 > 干货 | 微生物16s测序相关问题详细解答

干货 | 微生物16s测序相关问题详细解答

时间：2021-01-14 23:01:12

虽然还没开学，但是勤快的小伙伴们已经开始着手准备文章。针对近期咨询的一些问题，我们做个相关解答的总结，在帮助同学解决问题的同时，也希望给更多同学带来一些参考。

从数据到结论（实例数据走一遍）

很多同学一拿到报告，首先想知道数据怎么样，分组结果好不好，图表那么多应该怎么看？......

这里就选取几个我们已测序数据中的微生物16s多样性的例子带大家一起来看看，重要的并不是看别人的结果，而是学会根据已有图表得出相应结论的过程。【从土壤、水体、粪便（动物和人）各选取一篇进行解读】。

案例一：土壤样本

7例稻田土壤样本项目，其中P1-P6来自于某稻田，P7来自某地污染稻田

从属水平样本菌群构成柱状图可以看出，样本间的菌群构成主要包括Haliangium、Anaeromyxobacter厌氧粘细菌、Geobacter地杆菌属、Anaerolinea 厌氧绳菌属、Gemmatimonas 芽单胞菌属、Pirellula小梨形菌属。

从beta多样性分析pca图和pcoa图可以看出，P7和P1-P6的样本距离较远，样本之间的距离远近关系符合不同样本间群落构成相似性聚类。P7来自某地污染稻田明显离其他来自某稻田样本距离较远。

从聚类热图（下左图）的样本间聚类关系也能验证这一点。

FAPROTAX是基于目前对可培养菌的文献资料手动整理的原核功能注释数据库，可以对生态功能进行预测，适用于生态环境研究。

从热图分析（上右图）可以看出，在硫化物呼吸、化能异样、硝化作用等功能上比较突出。

案例二：水体样本

6例水体样本项目，分为对照组和实验组两组。

属水平样本菌群构成柱状图可以看出，样本间的菌群构成主要包括Zoogloea 菌胶团、Desulfovibrio 脱硫弧菌属、Bacteroides 拟杆菌属、Paludibacter 等。

Zoogloea是一种特殊的细菌细胞状态，Zoogloea由多糖组成，有时含有含氮化合物的混合物。它仅在一些（主要是水）细菌中固有。

pca图pcoa图

从beta多样性分析pca图和pcoa图可以看出，组间分割较开，差异比较明显。

从组间差异箱型图可以看出，在属水平上，物种Azospirillum、Phenylobacterium、Reyranella、Bosea、Pleomorphomonas等在组间差异性较大。

FAPROTAX对生态功能进行预测，适用于生态环境研究。从热图分析可以看出，在氮呼吸、硝酸盐还原、硝酸盐呼吸、反硝化作用等功能上比较突出。

案例三：动物粪便样本

26例大鼠粪便样本项目，分成4个对照组。

属水平样本菌群构成柱状图可以看出，样本间的菌群构成主要包括：Akkermansia、Bacteroides 拟杆菌属、Oscillospira 颤螺旋菌属、Desulfovibrio 脱硫弧菌属、Ruminococcus 瘤胃球菌属、Coprococcus 粪球菌属、Faecalibacterium 粪杆菌属、Streptococcus 链球菌属等常见的肠道菌群菌属。从对比也可以看出动物肠道样本个体之间的差异性较大，增加了多组间比较差异性的复杂度。

从基于Bray-Curtis距离的Pcoa图可以看出，PC1向量的p值为0.11，PC2向量的p值为0.086，P值大于0.05，不能从单一因素PC1 PC2方向上反映组间的差异性，可以从LEfSe线性判别分析挑选分组组内的标记物。

Lefse基于线性判别的分析方法，其将线性判别分析与非参数的Kruskal-Wallis 以及Wilcoxon秩和检验相结合，从而筛选组与组之间生物标记物Biomarker。

从图中可以看出，其中蓝色组相较于其他分组具有独特性的生物标记物是S24_7，红色组的生物标记物是Roseburia，绿色组的生物标记物是Lactobacillales、Streptococcaceae、Streptococcus、Legionellaceae、Legionella、Lactococcus、Bifidobacteriaceae。

案例四：人粪便样本

48例个人粪便样本项目，分为健康人与某癌症患者之间比较。

属水平样本菌群构成柱状图可以看出，样本间的菌群构成主要包括：Bacteroides 拟杆菌属、Faecalibacterium 粪杆菌属、Subdoligranulum、Lachnoclostridium、Roseburia 氏菌属,等常见的肠道菌群菌属。

从beta多样性PCA和Pcoa图可以看出健康人和某癌症患者区割较为明显，PC1向量上p值小于0.05两组差异显着。

Lefse基于线性判别的分析方法，筛选出健康组的生物标记物是Lachnospira、Lachnospiraceae_UCG_004、HQ815889_g

根据组间物种差异性箱型图可以看出，属水平上两组之间具有差异显着的物种是：Actinomyces、Atopobium、Bacteroides、Alloprevotella、Lactobacillus、Streptococcus等。

从Anosim检验（下左图）可以判断，R-value大于0，说明组间差异大于组内差异，P值小于0.05说明组间差异大于组内差异。

从ROC曲线（上右图）可以看出，两组AUC都大于0.5并且接近于1，说明诊断效果较好，两组分组情况较为明显。

基于Bugbase对16S高通量测序进行表型分类预测比较。从结构可以看出，在好氧菌水平上，健康组要低于某癌症患者。厌氧菌水平，健康组要高于某癌症患者。潜在致病性水平上，某癌症患者要高于健康组。

以上是这些例子中的图表分析解读，可以从什么图表得出什么样的结论相信大家已经有所了解。

当然了解归了解，实操过程中还会有些问题出现，那么接下来，针对项目过程中，大家遇到的一些问题进行相关整理解答。

问题梳理

数据质量问题

这是拿到结果报告之后第一时间需要了解的。

1、如何判断测序质量是否合格？

原始的Tags数据会经过质控、过滤、去嵌合体，最终得到有效数据（Effective Tags）。所以在判断测序质量是否合格时应该从几个方面去判断。

打开我们的报告中这个文件：01_sequence_statistic/sumOTUPerSample.txt

看表

首先判断下机数据tags和有效数据 clean tags 的数据量是否满足测序要求，一般下机数据量达到3万条reads以上满足测序需要，谷禾16s样本的测序深度可以达到10万条reads左右。如果数据量不够则需要重新补测样本。

通过观察嵌合体数chimras 和嵌合体所占百分比chimeras%，可以反应出有效序列的转化率，嵌合体的比例越小序列的利用转化率就越高。

看图

根据稀释曲线可以判断测序深度是否达到饱和，如图中曲线都逐渐趋于平缓（下左图），就证明样本的测序深度基本覆盖能测到的该样本所有的物种，测序深度比较好。下右图部分样本曲线较陡，未趋于平缓，测序深度不够。

同时曲线趋于水平纵坐标的高低也能够反映各样本的微生物多样性情况，曲线越高，证明测到的物种种类越多，样本的微生物多样性就越高。

图表解读类问题

在了解数据质量合格之后，小伙伴又会关心样本重复性如何，不知道如何利用这些数据结果来看。

2、如何了解分组内部的多个样本的重复性以及多样性情况？

观察分组内部多个样本的重复性如何，这里教你几招，不管任何报告，首先你要做的应该是找到以下的图表数据：柱状菌属构成图，β多样性，α多样性

看柱状菌属构成图

首先在各分类水平的柱状图的菌属构成来看

从构成图来看，Flu组和ZW3.7组，组内样本重复性较好。Ctrl组中Ctrl.2明显区别于组内另外两个样本，可以去掉该样本。而ZW3.8组内样本间差异性较大。

比如人体肠道或小鼠肠道样本本身个体差异性较大，菌群结构组成复杂，即便通过不同疾病的分类的样本，仍然会有营养饮食、代谢以及环境的因素影响，都会改变肠道菌群的构成，所以有可能组内样本间差异性会比较大。而经过单因素处理的样本组内差异会比较小。

所以在前期实验设计时，尽量选择同一批次相同处理的小鼠或其他样本，避免组内差异的影响。

TIPs

预留好多余的样本，比如组内只有3个样本，如果去掉一个差异性较大的样本，一个分组内只有2个样本，会影响后续组间差异比较，组间差异性比较分析每组要至少要3个样本。

看beta多样性分析

通过beta多样性分析PCA,PCoA,MNDS 也可以大致观察组内样本重复性情况，左图组内样本重复性较好，右图组内样本间差异性较大，两组间的区割不是很明显。

在加圈图的beta多样性分析中，右下角有给出PC1和PC2的P值，小于0.05则差异显着。

看Alpha多样性分析

Alpha多样性是针对单个样品中物种多样性的分析，包括chao1指数、ace指数，shannon指数以及simpson指数等。前面4个指数越大，最后一个指数越小，说明样品中的物种越丰富。

chao指数和ACE指数反映样品中群落的丰富度（species richness），即简单指群落中物种的数量，而不考虑群落中每个物种的丰度情况。

而shannon指数以及simpson指数反映群落的多样性（species diversity），受样品群落中物种丰富度（species richness）和物种均匀度（species evenness）的影响。相同物种丰富度的情况下，群落中各物种具有越大的均匀度，则认为群落具有越大的多样性。

稀释曲线是利用已测得序列中已知的各种OTU的相对比例，来计算抽取n个（n小于测得Reads序列总数）Tags时各Alpha指数的期望值，然后根据一组n值（一般为一组小于总序列数的等差数列，本项目公差为500 ）与其相对应的Alpha指数的期望值绘制曲线。

3、怎么看不同的样本之间差异？不同分组之间能否用菌群差异来区分？

看随机森林分类效果图

观察不同分组间差异的大小可以观察随机森林分类效果图。

路径在07_diff_analysis/RF。图中以该分类水平下选取用于区分不同分组间的差异性起到关键性影响因素的物种作为标志物作图。标志物按重要性从大到小排列，图中随机森林值error rate 表示用随机森林方法预测分组之间的错误率，分值越高代表所选取的标志物准确度不高，并不能很好的用于区分各分组，分组差异不显着。分值越低证明分组效果比较好。

上图中的随机森林按照门和属以及代谢途径分别进行分析作图，各自都有单独文件，报告中仅给出了一个图，其他文件需要到目录中查看。可能存在门或属区分效果不佳，但是代谢途径区分效果较好。

随机森林筛选出来的物种是用于区分所有分组的重要标志。分值越高代表该物种用于区分所有组之间的重要性越大。

4、随机森林分类树中 “Error rate”？Error rate多少才算高，行业内是否有标准？

这个主要看最终ROC的结果，一般ROC大于0.7表明可以区分，大于0.85为较好效果，大于0.95以上为非常理想。error rate和ROC差不多。

5、ROC曲线图用于判断诊断的准确性。（属水平）ROC曲线图诊断标准是什么？

ROC使用的是randomforest方法，该方法有特征重要性预测，会根据特征均属对模型准确性的提升来评估选择的特征。与LeFse不一定相同。

工具类问题

提到LEfSe，一系列问题来了，那么这里就针对LEfSe的问题做一个整体解答。

6、LEfSe分析是什么？

LEfSe分析即LDA Effect Size分析，是一种用于发现和解释高维度数据生物标识（基因、通路和分类单元等）的分析工具，可以进行两个或多个分组的比较，它强调统计意义和生物相关性，能够在组与组之间寻找具有统计学差异的生物标识（Biomarker）。

简单来说，这个分析主要是想找到组间在丰度上有显着差异的物种。

两图一表

分析结果中一般有两个图，一张表（ LDA值分布柱状图、进化分支图及特征表）。

LDA值分布柱状图

该图展示的是LDA score大于预设值的显着差异物种，即具有统计学差异的生物标识，默认预设值为2（只有LDA值的绝对值大于2才会显示在图中）。

颜色代表各自的组别，长短代表的是LDA score，即不同组间显着差异物种的影响程度。

进化分支图

小圈圈: 图中由内至外的很多小圈圈代表了由门至属的分类级别（最里面是从界开始）。不同分类级别上的每一个小圈圈代表该水平下的一个分类，小圈圈的直径长短代表了相对丰度的大小。

颜色: 无显着差异的物种统一着色为黄色，差异显着的物种Biomarker跟随组别进行着色，红色节点表示在红色组别中起到重要作用的微生物群，其余颜色各代表该颜色组别中起重要作用的微生物群。不在图中显示的Biomarker对应的物种名会展示在右侧。

特征表

Biomarker_names：Biomarker生物标识名称；

Logarithm value：各组丰度平均值中最大值取log10的值，如果平均丰度小于10的按照10来计算；

Groups：样本分组名称；

LDA value：LDA值；

Pvalue：Kruskal-Wallis秩和检验的p值，非Biomarker用 “ - ” 表示。

7、LEfSe分析筛选出的组间差异标记物和Marker筛选出组间显着差异物种有什么区别，为什么不一致？

LEfSe分析是选取组间差异标记物。分组中对应的标记物，是该分组中普遍存在的物种，丰度明显高于其他分组，是该分组用来和其他分组进行区分的标记物的作用。

Marker中的筛选出的物种是相对含量在组间存在显着性差异就可以。

是两种不同的差异分析，原理也不一样，所以筛选出来的物种不一致。

8、LEfSe分析为什么有时候只分析了部分分组，或没有出图，是没有分析完全吗？

LEfSe分析是针对所有组别进行分析的，若分析图的结果中中只有部分分组，是因为只有部分分组有组间差异的标记物，而没有展示的部分则没有。

而没有出图则证明所有分组中都没有找出组间差异的标记物。

9、不同图的统计检验是怎么做的，代表什么意义？

LEfSe基于线性判别分析（Linear discriminant analysis，LDA）的分析方法，其将线性判别分析与非参数的Kruskal-Wallis 以及Wilcoxon秩和检验相结合，从而筛选组与组之间生物标记物Biomarker，即组间差异显着物种。

组间物种差异盒形图是通过Kruskal-Wallis、Var检验和单因素方差分析one-way相结合，筛选出组间差异性物种。

随机森林分析使用R包“randomForest”默认设置比较组间差异。

基于R包“VennDiagram”生成Venn图，将样本间或组间共有和独有的OTUs可视化。

软件操作类问题

还有些小伙伴希望单独修改分组或对某些组之间进行显着性差异分析，亲自操作一把的机会到了！

可以使用STAMP软件在自己的电脑上进行数据分析。STAMP提供了丰富的统计检验方法和图形化结果的输出。

但是关于STAMP的使用，需要注意一些问题，这里帮你整理了一些问题，避免翻车。

10、STAMP软件相关问题解答

首先在使用STAMP之前需要首先准备需要的spf格式文件和样品分组信息表，但是如果数据不会处理，也会有诸多不便。

不过没关系，在我们的报告中已经将KEGG和KO以及COG的结果文件后经过转换生成了适用于STAMP软件打开的spf格式文件，还有对应的分组信息表文件groupfile.txt。

1、STAMP 软件load 文件报错，unknown parsing error，如何解决？

这个一般是文件或软件路径中有中文，需要全英文路径。要注意查看文件或软件所在位置哦~

2、STAMP作图时用的原始数据来自哪里？

STAMP 可以直接使用来自QIIME的biom文件和PICUST的KEGG和ko 文件，groupfile.txt文件的格式为tab-saperated value (Tab键隔开的数据)

3、分组问题？

导入数据之后，viewàgroup legend ,在窗口右侧会出现分组栏，根据需要进行分组。

4、Unclassiffied选项中，remain Unclassiffied reads、remove Unclassiffied reads、和use only for calculating frequency profiles 方法的区别？

remain Unclassiffied reads和use only for calculating frequency profiles方法会保留所有的数据，而remove Unclassiffied reads仅仅保留有确定分组信息的数据。

5、Statistical test 中，Welch’s t-test、t-test、white’s non-parametric t-test的区别，各自优缺点？

为了确保统计学意义和准确度和精确性，需要足够多的样本数目，t-test检验可以在最少样本数为4的时候确保高的准确度和精确性。

当两个样本之间具有相同方差的时候，用t-test更为准确，当两个样本没有相同方差，Welch’s t-test更为准确。

当样本数目少于8的时候，可以使用white’s non-parametric t-test，该计算时间较长，当样本数目过多的时候不宜使用该方法。

6、Two-group 中 type: one side和two side的区别？

One side 只会显示前一个group与后一个group差异的比例，而two side 两者之间的比例均会显示。

7、STAMP在使用时首先打开了一个分析文件，如果新打开一个可能会导致显示错误？

目前版本的STAMP存在一些小问题，一次分析只能使用一个数据文件，如果要打开新的需要关闭软件后再打开。

详细的STAMP使用教程可以参考我们提供的STAMP使用教程。

以上是拿到数据之后的一些问题集合，但是有同学在测序前期的实验准备时已经开始有些疑惑了，我们来看下。

测序前期准备问题

在本文第一小节案例讲解时，我们发现有些图看起来比较美观，这除了与作图样式有关，更离不开的是数据本身。而数据结果本身是否理想与实验中很多因素有关，比如说取样、环境等。

11、如何取样比较好？有没有什么标准？

这就需要看你做的是什么类型的样本。

① 粪便样本包括肠道内容物：我们提供专门取样盒（免费）。人、大鼠、猪等，直接用取样盒里的棉签沾取约绿豆至黄豆大小的粪便至粪便保存液即可。颗粒状粪便，如小鼠，可根据粪便大小取几颗至粪便保存液即可。

备注：取样盒里有详细的粪便取样操作说明。

②人或者动物其他部位：例如口腔，鼻腔，阴道等：我们提供专门取样盒（免费）。取样方式也是用棉签沾取相应部位菌至保存液。但是根据研究项目，取样部位以及方式略有不同，这个不能一概而论，特殊项目最好单独咨询便于提供最佳方案。

③土壤，底泥水，污泥：需要5-10g的鲜样，土壤，底泥样若有沙石等需要先过筛后再送样。

④水体样，包括河流，湖畔，自来水等：需要先过滤膜，根据水体中含菌量选择一定体积的水体过滤膜，如自来水，一般需要5-15升水过滤膜，然后将滤膜送过来即可。

⑤ DNA：浓度不低于5ng/ul, 总体积不少于40ul。建议3-12个重复。

12、应该做多少个生物学重复？

关于生物学重复的数量问题，这里给一个大致的范围，当然如果各位有钱，请自行忽略这个问题。

一般来说，粪便样本（包括人、动物等，也包括肠道内容物）建议5-25个生物学重复。其他诸如土壤、水体、DNA等建议 3-12 个生物学重复。

13、测序平台选择问题

16s测序可选择的测序平台有很多，不同平台从读长、测序区段等方面看各有所长。拿最常见的Illumina平台来说，理论上有很多平台都可以用：HiSeq2000、MiSeq、HiSeq2500、HiSeq4000和NovaSeq平台等。

不过目前像HiSeq2500应用于这方面的测序已经不多了，HiSeq 4000也是个别，HiSeq2000就更不用说了。

所以能拿来讨论的也就是 Miseq 和 NovaSeq。

Miseq平台：应用于16S的一般有PE250/PE300两种，可以检测2-3个可变区。

缺点：数据质量偏低（PE250 Q30 ≥ 75%，PE300 Q30 ≥ 70%），测序价格偏高等。

Novaseq平台：相对于Miseq，在相同的价格下，数据量大幅提升，稀有物种的检出率明显提高。

14、可变区如何选择？

目前16s测序主要的测序区段包括V4、V3V4，V1V2，V6，此外还有全长等不同的区段选择，不同可变区或全长由于引物的不同以及不同种属相应区段内的变异多样性差异，对菌属的丰度评估会有一定的差异。

主流的可变区选择是V4区和V3V4区，V4区长度为256bp左右，加上两侧引物长度为290bp左右，使用双端2x250bp或2x150bp可以测通，此外如454、life、Illumina Hiseq 4000的测序平台读长也可以主要涵盖该区段读长。

例如采用Illumina Hiseq测序平台对该项目进行双端测序(Paired-end)，测序得到了fastq格式的原始数据（样本对应一对序列S_1.fastq和S_2.fastq）。再配对拼接成单条序列。其引物通用性相对是所有可变区中最高的，大量的大规模菌群调查研究都采用V4区作为检测区域，包括人体菌群研究如：HMP，肠道菌群如美国肠道计划AGP，欧洲的FGFP等，以及全球土壤菌群调查，目前仍然是国际研究中使用最广泛和认可的检测区域。

Illumina的Miseq提供了长达2x300bp以及Hiseq2500和最近的NovoSeq提供有2x250bp的测序方案。为进一步利用读长，目前有相当一部分研究选择V3V4区，该区段长度在460bp左右，相较于V4度多出了V3区段约100bp左右的片段，在少部分菌属中可以增加一定分辨率。

经过对比，V3V4区的检测结果和V4区在绝大部分菌属中的丰度一致，但由于引物不同，在少量菌属中丰度会有不同偏向，V3V4从OTU层面上并未发现较V4区有明显增加。引物的选择和提取、储存方法是影响菌群检测丰度构成的主要因素，不同研究之间的比较需要考虑到实验方案的一致，相同的方案可以直接比较。

目前的高通量测序平台可以较低成本的进行大规模的测序，从测序深度角度，土壤菌群的多样性最高，一般需要5万条以上序列可以达到饱和，肠道样本在3万条以上，水体和尿液等1万条以上基本可以到达饱和。

有同学关于测V3V4还是V4有些犹豫，会咨询我们。我们可以提供一些数据分析，其他的还是由你来决定。

以下是同一批小鼠粪便样本V4（10万 clean reads）和 V3V4(5万clean reads)测序数据比较:

原始序列数据

V4（下表）

V3V4（下表）

以上两表是对原始序列数据进行统计，表中可以看出有效序列tags、高质量序列clean_tags、OTUs数量 V4区都远高于V3V4区。V4区测序获得下机数据在13万条左右，V3V4区测序获得的下机数据在5万条左右。

α多样性指数比较

V4（下表）

V3V4（下表）

以上两个表分别是对alpha多样性指数计算的结果比较。

在前面我们也了解过，chao1 指数和ace指数是用来评估样本中所含OTU 数目的指数。从chao1 指数和ace指数可以看出，用 V4测序获得的结果要明显大于V3V4的结果。这是因为V4测序通量更高，测序深度更好，每个样下机的测序数据可以到10万条以上，一般在13万条左右，所以经过序列比对获得的OTU数目更多，相比较用V3V4测序每个样下机的数据大约在4到5万条左右，经过序列比对获得的OTU数目相对少一点。

shannon指数和simpson指数是用来评估菌群的丰富度和均一度的。从shannon指数和simpson指数，用V4和V3V4测序指数相差不大，或V4比V3V4略高一点，证明两种测序之间菌群的丰富度多样性和均一度较接近。

物种主要构成比较V4（下表）

v4属水平前10个物种构成：lactobacillus、akkermansia、helicobacter、allobaculum、desulfovibrio、adlercreutzia、odoribacter、bacteroides、prevotella、[prevotella]

V3V4（下表）

V3V4属水平前10个物种构成：lactobacillus、adlercreutzia、flexispira、allobaculum、desulfovibrio、prevotella、odoribater、oscillospira、[prevotella]、bacteroides

从前10个物种构成来看，有8个是相同的，物种的主要构成基本一致，测序的稳定性较好。从种类来看，V3V4测到的属水平个数稍多一点。

各分类水平鉴定到的物种种类比较

V4（下表）

V3V4（下表）

以上两张表代表了每个样本在各分类水平上鉴定到的物种种类数。从整体上来看，分别用V4和V3V4测序得到的数据，在各分类水平上鉴定到的物种个数相对比较稳定和接近，（尤其在目水平和科水平上）。用V3V4测序获得的物种数比V4相对稍多一点，但是在属水平和种水平则反而是V4更丰富，最终鉴定到的物种个数也跟该样本的测序质量有关。

以上列举的种种问题解答或许能满足大部分同学的问题，当然还有些更有想法的同学，经沟通之后，希望重新分组或者做成一些更加个性化的图表。那么我们也会竭尽所能帮助完成。

以下是个性化图表的展示和简单介绍。

丰富多样的个性化图表

Gephi

Gephi是一个可多平台使用的绘图软件，能在Windows，OS，Linux上使用，它是基于java开发的, 其主要用于各种网络和复杂系统, 特别是在处理网络关系数据这方面有一定优势。

物种进化树的样本群落分布GraPhlan 图

该图将不同样本的群落结构及分布以物种分类树的形式在一个环图中展示。使用 GraPhlan 结合 OTU Table对一个分组所有样本的 OTU 物种注释结果进行总体展示，便于看出优势菌种。

样本-物种丰度关联circos弦装图

该图是一种描述样本与物种对应关系的可视化圈图，该图不仅反映了每个样本的优势物种组成比例，同时也反映了各优势物种在不同样本之间的分布比例。

Ternary三元相图

通过三元图可以展示出不同物种在分组中的比重关系。