宏基因组测序中短序列的注释

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

宏基因组中短底列的注释是理解测序微生物群落潜在功能的重要步骤之一。

单纯利用局部匹配的注释容易混淆那些蛋白同源性且局部序列非常相似的序列,进而不能真实准确反映复杂蛋白质家族中多变的结构和功能域。

今天我们介绍一种新方法MetaGeneHunt，该方法可以识别特定的蛋白质结构域,并根据结构域的长度对hit-counts进行标准化。

使用MetaGeneHunt对MG-RAST对公开获取的宏基因组进行分析，包括哺孚⑻物微生物群和Twin Gut肠道菌群研究，以评估短
序列中含GH蛋白的频率和位于GH区域的匹配频率。

在对糖苗水解酶(GHs)的研究，发现在所有样本中4726,023条含有GH 区域蛋白匹配的短读序列中，有58.3%的廂列位于目标区域之外。

接下来，在比较样本之前，将匹配到目标区域的hit-counts 标准化,以说明对应的域长度。

肠道和盲肠中的菌群显示出与不同微生物组合相匹配的GH谱特征。

相反，胃和结肠的菌群在结构和功能上显示出更多样性和多变性。

在样本中，尽管有波动，但碳水化合物处理的潜在功能变化与群落组成的变化相关。

这表示，在利用MG-RAST平台处理宏基因组测廂寤列时，MetaGeneHunt是一种能快速准确地识别短序列宏基因组中离散蛋白结构试的新方法。

在过去的几十年里，宏基因组DNA的高通量测序已经产生了大量的廂列，这些序列的特征为我们了解微生物群落的结构和功能提供
了许多认知。

例如，截至2019年12月，MG-RAST托管了约40 万个可公开访问的带注释的数据集。

在数据处理过程中，不考虑目标区域（或蛋白质）的长度会导致两个主要的系统偏差。

首先，目标区城越长，他们的频率就越容易被高估。

其次，如果数据处理涉及稀疏性r较短的、不太丰富的域，尽管重要,也可能被丢弃。

为了解决这些问题，研究人员设计了MetaGeneHunt来精确注释从MG-RAST检索到的短序列宏基因组中的蛋白质结构域。

MetaGeneHunt将MG-RAST提供的短陰列局部比对与M5nr数据库中精确的基于PFam的蛋白质结构域识别相结合，以在公共可访问数据集中识别蛋白质结构域。

方法
MetaGeneHunt 简要说明：MetaGeneHunt 的设计基于MG-RAST 平台注释的数据集的。

在使用GeneHunt创建的M5nr数据库中，MetaGeneHunt使用了糖昔水解酶和辅助结构域（如CBMs）的精确的
特定结构懺注释（PFam）作为参考注释表（RAT）。

首先，MetaGeneHunt使用MG-RAST应用程序接口从MG-RAST （"330"和"650〃文件）检索M5n「注释的宏基因组。

接下来，使用来自RAT的注释命中的MD5id ,在文件"650"中识别与潜在的GHs匹配的序列。

接下来，对于这些局部匹配”将精确对齐位置与RAT中特定于域的注释进行比较。

如果查询中的＞20AAs与特定的蛋白质结构域（考虑到RAT中的HMM・envelope位置）对齐，则该结构域注释被转移到查询中。

相反，如果查询的〉20AAS匹配在目标区域之外（例如，在连接域、辅助域、信号肽中），则该注释被认为是否定的。

用户可以随意修改重叠（overlapping ）的阈值。

接下来，从序列聚集文件（"330〃文件）中检索每个识别出的命中的实际序列计数。

最后，在后续的数据处理和标准化过程中，根据Pfam数据库中蛋白质结构域的大小，对每个蛋白质结构域的命中计数进行标准化。

方法验证：文中使用的原始数据和预处理数据可在MG-RAST服务器上公开访问。

在mgp20861项目中可获得对应于〜555百万个100 bp序列的小鼠微生物组数据。

使用MG-RAST API检索了哺孚⑻物微生物组数据（nigpll6 ）和双肠肠道菌群硏究（mgplO ）其他数据集。

哺乳动物微生物组研究糖苗水解酶（GHs ）和相关酶的附加注释表是从Brian Muegge （直接对应）获得的。

使用MG-RAST API检索了预处理的数据，包括从门到属水平的读物分类注释。

数据分析和统计使用R 统计语言。

主要结果糖莒水解酶的识别识别蛋白质结构域并考虑其长度产生了一个健壮的功能注释系统，对hit-count的标准化反应了目标区域的实际分布。

a ） .横轴为目标区域的原始hit-count ,纵轴为标准化后的hit-count, 图中
的颜色阶梯表示目标区域的长度。

这种标准化主要影响长度短的域（例如,GH78、GH25）、小的亚域（例如,GH31N 、GH36C ）和目标区域的附属域（例如，CMB5J2）O
b ） .小鼠胃肠道中目标区域的标准化后的hit-count （仅显示大于100 的hit-count 的区域），可见，标准化后的hit-count 与结构域长度无关（附
加文件中有对两者做相关分析，结果分别为P.pearson=0.38 ,
P.spearman 二0.33 ）
GH43- GH13- GH88- GH29- GH3C- GH130- GH3- GH28- GH2N ・ GH31- GH5- GH2C ・
厂 1 • ■ ■ ■ ■
• ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■
■ • • ■ * ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ MB ■ ■■ iM ■ ■■ • ■ ■ ■ ■ • ■ ■ ■
■ ■—
■ BV ■—■
>1 r-j ■
■ ■ ■ ■ ■
II
■
■ ■ ■ ■
■
■
■ 1 1.
■ ■ ■ ■
■ ■
■ ■
■■
O
■■
M L F:L M2 F:L F M3M L
'M ? F ：C
M5 M S M2
F:S M3M S M8 F:l M5ML M3 M I M2 F:l M5M I M6 M I M5 M C MS F:S M8 F ：C M3 M C M6 M C
Normalized Hit Count 5000
10000
a
a
Sex • Female ▲ Male Location
Cecum • Intestine E Colon
b
GH 27
L33 (Raw fl count)
GH125
CoLmnZ-Sarc
CBM4/9 GH42 GH4 GH4C GH42M
gpe.C
G 心4
Domain Length <AAs)
800 600 400 200
UHV 4
3$
GH®
GH 、孑 GHb«O
GH11
QK
G H «
(OGeaJOcPOU.W
Gaia:
3八 1
G
粼
GH63 GH42C CBM48 GH24 GH66 GH39
c）.热图显示了小鼠胃肠道中最受样本来源影响的被稀疏标准化的GH区域的分布（two-way方差分析）。

纵轴的注释列Mx:F/M:S/l/C/L 分别表示小鼠（样本号）雌性/雄性:胃/肠/盲肠/结肠小鼠肠道菌群的结构，与盲肠中的微生物群落相比，结肠与肠道中的微生物群落结构更相似結肠和胃中的微生物群落有较高的相似性。

43 42
刚 MDS 1 M 3祸樓恥
a ） .对受样本来源影响较大的样本根据属水平进行样本聚类（Bray-Curtis 距离指数,complete linkage ）。

b ） .样本间的微生物群落组成，只展示了相对丰度至少占群落中1 %的属
水平物种（V:疣微菌门,B:拟杆菌门,A:放线菌门，F:厚壁菌门）。

匚
&5
S2SS
Gonus (Phylum)
50
(％
) AO&H0Q 匸
Akkermansia (V) Alistipes (B) Bacillus (F) Bacteroides (B) Bifidjbaderium (A)
Blautia (F) Bryantella (F) ButyrMbno (F) Clostridium (F) Doroa (F) Eubacterium (F) HokJemama (F) Lactobacillus (F) Pa 阳
bacteroides (B) Porphyromonas (B) Prevotella (B) Roseburia (F) Ruminococcus (F) Turidbacter (F)
.2
Phyljnn
Eubaaenum Clostridium
Ruminococcus Blautia \ Dorea
Rosebur^K
Parabacteroides
Porphyromonas
cteroid^s
Intestne Cecum [fl Colon
b 75
25
s O
_i —
S
S
Biftdobactenum (MDS2=0.23)
Turidbacter (MDS2=0.35^
Actinobactoria Lactobacillus •
Bacterodetes Flrrhcules Holdemania
Prevoteila Stomach
Butyrivibrio
Akkermansia
ProteoOactoria Vorruoomicroba
c) .NMDS 分析(2D stress=0.020),展示了在样本聚类中都存在的这些菌
属,在b)中的主要类群用标签指示，不同门水平按颜色区分，点的大小反映该属在样本中的最大频率。

微生物组中的结构■功能关系, 多样性仍然与潜在功能高度相关。

胃和盲肠的群落在结构和功能上是最多样化的。

其次，肠道中的群落组成和功能大多是保守的，而与保守的微生物群落相关
的大肠则显示出可变功能潜力。

AO
△
20 o
(e 」e _E
一
SSQs 一
Mo-Aem 閹
Aqed)
0.05-
山口 □口
0.00-
0 Stomach (九5= 0 82 PpyVO 01)
△ Intestine (R PoafSor = 0.73. P P ^<0.001) ® Cecum (R Pearscn = 0.89, P^<0.001)
□ Colon (Rpag= 0.56. P PMrscn <0.01)
0.0
0.1 0.2
Microbial Community Structure (Pairwise Bray-Curtis Dissimilarity)
0.3
对同一位置的样本的微生物群落结构和功能差异
进行成对比较(Bray-Curtis )，线条为线性回归
的结果。

在胃，肠，盲肠和结肠中，属水平群
落结构的变化与多糖解构功能的相关性分析结果
表示除大肠外，其余的P.pearson的值都在
0.001以下。

胃和盲肠的群落在结构和功能上
是最多样化的,尽管多样性仍然与功能潜力高度
相关。

其次，肠道中的群落组成和功能大多是
保守的，而与保守的微生物群落相关的大肠则
显示出可变的功能潜力。

MetaGeneHune提供了一种新的方法来识别短序列宏基因组中的GHs及其相关结构域。

识别结构域而不是蛋白质是至关重要的，因为GH结构域与许多可变结构域相关。

这种新方法基于GeneHunt 注释方法，并对其进行补充，旨在分析MG-RAST中的短序列宏基因组。

因此，它不需要大型计算机基础设施。

通过这种新方法对小鼠胃肠道菌群的GHs研究发现，在胃中，虽然富含碳水化合物处理的酶，但相对于胃肠道的其他部分，胃中没有特定酶可供选择；在肠道中,出现了更保守的菌群,最为富集的是拟杆菌门•它们的潜在功能主要在多糖处理上；来自结肠和胃的菌群虽然是距离最远的,但在结构和功能上却表现出高度的相似性。

研究人员认为在未来，利用GeneHunt和MetaGeneHunt相结合创建新的专用参考注释表将为硏究宏基因组的潜在功能提供新的更有效的途径。