基于生物信息学筛选、分析和验证骨肉瘤差异基因

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

• 228 •肿瘤预防与治疗 2021 年 3 月第 34 卷第 3 期 J Cancer Control Treat. March 2021 . Vol. 34, No. 3•临床研究*
基于生物信息学筛选、分析和验证骨肉瘤差异基因#
郭良炫,余铃,陈敬腾,聋长天,施玉博,郭卫春八
430060武汉,武汉大学人民医院骨科
[摘要]目的:采用生物信息学的方法筛选出骨肉瘤差异基因,并探讨其与骨肉瘤发生的关系方法:从GE 0数据 库中下载符合标准的数据集,用GE 02R 进行差异分析,随后用DA V ID 进行Gene Om 〇l 〇gy ( G O )富集分析和《>〇1(1卜:11- cyclopedia of Genes and G enom es 通路分析,随后利用ST R IN G 数据库和C ytoscape 软件做蛋白相£|:作用图,用插件l :y - to h u b b 以D e g ree 为标准筛选差异基因,最后将得到的基因用H C M D B 数据库进行验证结果:从(;SK 3600I 和 GSE 12865中共筛选出421个差异基因,其中有187个基因是上调基因,234个基因是下调基因。

G O 分析的结果显 示在生物进程方面,差异基因参与的生物学过程有激活蛋白激酶活性和正性调控肽基酪氨酸磷酸化;分子功能方 面,差异基因的功能有调控蛋白的结合和肝素结合;细胞成分方面,差异基因存在于胞外外泌体和突触前膜中;倍4 通路方面,差异基因参与了 R a p l 信号通路的调控。

此外,用C ytohubb 筛选出排名前5的基因:SAM /)2、a >«,CV - CL 72、L ®£2ZW 和最终用H C M D B 数据库进行验证,发现C Z W 、CXCL /2、t /B £2/W 和在骨肉瘤中均下 调。

结论:在骨肉瘤中下调的CD *«、CTCW 2、MS £2历和可能与骨肉瘤的发生发展有关,
[关键词]骨肉瘤;生物信息学;基因;差异表达
[中图分类号]R 738.1 [文献标志码]A d o i :10. 3969/j . issn . 1674-0904. 2021. 03. 007
弓I 文格式:Guo LY,Yu L,Chen JT, et al. Screening , analysis and validation of differentially expressed genes in osteosarcoma based on bioinformatiC S [J ]. J CancerControlTreat , 2021,34(3) :228-233.[郭良煜,余铃,陈敬腾,等.基于生物信息学筛选、分析和验证骨 肉瘤差异基因[J ]•肿瘤预防与治疗,2021,34 (3) :228 -233.]
Screening, Analysis and Validation of Differentially Expressed Genes in Osteosarcoma Based on Bioinformatics
Guo Liangyu , Yu Ling , Chen Jingteng , Gong Changtian , Shi Yubo , Guo Weichun
Department of Orthopedics, Renmin Hospital of Wuhan University, Wuhan 430060, Hubei, China
Corresponding author :Guo Weichun ,E -mail :guoweichun @ aliyun . com
This study was supported by National Natural Science Foundation of China (No . 81341078).
[Abstract ] Objective : To screen out the differentially expressed genes ( DEGs) in osteosarcoma by bioinformatics and discuss their relation to osteosarcoma. Methods : Standardized datasets were downloaded from GEO database ; l)K(is were an­alyzed with GE02R (an interactive web tool) ; Gene Ontology (GO) enrichment analysis and Kyoto Elncyclopedia of Genes and Genomes pathway analysis were conducted by DAVID database ; protein-protein interaction network diagram was drawn with STRING database and Cytoscape software ; the Degree method provided U y Cytohubh (a Cytoscapt1 plugin) was used l 〇 screen DEGs ; and HCMDB database was used to verify those target genes. Results : A total of 421 DEGs were screened from GSE36001 and GSE12865 databases. 187 genes were up-regulated and 234 genes are down-regulated. The results of (i() a- nalysis showed that DEGs mainly existed in extracellular exosomes and presynaptic membranes ; they regulated the activation of protein kinase activity, protein and heparin binding as well as Rasl signaling pathway ; and positively regulated peptide tyrosine phosphorylation. In addition, five hub genes (SMAD2, CD44, CXCL12 ^ UBE2D3 and KEAP1) were selected hy u- sing Cytohubb. And we finally verified that CD44, CXCL12, UBE2D3 and KEAP1 were down-regulattnl in osteosarcoma veri­fied by using the HCMDB database. Conclusion : Down-regulated CD44 % CXCL12, UBE2D3 and KKAP1 may he related l 〇
the pathogenesis and clinical treatment of osteosarcoma.
[Key words ] Osteosarcoma ; Bioinformatics ; (iene ; Differ­
ential expression
[收稿日期]2020-03-30 [修回日期]2020-07-29 [基金项目]•国家自然科学基金(编号= 81341078) [通讯作者]A 郭卫春,E -m ail : guoweichun @ aliyun . com
肿瘤预防与治疗202丨年3 月第34 卷第3 期 J Cancer Control Treat,March 2021 ,V〇l.34,No. 3.229 .
骨肉瘤是儿童和青少年中最常见的原发性恶性 骨肿瘤,具有恶性程度高、转移早、转移率高、侵袭力 强等特点[12]。

骨肉瘤最常见的部位是股骨远端,且早期就会出现肿瘤转移,转移部位最常见于肺部,其次是髂骨部位,并且是一个不良的预后指标[3]。

早期对骨肉瘤的治疗多以截肢为主,但预后较差,随 后引人化疗从而改善了患者的预后[4]。

至此,手术 加化疗成为骨肉瘤治疗中常用的治疗方法。

但即使 这样,骨肉瘤患者的5年生存率仍不足20%[5]。

因此,寻找新的治疗方法提高骨肉瘤患者生存率的研 究一直在进行。

近几年,学者们开始运用生物信息学筛选与骨 肉瘤有关的基因,如通过GE0数据库筛选出与骨肉 瘤相关的基因CMFG[61;张晋煜[71利用生物信息学 发现基因的低表达提示骨肉瘤患
者的预后不良;此外,21111等[8]筛选出了 7个关键基 租SLC18BI、RBMXL1、D0K3、HS3ST2、ATP6V0D1、CC4W和C7<?77V H,都与骨肉瘤的能量代谢有关D 虽然相关研究发现了一些骨肉瘤潜在的分子靶标,但与常见的肿瘤如肺癌、肝癌等相比,治疗该病的分 子靶标相对较少。

因此,本文通过查找GE0数据库 中的骨肉瘤数据从而找出差异基因,并通过Gene Ontology(GO)富集分析、Kyoto Encyclopedia of Genes anc丨Genomes(KEGG)通路分析和蛋白互作(protein-protein interactions,PPI) 网络图找出最具有意义的 基因,为新的治疗方案提供参考或线索。

1材料和方法
1.1基因芯片的检索和选取
登录 GE0 数据库(http://www.ncbi.nlm.nih. gov/geo/ ),输入检索目标 “osteosarcoma 和 bioinfor-matics”,找出已经公布的骨肉瘤基因芯片数据集[9]。

随后进行骨肉瘤数据集的筛选工作,所纳入 的骨肉瘤数据集必须满足2个条件,否则不予纳入:1)包含骨肉瘤病变组织或细胞系和正常骨组织或 细胞系;2)基因芯片是人类全基因组数据。

筛选出 数据集 GSE3600I和 GSE12865。

GSE36001 平台包 含20个骨肉瘤细胞组和6个正常组(2个成骨细胞 系和4个正常骨组织);GSE12865包含12个骨肉瘤 组织组和2个正常组(2个成骨细胞系)。

1.2筛选差异基因
采用 GE02R(http://www.ncbi_/ ge〇/ge〇2r/)筛选差异基因[丨〇]〇将GSE36001和GSE12865中的骨肉瘤组和正常组数据导入GE02R 中,筛选条件为校正后P<〇.〇5,随后差异基因以火 山图展示。

然后将差异基因导入韦恩图在线制作软 件(http://bioinformatics.psb.ugent.be/webtools/ Venn/)制作韦恩图。

1.3差异基因功能注释和通路分析
DAVID(http://david. ncifcrf. gov)是一个公开的数据库,整合了生物学数据和分析工具,其中包括 了G O和KEGG分析等重要功能[11]。

将差异基因 导入DAVID数据库中进行G O和KEGG分析,筛选 条件为P< 0.05。

1.4构建和分析蛋白质相互作用网络
STRING数据库(第 10. 5 版,https://string-db. org/cgi/input. p i)是进行蛋白质相互作用的数据库[11],将G O和KEGG分析后所得到的差异基因导 入到STRING 9_ 1数据库中,置信度选择“Medium 0.400”,随后将STRING 9. 1数据库中得到的数据 导入到 Cytoscape (第 3_6_ 1版,http://www. cyto- scape. o rg/)中得到P P I网络图,随后使用CytoHubba 插件按照degree算法选取P P I网络图中排名前5的 基因[12]。

1.5 HCMDB数据库验证
HCMDB是一个用于存储和分析肿瘤的数据库。

其中数据库的来源主要来于GE0和TCGA数 据库,一共收集了 124个以前发表的转录组数据集,包含了 29种癌症类型。

将由CytoHubba得到的基 因输入HCMDB中进行验证。

2结果
2.1确定共同的差异基因
通过GE02R在线分析GSE36001和GSE12865 两个数据集,筛选出421个共同的差异基因(图1A),其中有187个基因是上调基因,234个基因是 下调基因(图1B)
2.2差异基因的功能注释和分析
对所筛选出来的421个差异基因进行G O和 KEGG分析,按照P值进行排序,排名前5的结果见 表1、2。

在生物进程方面,差异基因参与的前5个 生物学过程为蛋白激酶活性的激活、肽基-酪氨酸磷 酸化的正调控、蛋白激酶C激活G蛋白偶联受体信 号通路、共同伴侣SMAD蛋白磷酸化和蛋白丝氨酸/苏氨酸激酶活性的正向调节。

分子功能方面,差 异基因的前5个功能为蛋白结合、肝素结合、蛋白的 同源二聚化活动、离子型谷氨酸受体结合和蛋白激 酶结合。

细胞成分方面,差异基因前5个存在部位
为胞外的外泌体、突触前膜、粘着斑、脂筏和突触后 通路、百日咳病、肾素分泌、甘油磷脂的新陈代谢和密度。

信号通路方面,差异基因参与了 R a p l信号 磷脂酰肌醇信号系统。

GSE36001 GSE12865
down-regalted genes up-rcgalted genes
图1差异基因的火山图和维恩图
Figure 1. Volcano and Venn Diagrams of Differentially Expressed Genes
A. Up-regulated genes as indicated by the red spots and down-regulated genes as indicated by the green spots in volcano diagrams;
B. Venn diagrams.
表1差异基因的G O分析
Table 1. GO Enrichment Analysis for Differentially Expressed Genes
Category Term P
GOTERM—BP—DIRECT Activation of protein kinase activity <0.001
GOTERM_BP_DIRECT Positive regulation of peptidyl-tyrosine phosphorylation 0.002
GOTERM_BP一DIRECT Protein kinase C-activating G-protein coupled receptor signaling pathway 0. 004
GOTERM_BP一DIRECT Common-partner SMAD protein phosphorylation 0.007
GOTERM_BP_DIRECT Positive regulation of protein serine/threonine kinase activity 0. 007
GOTERM_MF_DIRECT Protein binding 0.003
GOTERM_MF_DIRECT Heparin binding 0.009
GOTERM_MF_DIRECT Protein homodimerization activity 0.010
GOTERM_MF_DIRECT Ionotropic glutamate receptor binding 0.010
GOTERM_MF_DIRECT Protein kinase binding 0.018
GOTERM_CC_DIRECT Extracellular exosome <0.001
GOTERM_CC_DIRECT Presynaptic membrane 0.002
GOTERM_CC_DIRECT Focal adhesion 0.005
GOTERM_CC_DIRECT Membrane raft 0.014
GOTERM—CC一DIRECT Postsynaptic density 0.018
GO:Gene Ontology;BP:Biological process;MF:Molecular function;CC:Cellular components.
表2差异基因的KEGG 分析
Table 2. KEGG Pathway Analysis for Differentially Expressed Genes
Category Term P KEGG_PATHWAY Rapl signaling pathway <0.001KEGG_PATHWAY Pertussis 0.001KEGG_PATHWAY Renin secretion 0.003KEGG 一PATHWAY Glycerophospholipid metabolism 0.006KEGG_PATHWAY Phosphatidylinositol signaling system 0.007KEGG : Kyoto Encyclopedia of Genes and Genomes.
2.3 P P I 网络图的构建将差异基因导人到STRING 数据库中得到PPI 网络图(图2),随后用CytoHubba 软件,根据Degree 得出排名前5的基因(图3),依次为:SM 4/)2、
和 ,5 个基因均在骨肉瘤中下调。

图2蛋白-蛋白互作网络图(PR)
Figure 2. PPI Network Diagram
A node represents a gene ; a link represents the relationship between two adjacent genes.
CXCL12
图3 P P I 网络图中的前5个差异基因
Figure 3. Top 5 Differentially Expressed Genes in PPI
Network
• 232 •肿瘤预防与治疗 2〇2丨年 3 月第 34 卷第 3 期 J Cancer Control Treat,March 2021,Vol. 34,No. 3
图4 和KEAP7在数据库中的表达
Figure 4. Expressions of CD44, 72,L/8E2D3 and in HCMDB Database *P <0.05.
3讨论骨肉瘤是最常见的恶性骨肿瘤,当前的治疗主 要以手术切除加放化疗为金标准,但治疗效果往往 不佳[13]。

近年来,随着生物信息学技术的高速发 展,可以挖掘疾病发生进展中的关键基因,为探索疾 病的发病机制和治疗带来好处。

例如Zheng 等[14] 认为LHPP 蛋白的过表达可以抑制宫颈癌的增殖和 转移;Tan 等[15]确认了 BZRAP 1-AS 1是前列腺癌的 一个预后指标;Cao 等[16]认为C 0L 1A 12的表达在 胃癌患者中具有重要意义,可以作为胃癌患者的预 后指标。

因此,可以通过利用生物信息学的方法预 测潜在的靶基因。

首先,本研究组选取GSE 36001和GSE 12865两 个数据集,采用GE 02R 选出差异基因,GE 02R 是 GE 0数据库自带的差异基因分析工具,它能够比较 两个或者多个样本之间的区别从而寻找出差异基因。

本研究共筛选出421个基因,其中187个上调
基因和234个下调基因。

随后用DAVID 数据库对
差异基因进行GO 和KEGG 分析,GO 分析主要包括 3个方面:细胞成分、分子功能和生物进程;KEGG 是一个包含了基因组学、基因所参与的生物学途径、 疾病和化学物质等基本信息的数据库。

将421个差 异基因进行分析后,在生物进程方面差异基因参与 蛋白激酶活性的激活、肽基-酪氨酸磷酸化的正调 控、蛋白激酶C 激活G 蛋白偶联受体信号通路等过 程。

分子功能方面差异基因功能为蛋白结合、肝素 结合、蛋白的同源二聚化活动等功能。

细胞成分方 面差异基因存在部位为胞外的外泌体、突触前膜、粘 着斑等部位。

信号通路方面差异基因参与了 Rapl
信号通路、百日咳病及肾素分泌等通路。

随后将差 异基因导入到STRING 数据库中得到P P I 图,而Cy - toscape 软件是一款可以将P P I 可视化的软件,可以 对PPI 进行后续的分析,再使用插件CytoHubba 根
2.4数据库验证将CytoHubba 软件得到的排名前5的基因输人 HCMDB 数据库中进行验证,以P <0_ 05为筛选条 件,图 4 显示 和尺£/lP / 的表达水平与GSE 36001和GSE 12865的分析结果一
致,在骨肉瘤中的表达均下调,差异具有统计学意义
(P <0. 001、P <0. 001、尸 <0. 001 和 P =0.021)。

1
P
XCL CEA ___
_
_
__
__
__
_
_
__
_
_
_
I
I
I
I I
I
I
5 o
8
6
4
2
U
O W M
4
d
s U O
I
S
S
S J d x
v
D3E2D u 5 0 5 0 uoi 的 sajdxv 8
6 4 2
uolssdJdMv
肿瘤预防与治疗2〇21年3 月第34 卷第3 期 J Cancer Control Treat,March 2〇21,Vol. 34,No. 3• 233 •
据(代表一个基因相邻分子的数量)筛选出排 名前 5 的基因 SM4D2、、CZCZJ2、A S V1P7 和 t/B£2ZW。

最后在HCMDB数据库中对5个基因进 行验证,发现 C£»«arCZJ2、K£4P/ 和 f/B£;2D3 在 骨肉瘤中的表达均下调,差异具有统计学意义(P< 〇.〇5),且与GSE36001和GSE12865的分析结果相 一致,其中的3个基因已有文献报道与骨肉瘤有相 关性。

研究者发现在骨肉瘤细胞中过表达CD44,接 种裸鼠后增加了骨肉瘤肺转移的概率[17];Shi等[18]对骨肉瘤转移样本和非转移进行生物信息学分析后 发现CZCL/2在两组中的表达量有差异且具有统计 学意义;研究人员发现在骨肉瘤中是低表达,且其表达与骨肉瘤患者的预后相关,表现为低表 达患者预后较差[19]。

虽然还没有UBE2D3与骨肉 瘤相关的研究,但数据库提示在骨肉瘤中的表达具 有统计学意义,且文献报道的过表达增加
了食管癌细胞放疗的敏感性[2°]。

总之,本次研究通过GE0数据库里的数据信息 进行了挖掘和分析,分析结果提示C£M4、arCL72、和可能与骨肉瘤发生发展有关。

在本次研究中,因GE0数据库缺乏骨肉瘤患者的生 存时间和生存状态,无法准确预测这些基因与骨肉 瘤预后的关系,因此未来还需要继续在GE0数据库 中去发掘和探索更多符合研究条件的样本芯片表达 谱数据并进行验证。

作者声明:本文全部作者对于研究和撰写的论 文出现的不端行为承担相应责任;并承诺论文中涉 及的原始图片、数据资料等已按照有关规定保存,可接受核查。

学术不端:本文在初审、返修及出版前均通过中 国知网(CNKI)科技期刊学术不端文献检测系统的 学术不端检测。

同行评议:经同行专家双盲外审,达到刊发要求。

利益冲突:所有作者均声明不存在利益冲突。

文章版权:本文出版前已与全体作者签署了论文授权书等协议。

[参考文献]
[1 ] Lillo Osuna MA,Garica-Lopze J, Ayachi I,ef al. Activation of es­
trogen receptor alpha by decitabine inhibits osteosarcoma growth
and metastasis[ J] . Cancer Res,2019,79(6) : 1054-1068.
[2] Chen Y ,Cao J,Zhang N ,et al. Advances in differentiation therapy
for osteosarcoma [J]. Drug Discov Today ,2020,25(3) : 497-504.[3] Kager L,Tamamyan G,Bielack S. Novel insights and therapeutic
interventions for pediatric osteosarcoma[ J]. Future Oncol,2017,
13(4) :357-368.
[4]刘巍峰,黄真,宫丽华,等.同时性多中心骨肉瘤的治疗和预后
因素分析[J].中华医学杂志,2019,99(37) :2897-2902.
[5]叶挺,张洁莹,陈静.高级别骨肉瘤的药物治疗[J].中华医学
杂志,2019,99(37) : 2893-2896.
[6]林文韬,王武炼,肖莉莉,等.基于G E0数据库发现骨肉瘤关
键基因GMFG及其生物学功能[J].福建医药杂志,2020,42
(2) : 112-115.
[7]张晋煜.骨肉瘤组织差异表达基因筛选及其与患者预后的关
系[J].山东医药,2017,57(32) : 10-12.
[8] Zhu NQ, Hou JY, Ma GY, et al.Co-expression network analysis
identifies a gene signature as a predictive biomarker for energy me­
tabolism in osteosarcoma[ J]. Cancer Cell Int, 2020,20 :259.
[9] Clough E, Barrett T. The Gene Expression Omnibus database[ J].
Methods Mol Biol, 2016, 1418 :93-110.
[10] Fakhri B, Lim KH. Molecular landscape and sub-classification of
gastrointestinal cancers :A review of literature [ J ]. J Gastrointest
Oncol, 2017, 8(3) :379-386.
[11] Huang DW, Sherman BT, Tan Q, et al. DAVID bioinformatics re­
sources : expanded annotation database and novel algorithms to bet­
ter extract biology from large gene lists [ J]. Nucleic Acids Res,
2007,35 :W169-175.
[12] Chin CH, Chen SH, Wu HH, et al.CytoHubba:Identifying hub
objects and sub-networks from complex interactome [ J ]. BMC Syst
Biol, 2014, 8(S4) :S11.
[13]易生辉,秦刚,黄肖华,等.骨肉瘤的治疗进展[J].医学综述,
2017,23(8) : 1529-1532.
[14] Zheng JL, Dai X, Chen HL, et al.Down-regulation of LHPP in
cervical cancer influences cell proliferation, metastasis and apopto­
sis by modulating AKT [ J ]. Biochem Biophys Res Commun,
2018, 503(2) : 1108-1114.
[15] Tan JF, Jin XF, Wang KC. Integrated bioinformatics analysis of
potential biomarkers for prostate cancer [ J ]. Pathol Oncol Res,
2017,25(2) :455460.
[16] Cao L, ChenY, Zhang M, et al.Identification of hub genes and
potential molecular mechanisms in gastric cancer by integrated
bioinformatics analysis [ J ]. PeerJ,2018,6 : e5180 •
[17] Gvozdenovic A, Arlt MJ, Campanile C, et al.CD44 enhances
tumor formation and lung metastasis in experimental osteosarcoma
and is an additional predictor for poor patient outcome[ J]. J Bone
Miner Res, 2013, 28(4) :838-847.
[18] Shi ZJ, Zhou HX, Pan B, et al.Exploring the key genes and
pathways of osteosarcoma with pulmonary metastasis using a gene
expression microarray[ J]. Mol Med Rep, 2017, 16(5) 17423-
7431.
[19] Zhang JH, Wang XJ, Wu WZ, et al.Expression of the Nrf2 and
Keapl proteins and their clinical significance in osteosarcoma[ J].
Biochem Biophys Res Commun, 2016, 473(1) :42-46.
[20] Gao XJ, Wang WB, Yang H, et al.UBE2D3 gene overexpression
increases radiosensitivity of EC 109 esophageal cancer cells in vitro
and in vivo[J]. Oncotarget, 2016, 7(22) :32543-32553.。

相关文档
最新文档