基于TCGA数据库的肝癌发生关键基因筛选

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Hans Journal of Surgery外科, 2015, 4, 1-8

Published Online January 2015 in Hans. /journal/hjs

/10.12677/hjs.2015.41001

Identification Key Genes of Hepatocellular

Carcinoma Base on TCGA Database

Junjun Jia, Ning He, Jing Zhang, Li Jiang, Yanfei Zhou, Lin Zhou, Shusen Zheng

Key Laboratory of Combined Multi-Organ Transplantation, Ministry of Public Health, Department of Hepatobiliary and Pancreatic Surgery, First Affiliated Hospital of Zhejiang University School of Medicine, Hangzhou

Email: jiajunjun1987@

Received: Nov. 3rd, 2014; revised: Nov. 20th, 2014; accepted: Dec. 5th, 2014

Copyright © 2015 by authors and Hans Publishers Inc.

This work is licensed under the Creative Commons Attribution International License (CC BY).

/licenses/by/4.0/

Abstract

Objective: Hepatocellular carcinoma (HCC) is a common cancer of the digestive system, is the third cause of death worldwide and the second cause of death in China. The Cancer Genome Atlas (TCGA) aims to better understand the molecular mechanisms of cancer by using a large-scale genome se-quencing-based analysis techniques and extensive cooperation. This study introduces TCGA data-base to find key genes of HCC events. Materials and Methods: The data from TCGA were processed, integrated according to the standard procedure of TCGA, data types and levels were carefully as-sessed. Bioinformatics analysis was done using the DESeq and edgeR package of R language (3.1.1 version). Results were showed as pheatmap, VennDiagram, hist, PlotMA etc. Differences were de-fined as follows: expression increased more than two folds; P <0.05; gene ranked in the top 10%.

Results: 17 mRNA chips of HCC and 9 mRNA chips of normal tissue were collected from TCGA data- base. Hist figure reflected the number of different gene was large. PLotMA map showed the distribu-tion of gene expression, suggesting most genes of different expression were increased. 719 diffe-rentially expressed genes were found by DESeq, while 4413 by edger, among which 713 were com-mon different genes. Conclusion: Compared to conventional microarray, TCGA method has its own advantages such as larger number of samples, less cost and easier for analyzing, offering opportuni-ty for large-scale genomic studies of HCC and subsequent functional genomics-based research.

Keywords

Hepatocellular Carcinoma, TCGA, Chip

基于TCGA数据库的肝癌发生关键基因筛选

贾俊君,何宁,张静,姜骊,周燕飞,周琳,郑树森

基于TCGA数据库的肝癌发生关键基因筛选

浙江大学医学院附属第一医院肝胆胰外科,卫生部多器官联合移植研究重点实验室,杭州

Email: jiajunjun1987@

收稿日期:2014年11月3日;修回日期:2014年11月20日;录用日期:2014年12月5日

摘要

目的:肝癌是消化系统常见恶性肿瘤,是全世界第三位死亡原因和中国第二位死亡原因。肿瘤基因组图谱(TCGA)计划利用大规模测序为主的基因组分析技术,通过广泛的合作,理解癌症的分子机制,本研究利用TCGA数据库深入挖掘肝癌发生关键基因。材料方法:根据标准流程对TCGA数据进行处理、整合,对数据类型及水平进行评估,用R语言(3.1.1版本)中自带的DESeq和edgeR程序包进行分析,结果以热图(pheatmap)、韦恩图(VennDiagram)、hist、PlotMA等表示。差异基因的判断标准:1,表达量在2倍以上或者0.5倍以下,2,P < 0.05,3,基因排名在前10%。结果:TCGA数据库现有癌组织mRNA芯片信息17张,匹配正常组织mRNA芯片信息9张,共26张。Hist图反映的是每个经统计后P值得分布规律,图中可刊出P值接近0处频率很高,反映差异基因的数量很大。PLotMA图反应基因表达量的分布规律,提示表达上升基因数量较多。用DESeq方法一共找到719个差异基因,而用edgeR方法找到4413个差异基因,两种方法都鉴别出的共同差异基因713个。结论:TCGA法相较于传统的芯片筛选具有样本数量大、费用小、分析简单等优势,为更多的人进行大规模的肝癌基因组学研究以及基于基因组学的后续功能研究提供了可能性。

关键词

肝癌,TCGA,芯片

1. 引言

肝癌是消化系统常见恶性肿瘤,是全世界第三位死亡原因[1]和中国第二位死亡原因[2]。现有的治疗手段不能有效预防与控制肝癌切除或者肝移植后复发,肝癌患者预后仍然不容乐观。因此需要进一步对肝癌发生及复发机制进行深入研究,寻找肝癌发生的关键基因及肝癌预后评估的生物学指标,以进一步改善患者预后。

肿瘤基因组图谱(TCGA)计划由美国National Cancer Institute (NCI)和National Human Genome Re- search Institute (NHGRI)于2006年联合启动的项目,第一阶段为期三年,耗资1亿美元,研究的癌症类型包括多形性成胶质细胞瘤(GBM)、卵巢癌,并于2008年在Nature发表了GBM的研究成果,2009年9月,再投$2.75亿,针对20余种癌症进行大规模实验,目前总计36种癌症类型。TCGA利用大规模测序为主的基因组分析技术,通过广泛的合作,理解癌症的分子机制。提高人们对癌症发病分子基础的科学认识及提高我们诊断、治疗和预防癌症的能力。最终完成一套完整的与所有癌症基因组改变相关的“图谱”。本文着重介绍TCGA数据库及利用TCGA数据库现有的数据深入挖掘寻找肝癌发生的关键基因。

2. 材料与方法

2.1. TCGA数据处理流程

2.1.1. 组织处理

1) 癌症病人自愿捐赠肿瘤组织及正常组织样本,由人类癌症生物标本核心资源库承担癌症组织标本

和正常组织标本的采集、处理和分配工作。

相关文档
最新文档