生物信息学方法大规模筛选肿瘤差异表达基因
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
生物信息学方法大规模筛选肿瘤差异表
达基因
(作者:___________单位: ___________邮编: ___________)
【摘要】目的利用数据库中已有的基因信息快速筛选鉴定出潜在的肿瘤相关基因。方法利用EST数据库中的基因信息,采用数字化差异显示(DDD)方法,对17种不同肿瘤组织的全基因组进行筛选。结果获得了130个上调基因和159个下调基因,大多为编码细胞骨架蛋白、核糖体亚单位的基因以及与物质代谢、细胞周期、信号传导、调节转录和翻译过程有密切关系的基因。这些基因在12号染色体上出现频率最高,而在21号和Y染色体上很少出现。结论生物信息学筛选是一种快速有效的筛选方法。本实验所得结果对今后肿瘤标志物的鉴定奠定了基础,也为肿瘤标志物的筛选策略提供了新的思路。
【关键词】生物信息学;肿瘤;数字化差异显示;EST
ABSTRACT: Objective To identify potential candidate genes related to the cancerous phenotype by analyzing databases publicly available. Methods Using a data mining tool called Digital Differential Display (DDD) from the Cancer Gene Anatomy
Project database, ESTs from 17 different tumor types were analyzed for differential expression. Results We obtained 130 up regulated and 159 down regulated genes, most of which are related to cytoskeleton, ribosomal subunit, substance metabolism, cell cycle, signal conduction, transcription and translation. These genes appear most frequently on chromosome 12 but rarely on chromosome 21 and Y. Conclusion In silico identification is a high throughput screening strategy. Our study may lay a foundation for identification of future caner markers and provide a new thought for screening strategy of cancer markers.
KEY WORDS: in silico; tumor; digital differential display; EST
肿瘤通常是由基因组中某些基因的数量或者结构发生改变而引起的。对肿瘤组织中差异表达的基因进行转录子水平的大规模分析,有望筛选出在肿瘤发生发展中发挥重要作用的基因。目前,已有多种大规模筛选的方法,如SAGE、微阵列、基因芯片等[1],可以对来源于不同组织类型和病理类型的标本的多个基因表达水平进行并行分析,已经得到广泛应用。
随着人类基因组测序的完成,基于生物信息学数据库的筛选方法也日益得到科研工作者的应用[23]。该方法可利用已有的数据信息,进行大规模高通量筛选,花费少、信息量大。虽然目前已有不少研究
者利用这种方法进行差异基因的筛选,但是对于全基因组以及多组织的肿瘤相关基因的筛选研究却很少。
在本实验中,我们采用CGAP网页中的数字化差异显示(digital differential display)工具,筛选在17种肿瘤组织与其对应的正常组织中差异表达的基因。对在≥2种肿瘤组织中,表达量大于对应正常组织10倍的基因(上调基因)以及表达量不及对应正常组织1/10的基因(下调基因)进一步进行分析。
1 材料与方法
1.1 数据库
利用基于EST信息的数据库进行肿瘤差异表达基因的筛选,共选取17种组织类型的肿瘤组织及其对应的正常组织的EST文库,包括骨、血液、脑、乳腺、结肠、眼、肾脏、肝脏、肺脏、淋巴结、肌肉、卵巢、胰腺、胎盘、前列腺、皮肤以及睾丸。所有EST文库均满足以下条件:①组织来源与病理状态明确;②非混合组织文库;③非标准化且非消减文库。
1.2 数字化差异显示
利用CGAP网站中提供的cDNA数字化差异显示(DGED)工具筛选,进入其主页,参数设置均采用默认值,pool A 为肿瘤组织,pool B 为对应的正常组织,对17种组织类型分别进行筛选,所选择的文库构建方式均为非标准化非消减。F值设置为2,P值设置为0.05。F 值表示某一基因在某一肿瘤组织中相对其在对应正常组织中的表达量。最终的输出结果为在某一肿瘤组织中表达量≥2倍或≤1/2对应
正常组织中表达量的所有有统计学意义的基因。F=肿瘤组织文库中代表某一基因的EST数量/肿瘤组织文库中所有EST数量对应正常组织文库中代表某一基因的EST数量/正常组织文库中所有EST数量
1.3 肿瘤相关候选基因的选择
在17种组织所有的输出结果中,选取在至少2种肿瘤组织中表达量与对应正常组织中表达量相差10倍以上的基因(F≥10或F≤1/10)作为肿瘤相关候选基因,分为上调基因和下调基因。
1.4 候选基因的分类及染色体定位
候选基因的分类及染色体定位来源于CGAP网站中gene finder 工具中对查找基因的描述。
1.5 经实验验证的候选基因的电子表达谱分析
查阅筛选出的候选基因的相关文献,对于已经实验验证的上调和下调基因进行电子表达谱分析。利用CGAP网站中的gene finder工具查找基因,查询结果中的Monochromatic SAGE/cDNA Virtual Northern即为电子杂交结果。
2 结果
2.1 肿瘤组织中的差异表达基因本实验使用生物信息学方法对多种肿瘤组织和相应正常组织进行大规模筛选,以期获得已知的或者新的肿瘤差异表达基因。结果见表1。筛选出的基因包括已经被广泛研究的LDHB和FOS等。在≥2种组织中同时上调的基因有130个,同时下调的基因有159个。表1 各种肿瘤组织中F≥10的基因数(略)同一个基因在一种肿瘤组织中上调,而在其他肿瘤组织中可能下调,