生物信息学在肿瘤研究中的应用

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
B. 简言之,生物信息学就是运用计算 机技术,处理、分析生物学数据,以揭 示生物学数据背后蕴藏的意义。
生物信息学研究的要素
1. 计算机(服务器/工作站)及操作系统 2. 专业人员 3. 专业软件 4. Internet网络及生物学数据库
生物信息学研究分类
算法开发 Blast
生物学研究应用 Blast
......AGCGGGTCCCGCCTCCCAGCGACTCTCGGCAGTGCC GGAGTCGGGTGGGTTGGCGGCTATAAAGCTGGTAGCGAAGGG GAGGCGCCGCGGACTGTCCTAGGTACACTTTTCTCATAAAGT TTAGCCTACAGAAACTATCGCCACCCAAATTAAACATCACCC AAGCTAATATTCTTTCCTCCTTCTAAAGATGAGCTAGCGAAA CTTTTTATAGGTTGTCCCTTTAATGCAGCTTTTTAGAATAAA CATTTTTACATTTTTTCTTAAAAGAATTATTTTTTGAAGTCT GAGGAAAAATCCGCTTGCCTAGTGAATTTGGCACACACAGAG TAACAACAAATCAAACTTTAAGCTAGCAACCAACACACAAAA TAAGCATGCAAGGAATAGAATAAGTTTTATATGGATAAGGTA TTTTAGCCAACTCCACTTATAAGGTATTACAAAATCTCTATA TNGTTTTGAAGCTATGTGTCGCAGTTTAAAGTTACTTTTAAC AATAATACGTATATTTACAATTGACTTAAAAAACTATTTTCA AGGAAGTTAGAAACCTATGGCACACCAACGCATCTTCTGGAA AATGAAGACGATACAATGTCATGTGGCAAGTTTCAATATATG AAGGACTAGACCAGTG..............
2) Gene Ontology 数据库, 从细胞定位, 基因功能,信号通路三个角度提供对 各种基因的功能及所在信号通路的注 释。
数据库平台(续)
3) UCSC Human Genome 数据库 (Golden Path)。
4) 格式化的Blast数据库 (nt, nr, human_est, htg, swissprot, yeast, mouse_est …)。
Sequencing Result Mask Vector and Format
Procedures
Blast to Reference mRNA DB Reference DB None-hit EST
Blast to Human EST DB
Screened Known Genes Human EST DB None-hit EST
Lung Cancer Related LOH
Lung Cancer Related
SSH
基因芯片数据分析平台
a) 对raw data进行标准化处理,并确定 thredshold值(低于该值表示基因不表达, 没有杂交信号)
b) 结合R/S++,SAS通过生物统计学手段筛选具 有显著性差异表达的基因
Using Reference mRNA Database Blast Output to Search Mutation/SNP
点突变/SNP分析
结果
Mutations Found from Blast
Output Analysis
点突变/SNP分析结 果 (续)
Deletion (ClustalX 1.82)
点突变/SNP分析 结果
Insertion (ClustalW 1.82)
点突变/SNP分析结果 (续)
Here “-” means insertion
Further Analysis
From SNP to Haplotype
基因表达图谱
6 SSH Libraries Gene Expresstion Map to Human Genomes(1~22+X)
ESTs offer a rapid and inexpensive route to gene discovery, reveal expression and regulation data (Vasmatis, et al,1998), highlight gene sequence diversity and splicing (Wolfberg and Landsman, 1997), and may identify more than half of known human genes (Hillier, et al, 1996).
About half values keeped
3. Doing T-test with SAS/R for each gene 4. Hierarchical Clustering
Divide into two parts: up-regulated and downregulated
5. Construction of Gene Expression Map and
Cluster ESTs by Gene Map to Human Genome
Blast to Human Genome
Gene Expression Map New Genes Garbage ESTs
Point Mutation/SNP Analysis
In silico EST Elongation
e) 点突变或者SNP分析 f) 制作基因表达图谱 (PDF格式)
分析实例
Primary Analysis of Lung Cancer SSH cDNA Library
背景知识:
Definition of EST
EST (Expressed Sequence Tag): 从cDNA 库随机挑选出一个克隆来自动测序, 长度一般为500bp。
b) 比对Reference mRNA序列及Unigene序 列,找出已知基因,并进行聚类分析。
c) 对新基因序列进一步与人类染色体比 对,筛选出可靠的新基因序列,排除错 误序列。
cDNA, mRNA及EST序列的高通量综合分 析平台 (续)
d) 新EST序列延伸,全长cDNA序列电子克 隆及功能结构域分析。
7. Screening of important NSCLCrelated gene
肺鳞癌基因异常表达 区域分析结果
Results
75% (24 of 32) of our results were consistent with the previous studies. And the counterparts in other reports, normally with larger sizes, were narrowed down and many specific genes involved in these regions were identified.
Transcriptome Map
Clustering Result
肺鳞癌基因表 达图谱(3号染
色体)
肺鳞癌转录图 谱
(3号染色体)
Analysis Procedures (Cont.)
6. High-resolution detection of differentially expressed chromosomal regions in NSCLC was obtained by using movingmedian method
c) 进一步的芯片分析手段不一而足,可结合具 体分析目标进行具体分析。已经做过的分 析有:建立从array到全基因组转录图谱, 基因表达图谱;聚类分析(hierarchical, SOM and K-means clustering); 结合Gene Ontology, Biocarta, KEGG数据库进行相 关pathway分析等
– Adenocarcinomas
127
– Normal Lung
17
Array data (normalized)
Analysis Procedures
1. Finding genes from 12,600 cDNA clone
Get 7932 genes
2. Flagging the values lower than threshold value
自主开发的综合分析体系
cDNA, mRNA及EST序列的高通量综合分 析平台 基因芯片数据分析平台 信号通路 (Gene-gene interaction) 分析平台
注:每个平台都包含几个部分,每 部分又是一个可独立运行的功能体 系
cDNA, mRNA及EST序列的 高通量综合分析平台
a) 序列格式化,包括去除载体,屏蔽简 单重复序列,计算核酸组成及长度,以 Fasta格式输出。
生物信息学在肿瘤研究中 的应用
肿瘤生物信息学平台功能简介 及应用实例
张新宇
中国医科院肿瘤医院/肿瘤研究所 中心实验室 生物信息学
生物信息学的概念:
A. 生物信息学是一门新兴的交叉学科, 它将数学和计算机知识应用于生物学, 以获取、加工、存储、分类、检索与分 析生物大分子的信息,从而理解这些信 息的生物学意义。
数据库平台 自主开发的综合分析体系 自主开发的其他独立功能软件 其他引进并安装调试好的软件包 平台的产生及发展
数据库平台:(基于Linux系统的MySQL数 据库系统)
1) Reference, Locus Link, Unigene, Mapview及相关GenBank数据库。
背景知识:
Normalization
背景知识:
PathWay Analysis
分析实例
Genome-wide Gene Expression Map and Analysis of Non-Small Cell Lung Cancer Based on Microarray
PNAS November 20, 2001 vol. 98 no. 24
原始输入序列
Original sequence Database
已知基因聚类分 析结果
Cluster Result Database
新基因EST
New Gene (EST) Database
新基因EST电子 延伸结果
Elongated EST
>IDNo2_rlcrt0-000159.fas;Length=2540
Original Array Data
Chip: Human U95A oligonucleotide probe arrays (Affymetrix, SantaClara, CA) 12,600 cDNA clone
Sample:
– Squamous cell lung carcinomas 21
生物信息学和肿瘤研究的关系
How is tumor generated ……
?
1996, 97国际 象棋人机大战
被誉为“人类智力极 限”的特级大师,卡 斯帕罗夫 VS IBM深

What Can Bioinformatics Do in Cancer Research? How to Do?
肿瘤生物信息学平台简介
Expression level of genes
in SSH libraries
Different Colors correspond to different libraries
Is there a LOH?
Expressed in two down-ຫໍສະໝຸດ Baidu
regulated libraries
LOH map vs. SSH map
5) 实验室原始数据及分析结果数据库。 (加密保护)
Computational Velocity: Doubled after 18 months; DNA Data Quantity: Doubled after 14 months;
肿瘤生物信息学平台简介
数据库平台 自主开发的综合分析体系 自主开发的其他独立功能软件 其他引进并安装调试好的软件包 平台的产生及发展
相关文档
最新文档