生物信息学第二版基因表达数据分析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
7.动植物的发育研究 8.环境对细胞基因表达的作用 9.环境监测 10.物种的繁育
第二节 基因表达测定平台
与数据库
Microarray Platform and Databases
一、基因表达测定平台介绍
1.cDNA 芯片 2.Affymetrix芯片 3.下一代测序技术技术如:Roche-454, Illumina
➢ RNA-Seq在基因表达的定量上准确性很高; ➢ RNA-Seq在测定技术上和生物上重复性很高; ➢ RNA-Seq的测定需要很少的RNA样本。 ➢ 在应用上RNA-Seq技术对ISOFORM的测定和等位
基因的区分比芯片技术有很好的优势。
三、基因表达数据库
常用基因表达数据库名称
数据库内容
Gene Expression Omnibus (GEO)
MiSeq,Ion Torrent PGM
二、Microarray技术与RNA-Seq技术的比较
1.RNA-Seq技术对没有已知参考基因组信息的非模式 生物,也可测定转录信息;
2.RNA-Seq技术可以测定转录边界的精度达到一个碱 基,RNA-Seq可以用来研究复杂的转录关系;
3.RNA-Seq可以同时测定序列的变异; 4.RNA-Seq背景信号很小,测定的动态范围很大。
目前最常用的基因表达数据(NCBI)
Expression Atlas SMD RNA-Seq Atlas GEPdb GXD EMAGE AGEMAP
欧洲生物信息学中心的基因表达数据库 Stanford基因表达数据库 正常组织的基因表达谱数据 基因型、表型和基因表达关系 老鼠发育基因表达信息 老鼠胚胎的时空表达信息 老鼠老化的基因表达数据
原位合成芯片
➢ 定性信息提取:P/A/M(Present/Absent/Marginal) ➢ 定量信息提取:基于探针集汇总后的基因水平的荧
光信号强度值
(二)数据对数化转换
对芯片数据做对数化转换后,数据可近似正态分布
(三)数据过滤
➢ 数据过滤的目的是去除表达水平是负值或很小的 数据或者明显的噪声数据。
内标准化。
全局标化(global normalization) ➢ 假设: R=k*G ➢ 方法:
➢ c=log2k:中值或均值
荧光强度依赖的标化(intensity dependent normalization) ➢ 为什么 ➢ 方法: scatter-plot smoother lowess拟合
2.运用哪些基因进行标准化处理 ➢ 芯片上大部分基因(假设芯片上大部分基因在不
同条件下表达量相同) ➢ 不同条件间稳定表达的基因(如持家基因) ➢ 控制序列(spiked control) • 在不同条件下表达水平相同的合成DNA序列或外
源的DNA序列。
3. cDNA芯片数据标准化处理
(1)片内标化(within-slide normalization)方法 ➢ 全局标化、荧光强度依赖的标准化、点样针组
疾病相关基因表达数据库
数据库名称
数据库内容
GENT
肿瘤组织与正常组织的表达数据
ParkDB
帕金森病的基因表达数据库
cMAP
小分子化合物对人细胞基因表达的影响
Anticancer drug gene 抗癌化合物的基因表达数据 expression database
CGED
癌症基因表达数据库(包括临床信息)
• 过闪耀现象 • 物理因素导致的信号污染 • 杂交效能低 • 点样问题 • 其他
(四)补缺失值
1.数据缺失类型 非随机缺失 ➢ 基因表达丰度过高或过低。 随机缺失 ➢ 与基因表达丰度无关,数据补缺主要针对随机缺
失情况。
高表达基因的数据缺失
2.数据补缺方法 (1)简单补缺法
➢ missing values = 0 expression ➢ missing values = 1 expression (arbitrary signal) ➢ missing values = row (gene)average ➢ missing values = column (array)average
生物信息学
生物信息学
第五章 基因表达数据分析
苏州大学
沈百荣
首都医科大学 李冬果
第一节 引言
Introduction
基因表达组学与基因组学相比较 1. 表达组信息是动态的; 2. 表达组学的数据,更多的是数值分析; 3. 转录组学中除了模式识别外,系统建模也十分重要。
真核生物基因表达的基本方式
➢ c(A)为M 对A 的拟合函数 ➢ 标化后的数据
点样针依赖的标化(within-print-tip- group normalization)
➢ 为什么 一张芯片的不同区域运用不同的点样针点样,从而 引入点样针带来的系统误差。
➢ method
(2)染色互换实验(dye-s)的标化
实验组
对照组
第三节 数据预处理与差异表达分析
Preprocessing of Microarray Data and Analysis of Differentially Expression Gene
一、基因芯片数据预处理
(一)基因芯片数据的提取
cDNA微阵列芯片荧光信号
R a ( C 1 t I i H C o 1 B ) / H C (2 I H C 2 B ) H
芯片1 cy5(R) 芯片2 cy3(G)
(2)k近邻法
➢ 选择与具有缺失值基因的k个邻居基因 ➢ 用邻居基因的加权平均估计缺失值 参数
• 邻居个数 • 距离函数
(3)回归法
(五)数据标准化
1.为什么要进行数据标准化:存在不同来源的系统误差 ➢ 染料物理特性差异(热光敏感性,半衰期等) ➢ 染料的结合效率 ➢ 点样针差异 ➢ 数据收集过程中的扫描设施 ➢ 不同芯片间的差异 ➢ 实验条件差异
Baidu Nhomakorabea
基因表达调控示意图
基因表达的时空性
基因表达测定方法RT-qPCR
近20年来三种不同高通量基因表达测定技术的应用趋势
高通量基因表达测定的应用实例
1.测定组织特异性基因表达 2.基因功能分类 3.癌症的分类和预测 4.临床治疗效果预测 5.基因与小分子药物、疾病之间的关联 6.干细胞的全能型、自我更新和细胞命运决定研究