公用数据库基因组表达谱数据挖掘策略及分析方法-李曦(达人学社)

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Nature Reviews Genetics 16, 85–97 (2015)
什么是数据挖掘
从海量数据中揭示潜在的生物学规律。
为什么要学习数据挖掘
把握自己的命运 最大化利用已有数据 寻找新的课题
数据挖掘的步骤
生物医学研究人员的优势
数据处理步骤、统计分析均有工具可以完成 数据挖掘表型的确定 数据的选择 数据挖掘结果的解读
策略举例
影响阿糖胞苷药物敏感性的基因可能影响AML预后。 影响铂类药物敏感性的基因可能影响多种肿瘤的预后。 在高低肿瘤分级中存在差异的基因可能影响癌症预后。
……
研究策略如何确定
研究策略可以千变万化 研究策略决定了论文的上限 应根据自身专业选择有意义的研究策略
包含基因组表达谱数据的数据库
的所有GSM为同一平台。 • GSE:一个实验项目中的多个GSM合集,可能使用多个平台。 • GPL:芯片平台,如Affymetrix, Agilent等。
Profile示例
实验描述
实验结果展示
Value:归一化的相对表达量 Rank:探针表达值在所有表
达值中的排名的百分比。 Rank越高,表达越高。
•逻辑回归:多个因素对因变量的影响
还有问题解决不了怎么办?
加入达人学社QQ群
(加群请注明信息:单位+专业+姓名,每人限加一个群)
、491043563 496353730、496740737 496974932、273757394
➢ 大神帮你解决高难文献
➢ 群内共享资源
➢ 资源获取技术教学视频
➢ 同行分享交流(主要为
生存分析
• Kaplan-Meier法 ➢单因素生存分析 ➢分类变量 ➢做生存曲线图
• Cox回归模型 ➢单因素或多因素生存分析 ➢分类或连续变量 ➢计算HR和95%CI
P值 HR
双击弹出
肿瘤靶向药物的个体化治疗
谢谢!
研究表型
•数量性状 连续变量,如:身高、体重、药物剂量等
数据挖掘案例
分析策略
核心思路:
➢ 影响脑胶质瘤发生发展的基因可能影响脑胶质瘤的预后
分析流程:
➢ 获取包含脑胶质瘤组织和正常脑组织的全基因组表达数据 的多个数据集
➢ 鉴定在脑胶质瘤组织和正常脑组织中差异表达的基因 ➢ 在自己收集的样本中验证这些基因 ➢ 分析这些基因与肿瘤分级以及总生存期之间的关系
生物、医学、化学专业)
请关注达人学社微信 公众号
请注明个人信息: 单位、专业、姓名
甲骨文技术负责人 微信号
张常昕
夏艳东
讲座主办单位
•达人学社 •湖南甲骨文生物医药有限公司
Datasets示例
芯 片 介 绍
芯片注释文件
样本描述
Limma法分析的TOP250结果
韦恩图
通路分析
生存分析验证
•Survexpress
KM Plotter
输入基因名
选择分析表型
GEO数据本机处理
• 统计分析+作图软件 ➢SPSS ➢Graphad ➢R
➢Mann-Whitney U 检测:两独立样本 ➢Kolmogorov-Smirnov 检测:两独立样本 ➢McNemar检验:配对样本
来自百度文库
质量性状常用统计分析方法
•卡方检验:单因素对因变量的影响
A:期望值>5且样本量>40,用 Pearson卡方。 B:1<期望值<5且样本量>40,用连 续校正。(仅用于四格表资料) C:期望值<5或样本量≤40,用Fisher 精确检验。
•Gene Expression Omnibus (GEO) •ArrayExpress •The Cancer Genome Atlas (TCGA) •International Cancer Genome Consortium
GEO数据库关键名词
• Profile:数据库整理好的单个基因的概述 • Datasets:见GDS和GSE。 • GSM:单个样本的实验数据 • GDS:数据库整理好的关于某个话题的GSM集合。一个GDS中
•质量性状 分类变量,如:性别、疗效、等级等
•其他类型性状
时间依赖性变量,如:生存期,中位生存时间 等
数量性状常用统计分析方法
•参数检验(符合正态分布时) ➢T检验(独立样本或配对样本):两样本均数比 较 ➢方差分析:两个以上样本均数比较 ➢线性回归分析:多个因素对因变量的影响
•非参数检验(不符合正态分布时)
生物医学数据挖掘所需技能
必备技能: ➢基本的生物信息学知识 • 各种数据库的使用、数据库信息的解读 ➢基本的生物统计学知识 • 分析方法的选择,分析软件的使用
可选技能: ➢R语言的基本操作 • R包的使用 ➢Linux系统的基本操作
基因组表达谱数据挖掘流程
确定研究策略 获取表达谱数据 处理表达谱数据 统计分析 验证分析
相关文档
最新文档