基因表达谱中特征基因选择的几种方法比较研究
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
获得较 好 的分 类效 能和 生物 医学的应 用。
关 键词 基 因 表 达 谱 ;特 征 选 择 ; 聚 类 分 析 ;t 检
验 ; 决 策树 ; 支 持 向 量 机
文献 标识 码 :A 中 图分类 号 :R 1 ;R 1 5 1 59
1特 征基 因选择 法
1 1聚 类分析 法 . 最 常用 的是 层次聚 类法 ,这 种方 法是 通 过 计算 各数 据点 间的 距离 ,然后 把最 近 距离 聚 为一组 ,再计 算各 组之 间的距 离 ,然后 把 它们合 并成 一个 更大 的组 ,不断 重 复该过 程 直 到最 后聚 成一 组以 树状结 构 的数据 。这 种 做 法 的结果 非常 直观 ,而且 还可 以根 据树 状 结 构分 支的 长短 来评价 基 因的相 似性 。 在 用 K- a s 类 法 进 行 分析 时 , 因 me n 聚 为缺 乏先 验 知识 ,所 以事 先不 能 确 定k 。 值 把 k 为 一 个变 量 处 理 ,从 2 作 开始 递 增 ,对 每 个 k 都根 据 模式 质 量对 特 征基 因进行 评 值 估 ,然 后遴 选 出最优 的基 因集 作为特 征 基 因 集 。不 断重 复 这一 过 程 ,k 递 增 ,直 到找 值 出一 个模式 质量 最大 的k 为止 。 值 1 2 t 验 法 . 检 数据 采用 美 国Af mer ( f t x 昂飞 )公 司 y i 的结肠 癌基 因表 达实 验数据 ( www. h uh. s .t p t .d / g ) mceu h c,原 实验 点有 6 00 5 0 个寡 聚核 苷酸 探针 组的 基 因芯片 ,样 本包 括4 例结肠 0 癌 组 织 和 2 例 正 常 结 肠 组 织 。 我 们 仅 采用 2 U. L N 筛选 出的20 个基 因表达 谱数据 A O 等 00 进行 分析 。 这 种 方 法 主 要 是 运 用 统 计 学 上 的 两组 独 立样 本t 检验 ,此方 法 的零 假设 H 是 两 总 体 的 均值 相 等 ,备 择假 设 H. 为均 值 不 等 。 应 用检验 结果 可 以寻找 两组 数据 问表 达有 差 异 的基 因 ,又 由于在 实验 中进行 了多次假 设 检 验 ,从 而涉 及 多重检 验 问题 ,第一 类错 误 会 上升 ,所 以可 根据具 体情 况对 每个 基 因的 值 进 行 相 应 调 整 ,确 定 检 验 的 显 著 性 水 平 为 0 0 。通 过 统计 软 件 S S .5 A 对两 总 体 做t 检 验 ,计 算每 一个 基 因的 t值 ,并 降序 排列 , 分 别 筛选 t 最大 的 前5 1个 基 因 。最 后 值 至 0 引入 n重 交叉 验证 法” ,来 验证 所选 特征 基 因的样 本识 别率 。
ห้องสมุดไป่ตู้
摘 要 基 因 表达 谱 芯 片技 术 的产生 , 为复杂 疾病致 病 机理 的研 究提 供 了一 个 全方位 的视 角 从 大量 的基 因表达 谱 芯 片数据 中挖掘 有 用的信
降 维选 择 法 , 应用 t 验 、 决策 树 、支 持 向 检 量机 等特 征 基因选 取 方法 。本文 针对 几种 特 征基 因选 择 方法进 行介 绍 ,并用 不 同的分 类 器 比较评 价 其效能 。
D I 0 3 6 / . s .0 1 8 7 .0 2 1 . 6 O :1 . 9 9 ' i n 1 0 - 9 2 2 1 .4 0 4 js
基金项目:齐齐哈尔市科学技术局科学技术计划项 目资助
基 因表达谱 中特征 基因选择 的几种方法 比较研究
f. -兰 范继红 滕辉’ 潘洪明。 . - j
1 3决 策树 .
息 ,特 征选择 技 术起 到 了关键 的作 用。对 当 前基 因芯 片数据 的特 征 选择 方 法和各 种 学 习 器效 能进行 了综 述 ,并通过 说 明各种 特征 选 择 方 法的具体 情 况 来 比较 它们 的优 劣性 ,最 终 得 出从特 征 自身特 点 出发的特 征选 择 法可
特 征基 因选 择法 对支 持 向量 机具 有 良好 的有 效性。
14 支 持 向量 机 . 支 持 向 量机 分 类 方 法 是 建 立 在 统 计 学 习理论 基础 上的 ,在 有 限的 样本信 息和 学 习 能 力之 间寻 求最佳 ,使 复杂 度和结 构风 险达 到 最小 ,以期获 得 最好 的推 广能 力 。在有 监 督分 析获 取特征 基 因 的过 程中 ,不仅 要使 分 类 器 的VC 低 ,同时 也 要 使经 验 风 险最 维 小 。 支持 向量机 可 以这 样表 述 ,首 先 将 已知 向量映 射到 一个 高维 空 间里 ,使 得 向量在 高 维 空 间里可 分 ,并且 线性 函数 只需在 高维 空 间进行 内积 运算 ,这 样 就避 开 了高维 变换计 算 问题 。然 后再 寻找 一 个最 佳超 平面 ,让 这 个超平 面把 数据 分 开在 两边 ,并 且使 每一 类 别数据 之 间的分 类 间隔 最大 ,这 样可 以降 低 结 构风 险 。通过 大 量试 验证 明 ,支持 向量机 在解决 小样 本 、非 线性 问题 中表现 出特 有 的 优势 ,且分 类精 度 高 ,抗噪 能 力强 。同时 支 持 向量 机对 高维 模 式识 别具 有很 强的泛 化能 力 。
1 齐 齐哈 尔 医学 院 基 础 医 学 院 数 学教 研 室 , 齐 齐哈 尔 , 1 1 0 . 6 60
2 齐 齐哈 尔 医学 院 现 代 教 育技 术 中 心 计 算机 教 研 室 , 齐 齐哈 尔 , 1 10 . 6 60
5 齐 齐哈 尔 医学 院 医 学技 术 学 院 生 化教 研 室 , 齐 齐哈 尔 , 1 1 0 . 6 60
关 键词 基 因 表 达 谱 ;特 征 选 择 ; 聚 类 分 析 ;t 检
验 ; 决 策树 ; 支 持 向 量 机
文献 标识 码 :A 中 图分类 号 :R 1 ;R 1 5 1 59
1特 征基 因选择 法
1 1聚 类分析 法 . 最 常用 的是 层次聚 类法 ,这 种方 法是 通 过 计算 各数 据点 间的 距离 ,然后 把最 近 距离 聚 为一组 ,再计 算各 组之 间的距 离 ,然后 把 它们合 并成 一个 更大 的组 ,不断 重 复该过 程 直 到最 后聚 成一 组以 树状结 构 的数据 。这 种 做 法 的结果 非常 直观 ,而且 还可 以根 据树 状 结 构分 支的 长短 来评价 基 因的相 似性 。 在 用 K- a s 类 法 进 行 分析 时 , 因 me n 聚 为缺 乏先 验 知识 ,所 以事 先不 能 确 定k 。 值 把 k 为 一 个变 量 处 理 ,从 2 作 开始 递 增 ,对 每 个 k 都根 据 模式 质 量对 特 征基 因进行 评 值 估 ,然 后遴 选 出最优 的基 因集 作为特 征 基 因 集 。不 断重 复 这一 过 程 ,k 递 增 ,直 到找 值 出一 个模式 质量 最大 的k 为止 。 值 1 2 t 验 法 . 检 数据 采用 美 国Af mer ( f t x 昂飞 )公 司 y i 的结肠 癌基 因表 达实 验数据 ( www. h uh. s .t p t .d / g ) mceu h c,原 实验 点有 6 00 5 0 个寡 聚核 苷酸 探针 组的 基 因芯片 ,样 本包 括4 例结肠 0 癌 组 织 和 2 例 正 常 结 肠 组 织 。 我 们 仅 采用 2 U. L N 筛选 出的20 个基 因表达 谱数据 A O 等 00 进行 分析 。 这 种 方 法 主 要 是 运 用 统 计 学 上 的 两组 独 立样 本t 检验 ,此方 法 的零 假设 H 是 两 总 体 的 均值 相 等 ,备 择假 设 H. 为均 值 不 等 。 应 用检验 结果 可 以寻找 两组 数据 问表 达有 差 异 的基 因 ,又 由于在 实验 中进行 了多次假 设 检 验 ,从 而涉 及 多重检 验 问题 ,第一 类错 误 会 上升 ,所 以可 根据具 体情 况对 每个 基 因的 值 进 行 相 应 调 整 ,确 定 检 验 的 显 著 性 水 平 为 0 0 。通 过 统计 软 件 S S .5 A 对两 总 体 做t 检 验 ,计 算每 一个 基 因的 t值 ,并 降序 排列 , 分 别 筛选 t 最大 的 前5 1个 基 因 。最 后 值 至 0 引入 n重 交叉 验证 法” ,来 验证 所选 特征 基 因的样 本识 别率 。
ห้องสมุดไป่ตู้
摘 要 基 因 表达 谱 芯 片技 术 的产生 , 为复杂 疾病致 病 机理 的研 究提 供 了一 个 全方位 的视 角 从 大量 的基 因表达 谱 芯 片数据 中挖掘 有 用的信
降 维选 择 法 , 应用 t 验 、 决策 树 、支 持 向 检 量机 等特 征 基因选 取 方法 。本文 针对 几种 特 征基 因选 择 方法进 行介 绍 ,并用 不 同的分 类 器 比较评 价 其效能 。
D I 0 3 6 / . s .0 1 8 7 .0 2 1 . 6 O :1 . 9 9 ' i n 1 0 - 9 2 2 1 .4 0 4 js
基金项目:齐齐哈尔市科学技术局科学技术计划项 目资助
基 因表达谱 中特征 基因选择 的几种方法 比较研究
f. -兰 范继红 滕辉’ 潘洪明。 . - j
1 3决 策树 .
息 ,特 征选择 技 术起 到 了关键 的作 用。对 当 前基 因芯 片数据 的特 征 选择 方 法和各 种 学 习 器效 能进行 了综 述 ,并通过 说 明各种 特征 选 择 方 法的具体 情 况 来 比较 它们 的优 劣性 ,最 终 得 出从特 征 自身特 点 出发的特 征选 择 法可
特 征基 因选 择法 对支 持 向量 机具 有 良好 的有 效性。
14 支 持 向量 机 . 支 持 向 量机 分 类 方 法 是 建 立 在 统 计 学 习理论 基础 上的 ,在 有 限的 样本信 息和 学 习 能 力之 间寻 求最佳 ,使 复杂 度和结 构风 险达 到 最小 ,以期获 得 最好 的推 广能 力 。在有 监 督分 析获 取特征 基 因 的过 程中 ,不仅 要使 分 类 器 的VC 低 ,同时 也 要 使经 验 风 险最 维 小 。 支持 向量机 可 以这 样表 述 ,首 先 将 已知 向量映 射到 一个 高维 空 间里 ,使 得 向量在 高 维 空 间里可 分 ,并且 线性 函数 只需在 高维 空 间进行 内积 运算 ,这 样 就避 开 了高维 变换计 算 问题 。然 后再 寻找 一 个最 佳超 平面 ,让 这 个超平 面把 数据 分 开在 两边 ,并 且使 每一 类 别数据 之 间的分 类 间隔 最大 ,这 样可 以降 低 结 构风 险 。通过 大 量试 验证 明 ,支持 向量机 在解决 小样 本 、非 线性 问题 中表现 出特 有 的 优势 ,且分 类精 度 高 ,抗噪 能 力强 。同时 支 持 向量 机对 高维 模 式识 别具 有很 强的泛 化能 力 。
1 齐 齐哈 尔 医学 院 基 础 医 学 院 数 学教 研 室 , 齐 齐哈 尔 , 1 1 0 . 6 60
2 齐 齐哈 尔 医学 院 现 代 教 育技 术 中 心 计 算机 教 研 室 , 齐 齐哈 尔 , 1 10 . 6 60
5 齐 齐哈 尔 医学 院 医 学技 术 学 院 生 化教 研 室 , 齐 齐哈 尔 , 1 1 0 . 6 60