基于数据挖掘的分类算法综述

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基 于 数Baidu Nhomakorabea据 挖 掘 的 分 类 算 法 综 述
唐 亚伟 , 玉平 秦
( . 海 大 学 信 息 科 学 与 技 术 学 院 ,辽 宁 锦 州 1 1 1 ;. 海 大 学 工 学 院 , 宁 锦 州 1 1 1 ) 1渤 2032渤 辽 20 3
摘 要 : 分类 算 法是 数据 挖掘 中最 重要 的研 究领 域 之 一 。通 过 对 当前 数 据挖 掘 中具 有 代表
用 信 息论 中的信 息增 益寻 找数 据库 中具 有最 大信 息量 的属性 字段 , 立决 策树 的一 个结 点 , 建 再根 据该 属 性 字 段 的不 同取 值 建立 树 的分支 , 每个 分支 子集 中重 复 建 立树 的下 层结 点 和 分 支 的一 个 过 程 。构 造 决 策 在 树 的具 体 过程 为 : 先寻 找初 始分 裂 , 首 整个训 练 集作 为 产生 决 策树 的集合 , 练集 每 个 记 录 必须 是 已经 分 训 好类的 , 以决定 哪个属 性 域 ( id 作 为 目前最 好 的分 类 指标 。一 般 的做 法 是 穷尽 所 有 的属 性域 , 每 个 Fe ) l 对 属 性 域分 裂 的好坏 做 出量 化 , 算 出最 好 的一 个 分 裂 。量 化 的标 准是 计 算 每个 分 裂 的 多样 性 ( i rt) 计 Dv sy ei 指标 。其 次 , 复 第一 步 , 重 直至 每个 叶节点 内 的记 录都属 于 同一类 且增 长 到一 棵完 整 的树 。
} 生的优 秀分 类算 法进行 分析 和 比较 , 出了每 种 算 法的特 性 , 给 为使 用者 选择 算 法或研 究 者改进 算
法 提 供 了依 据 。
关键 词 : 器学 习 ; 机 数据 挖掘 ; 分类 算法
中 图分类 号 : 7 O1 1 文献标 识码 : A 文章 编 号 :6 3—0 6 ( 0 1 0 0 7 0 17 5 9 2 1 )4— 3 2— 4
1 1 1 I 3算法 . . D
收稿 日期 :0 1 9—2 . 2 1 —0 5 基 金 项 目 : 家 自然 科 学 基 金 项 目( 170 2) 辽 宁 省 教育 厅 重 点 实 验 室项 目( S0 0 8 国 1 1 14 , L 2 110)
作者 简介 : 唐亚伟( 9 8一) 男 , 18 , 硕士研究生 , 主要研究领域为机器学习.
时, 分类 的准确 度较 高 ; 否则 , 准确 度较 低 。这是 该算 法 的主要 特点 。另外 , 算 法没有 分类 规则 输 出。 该
1 3 人工 神经 网络 .
几十年来 , 提出了许多种人脑信息处理神经网络模型。这些模型在信息处理 、 人工生命 、 模式识别 、 自 动 控制 、 助决 策等 领域得 到 不断 应用 发展 。其 中 , 向传 播模 型 ( P B c rpgtn ) 一种 多层 结 辅 反 B ( akpoaao ) 是 i 构 的前 向 网络 , 是 目前应 用 最广 泛 的一种前 向神经 网络 模型 。B 它 P网络被 广泛深 入应 用得 益 于它 有其 它
第3 2卷 第 4期
21年 1 01 2月
渤海 大学 学 报 ( 自然科 学 版 )
Junl f oa U ie i ( a r c neE io ) ora o hi n r t N t a Si c d i B v sy ul e tn
Vo . 2. . 1 3 No 4 De 20ll e.
隐层 单元 , 就能 够 以任意 的精 度逼 近任 意 的 函数 , 而表 明 B 从 P网络可 以作 为一 个通 用 的 函数 逼近 器 。事
34 7
渤 海 大学 学 报 (自然 科 学 版 )
第3 2卷
实上 , 于 B 基 P神经 网络 的故 障诊 断模 型 也就 是利用 B P网络 的 函数逼 近 能力 , 逼近 故 障 的分 类 边界 , 而 从
可 以用 来对 新 的样本 进行 分类 。
1 12 I 3算 法 的性 能分析 . . D
I3算 法通 过 不断 的循 环处 理 , 步求 精决 策树 , 到找 到一 个完 全正 确 的决 策 树 。在 选择 重 要特 征 D 初 直 时 利用 了信 息增 益 的概念 , 该算 法优 点 在于 : 算法 的 基础 理论 清 晰 , 方法 简单 , 算 速度 快 ; 索 空 间是 完 计 搜 全 的假设 空 问 , 目标 函数 就在搜 索 空 间中 , 存在 无解 的危 险 ; 不 全盘使 用 训练数 据 , 可得 到一 棵较 为优化 的
人工 神 经 网络作 为 另一种 处 理非线 性 、 不确 定性 的有力 工具 , 目前 还存 在 许 多 局 限性 。首 先 , 络本 网
完成特征空问到故障空间的非线性映射 。B 算法将神经网络学习输入输 出的映射问题转变为一个非线 P
性 优 化 问题 , 使用 了最 优化 中的梯 度下 降算 法 , 迭代 运 算 修 正 网络 全 中 , 用 实现 网络输 出与 期 望 输 出 间 的
均方 误差 最 小化 。 132 B . . P网络算 法分析
第 4期
唐 亚伟 秦 玉平 基于数据挖掘 的分类算法综述 , :
33 7
在 当前 决 策树 学 习的各 种算 法 中 , 响最 大 的是 JR.Q ia 影 un n于 18 l 9 6年提 出的 I3算法 , 提 出 D 他 用 信息 增益 作 为属性 的选择标 准 , 以使 得在 对 每一个 非 叶结 点进行 测试 时 , 能获 得关 于被 测 试记 录最 大 的 类 别信 息 。I3总是选 择具 有最 高信 息 增 益 的属 性 作 为 当前 结 点 的测 试 属 性 。具 体 方法 是 : 测 所有 的 D 检 属性 , 选择 信息 增益 最大 的属 性产 生决 策树 结点 , 由该属 性 的 不 同取值 建 立 分支 , 对 各 分支 的子 集递 归 再 调 用该 方法 建立 决策 树结 点 的分 支 , 到所 有子 集仅 包 含 同一 类别 的数 据 为止 , 后 得 到一 棵 决 策树 , 直 最 它
1 2 贝 叶斯 分类算 法 .
贝 叶斯分 类算 法是 一类 利 用概 率统 计 知 识进 行 分 类 的算 法 , N ( a eBys 算法 。这 些算 法 如 B N i ae) v
主要 利用 贝 叶斯定 理来 预测 一个 未知 类别 的样 本属 于 各个 类 别 的可 能 性 , 择 其 中 可能 性最 大 的一 个类 选
别作 为该样 本 的最 终类 别 。 由于贝 叶斯 定理 的成 立本 身需 要 一个 很 强 的独 立性 假 设 前 提 , 此假 设 在实 而 际情 况 中经 常是不 成立 的 , 因而 分类 准确 性就 会下 降 。
12 1 N .. B算 法
设 ( ,:, , ) 未 知类别 的样 本 ,( 是 属 于类 别 u ∈{ c… , } 。 n … 口 是 PcI c,: c 的概 率 。 由贝 叶斯 定理 , 假设 各属 性 的取值 互相 独立 , 据公 式 , 一 个未 知类别 的样 本 u 可 以计算 出 属 于每 一个 类 别 的 根 对 , 概率 , 选择 其 中概率 最 大 的类 别作 为其 类别 即可 。
分 类算 法 , 并分 析 了各 自的特性 。
1 分类算 法
解决 分类 问题 的方法 很多 , 面介 绍一 些经 典 的分类 方 法 , 决 策树 、 叶斯 、 工 神 经 网 络 、 于关 下 如 贝 人 基 联规 则 的分类 以及支 持 向量机 等 。 1 1 决 策树 归纳 算 法 . 决策 树 ( eio re 是一 种有 向无 环 图 ( i c dA yl rp i , D cs nTe ) i D r t cci G a hc 简称 D G) 。决 策树 方法 是 利 ee c s A
统 计 方法 进行 知识 学 习 。
分类 ( ls f a o ) 数据 挖 掘 中的一 个 重 要 概 念 。数 据 分 类 ( aaCas ct n 一 般 分 为 两 个 步 Cas ct n 是 i i i D t l i ai ) sf o i 骤 : 一 步是建 立 分类模 型 , 第 描述 预 定 的数 据 类集 或概 念集 。通 过分 析有 属性 描述 的数据 库元 组来 构 造模 型 。通 常 , 这样 的分类 模 型 以分类 规 则集 、 策树 或数 学 公式 等 形式 给 出 ; 二 步是 使 用 分 类 对新 的数 据 决 第 集 进 行划 分 , 主要 涉及 分类 规则 的准确性 、 分适 合 、 盾划 分 的 取舍 等 。一 个 好 的分 类 规 则 集 合应 该 是 过 矛 对 新 的数 据集 而 言具有 很 高 的准确 性 、 可 能少 的矛 盾 划分 以及 较小 的规则 集 。本 文 介 绍 了几 种典 型 的 尽
过程 中每 当选 择一 个新 属性 时 , 算法 只考 虑 了该属 性带 来 的信息 增益 , 未考 虑 到选择 该属 性后 为后 续属性
带来 的信 息增 益 , 即未 考虑 树 的两层 节点 ; 其信 息 增益 度量 存 在一 个 内在偏 置 , 偏袒 属 性值 数 目较 多 的 它
属性 。
12 2 N . . B算 法分 析
N B算 法 成立 的前 提是 各属 性之 间互 相独 立 , 即对 于任 何可 能 的属性 A, B和类别 属性 C的取值 ,,A P(
l c P ( 都 成立 , B, )= ,4J c) 则认 为 给定类 别 C、 属性 A和 B是相 互 独立 的。 当数 据集 满 足这 种 独立 性假 设
0 引 言
数 据挖 掘 ( a iig 的命 名 来 源 于 机 器学 习算 法 在 商 界 海 量 数 据 上 的应 用 。在 计 算 机 科 学 领 dt mnn ) a 域 , 据挖 掘也 称 为数 据库 知识发 现 ( nweg i oeyi dtbs ,K D) 数 ko ldeds vr a ae D 。主要 采 用 机 器 学 习算 法或 c n a
网络无 法 比美 的非线 性逼 近能 力 和分类 能力 。
13 1 B . . P网络
B P网络是 一单 向传播 的多层前 向 网络 , 网络除输 入 输 出节 点 外 , 一层 或多 层 的隐含层 节 点 , 有 同层 节
点 中没有任何耦合。输人信号从输入层节点 , 依次传过各 隐含层节点 , 然后传 到输 出节点 , 每一层节点的 输 出只影响 下一 层节 点 的输 出 。节 点 的激 活 函数 必 须是 可微 、 非减 的 , 通常 取为 s型 函数 。只要 有充分 的
决 策树 。

、 、
在 实际 应用 中 , 于 非增量 式 的学 习 任务 ,D 对 I3算 法通 常是 建 立决 策 树 的很 好 选 择 , 但该 算 法 不 足 之 处 在于 : 不能 增量 地接 受训 练例 , 就使 得 每增加 一次 实 例都 必 须废 除 原有 的决 策 树 , 这 重新 计 算 信息 增 益 并构 造新 的决 策树 , 造成 极大 的开销 ; 这 智能 处理 离散 属性 , 于连续 型 的属性 , 对 在分 类 前需要 对其 进行 离 散化 的处 理 ; 在建 树 时 , 每个 结 点仅 含一 个特 征 , 是一 种 变 元 的算 法 , 征 问的 相关 性 强 调不 够 ; 噪 声 这 特 对 较 为敏感 , 据质 量差 将直 接导 致生 成 的决策 树过 于 庞大 或 决 策树 中很 多 分 支 的信 息 量很 少 。 在建 树 的 数
相关文档
最新文档