基于代价敏感的朴素贝叶斯不平衡数据分类研究_蒋盛益 (1)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
收 稿 日 期 :2010-12-10 基 金 项 目 :国 家 自 然 科 学 基 金 项 目 (60673191,61070061);广 东 省 自 然 科 学 基 金 项 目 (9151026005000002)
388
计 算 机 研 究 与 发 展 2011,48(增 刊 )
Ting在文献[1]中通过样本加权方法构造代价敏 感 决 策 树 ,该 算 法 在 两 类 不 平 衡 数 据 中 效 果 显 著 ,但 在 多类不平 衡 数 据 中 效 果 不 及 Domingos在 文 献 [2] 中提出了 一 种 MetaCost方 法,MetaCost方 法 是 一 种将一般分类模型转换成为代价敏感模型的一般方 法 ,通 过 一 个 “元 学 习 ”过 程 ,根 据 最 小 期 望 代 价 修 改 训练样本的类标记,并 使 用 基 于 错 误 率 的 分 类 器 学 习 在 修 改 过 的 训 练 集 上 重 新 学 习 新 的 模 型 .文 献 [3] 提出了使误分代价和测试代价最小化的测试代价敏 感贝叶斯算法.AdaCost算法 是 [4] AdaBoost算法的 一个变体,保持了 AdaBoost算 法 的 核 心 理 论,并 在 其中加入 新 的 成 份 以 使 其 成 为 高 效 的 低 误 分 类 代 价敏感分类算法,使 用 AdaCost算 法 进 行 模 型 训 练 的关键是 如 何 合 理 给 出 训 练 实 例 的 误 分 类 代 价 因 子.杨强等研究了代 价 敏 感 机 制 与 决 策 树 及 贝 叶 斯 分类器的 结 合 以 及 代 价 敏 感 分 类 时 的 数 据 预 处 理 问 题 . [5-7]
类ci 所占比例,xj 为类别cj 所占比例.
蒋 盛 益 等 :基 于 代 价 敏 感 的 朴 素 贝 叶 斯 不 平 衡 数 据 分 类 研 究
2 朴 素 贝 叶 斯 分 类 算 法 描 述
朴素贝叶斯算法基于各属性之间相互独立以及 连续属性的条件概 率 服 从 正 态 分 布 2 个 假 设.假 设 D 是由一组已分类的实例构成的集合(称 D 为 训 练 集),D 中 的 每 个 实 例 用 一 个 (m +1)维 特 征 向 量 (A1,A2,…,Am ,C)来 描 述 m 个 属 性 的 值 和 类 变 量 值,其中 Ai 为 属 性 变 量 (i=1,2,…,m),C 为 类 变 量,其所有可能的 取 值 为c1,c2,…,cl.对 于 A1,A2, …,Am 的任意一组赋值a1,a2,…,am 和C 的任意取 值cj,在 条 件 独 立 性 假 设 下 有 :
结果对应的类中的记录.
3 基 于 代 价 敏 感 的 朴 素 贝 叶 斯 分 类 算 法
3.1 代 价 函 数 的 构 造
所谓 的 代 价 有 2 种,就 是 把 多 数 类 误 分 为 少 数
类的代价和把少数 类 误 分 为 多 数 类 的 代 价.传 统 的
分类算法中 默 认 了 2 种 不 同 情 况 下 的 代 价 是 相 等
的,但在实际应用中 很 多 情 况 下 两 者 的 代 价 是 不 同
的.把少数类误分为 多 数 类 的 代 价 通 常 高 于 把 多 数
类误分为少数类的 代 价.本 文 基 于 数 据 分 布 提 出 一
种构造代价函数的 策 略,首 先 基 于 整 个 数 据 集 计 算
出每个类所占比例,构 造 的 代 价 函 数 以 每 个 类 所 占
感理论的应用,只有 将 代 价 敏 感 理 论 同 具 体 的 应 用 领域有效结合才可 以 有 效 解 决 实 际 问 题.代 价 敏 感 分类就是为不同类 型 的 错 误 分 配 不 同 的 代 价,注 重 在分类时尽量避免 产 生 高 代 价 的 错 误,以 达 到 分 类 时产生的错误总代 价 最 低 的 目 标.这 种 思 想 更 加 符 合现实中的分类 问 题,在 入 侵 检 测、欺 诈 检 测、医 疗 诊 断 等 众 多 领 域 有 广 泛 的 应 用 前 景 .近 年 来 ,一 些 代 价敏感算法被提出用于解决不平衡数据分类问题.
计算机研究与发展 Journal of Computer Research and Development
ISSN 1000-1239?CN 11-1777?TP 48(Suppl.):387-390,2011
基于代价敏感的朴素贝叶斯不平衡数据分类研究
Байду номын сангаас
蒋 盛 益1 谢 照 青1 余 雯2
Jiang Shengyi 1,Xie Zhaoqing1,and Yu Wen2
1(School of Informatics,Guangdong University of Foreign Studies,Guangzhou510006) 2(School of Management,Guangdong University of Foreign Studies,Guangzhou510006)
Abstract The idea of cost sensitive method could be combined with traditional classification algorithm to solve the imbalanced classification problem since traditional classification algorithm does not perform very well for imbalanced data distribution.On the other hand,in the cost-sensitive learning, cost value determination needs enough prior knowledge and it is hard to define in advance.To remedy the drawbacks mentioned above,this paper proposes an improved Naive Bayes algorithm by constructing a cost function which could be adaptive to imbalanced data distribution and introducing a global cost matrix.The experiments carried on benchmark datasets from the UCI machine learning demonstrate that the performance of our algorithm is effective and practicable for imbalanced data distribution.
比例为自变量,通过 设 定 参 数 的 值 将 两 种 代 价 之 间
的差值体现出来.基 于 这 个 策 略 构 造 的 代 价 函 数 如
式 (5)所 示 :
( ) 烄 xi xj
β
,xi >xj;
( ) F(ci,cj)=
烅
xj xi
α
,xi <xj;
(5)
1,xi =xj;
烆0,i=j.
其中 F(ci,cj)为类别ci 误分为类别cj 的代 价,xi 为
Key words cost-sensitive;naive bayes;imbalanced data classification
摘 要 传统数据挖掘分类算法在不平衡数据集上分类效果不佳 ,可以将代价敏感思想与传统分 类 算 法 相 结 合 解 决 不 平 衡 数 据 分 类 问 题 .但 在 代 价 敏 感 学 习 中 ,代 价 的 确 定 需 要 足 够 的 先 验 知 识 ,难 以 把 握 .针 对上述不足,构造针对不平衡数据分布的自适应代价函数,引进全局代 价 矩 阵,对 传 统 的 朴 素 贝 叶 斯 分 类算法进行改进.在 UCI数据集上的实验结 果 表 明,提 出 的 基 于 代 价 敏 感 的 朴 素 贝 叶 斯 分 类 算 法 对 于 不平衡数据分类是有效可行的.
验概率 P(ci|u),i=1,2,3,…,l.其 中 P(ci|u)可 以 用贝叶斯公式来计算:
P(ci|u)= P(u|Pc(iu)P)(ci)=
P(u|ci)P(ci) ,
l
∑P(u|ci)P(ci)
i=1
i = 1,2,… ,l.
(2)
在 使 用 0~1 损 失 函 数 的 情 况 下 ,为 使 分 类 误 差
1(广 东 外 语 外 贸 大 学 信 息 学 院 广 州 510006) 2(广 东 外 语 外 贸 大 学 国 际 工 商 管 理 学 院 广 州 510006)
(jiangshengyi@163.com)
Naive Bayes Classification Algorithm Based on Cost Sensitive for Imbalanced Data Distribution
关 键 词 代 价 敏 感 ;朴 素 贝 叶 斯 ;不 平 衡 数 据 分 类
中 图 法 分 类 号 TP309
目 前 的 分 类 算 法 大 多 强 调 分 类 的 准 确 率 ,并 且 基 于所有错误分类的 代 价 都 相 同 的 假 设,但 在 很 多 实 际应用中,不同类型 的 分 类 错 误 往 往 对 应 不 同 的 代 价 .当 样 本 的 误 分 类 代 价 不 相 等 时 ,基 于 精 度 的 传 统 分类算 法 通 常 不 能 直 接 使 用.自 1997 年 Columbia 大学的 Lee等人提出代价敏感理论以来,经过10余 年的发展,代价敏感 理 论 已 经 被 成 功 应 用 于 多 个 领 域中.数据的代价敏 感 性 问 题 的 解 决 依 赖 于 代 价 敏
m
∏ P(a1,a2,…,am |cj)= P(ai|cj). (1) i=1
对 于 所 给 的 未 分 类 实 例 u= (u1,u2,…um ),使
用朴素贝叶斯分类方法将u 进行分类的过程可以描
述如下:首先根据 训 练 集 D 和 式 (1)计 算 条 件 概 率
密度 P(u|ci)和类别先验概率 P(ci),然 后 求 类 别 后
最小化,u 的类别c 确定为:
c = arg max{P(ci|u)}. 1≤i≤l
(3)
l
∑ 由于 P(u)= P(u|ci)P(ci)对于每个i来 i=1
说 为 常 数 ,利 用 表 达 式 (2),式 (3),得 :
c = arg max{P(u|ci)P(ci)}. 1≤i≤l
(4)
由此可以将相应 的 记 录 判 别 为 表 达 式 (4)所 求
代价敏 感 学 习 能 [8] 有 效 地 提 高 稀 有 类 的 识 别 率,可用于不平衡类 的 分 类,但 仍 存 在 以 下 局 限:1) 在实际应用中,每个 类 的 错 误 分 类 代 价 应 该 是 不 同 的 ,但 这 需 要 先 验 知 识 ,这 使 得 真 实 的 错 分 代 价 很 难 被准确地估计;2)虽 然 许 多 分 类 器 可 以 直 接 引 入 代 价 敏 感 学 习 机 制 ,如 支 持 向 量 机 和 决 策 树 ,但 也 有 一 些分类器不能直接 使 用 代 价 敏 感 学 习,只 能 通 过 调 整正负样本比例或者决策阈值间接地实现代价敏感 学习,这样不能保 证 代 价 敏 感 学 习 的 效 果.因 此,在 缺少领域知识的情 况 下,如 何 将 代 价 敏 感 学 习 策 略 与不平衡数据特性有效结合仍是一个需要深入研究 的问题.针对目前稀 有 类 分 类 算 法 中 代 价 函 数 难 以 根据具体数据分布 自 适 应 确 定 的 问 题,本 文 算 法 通 过构造自适应数据 分 布 的 代 价 函 数,引 进 全 局 代 价 矩 阵 ,对 朴 素 贝 叶 斯 分 类 进 行 了 改 进 .