基于半监督学习算法在文本分类中的应用研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

标记的训练样本虽然可以提高分类算法结果的准确度 ,
但 获得带 有标注 的训练样 本 的代 价是相 当 昂贵的 。标 记
必须 由人 手工 完成 ,这是 一项 费时费 力 的工 作 。这 时 ,
文本分 类是 指在给定 的分类 体系 下 ,根据 文本 的内 可 以考虑 通过 动态聚类 的方法来解 决获 得有标 记训 练样 容 自动确 定文本类 别 的过程 。从 数学角 度来看 ,文本分 本 的困难 。 类是 一个 映射 的过程 ,它将未标 明类别 的文本 映射 到已 1 . 2 改进 的半监督 学 习算法
4 7 6 0 0 0 )

要 :本文讨论 了基于半监督 学习的文本分类算法,在 实际信息检索中所面临的一些问题和挑战。对基于
监督 学习算法的基本原理和流程进行讨论,分析 了 监督 学习方法的优点和存在的不足。针对监督 学习方法的缺
陷, 提 出了一种半监督 学习算法, 通过动态聚类的方法扩 大- / ) 1 l 练样本集, 运用经典的 K N N 分类算法进行文本分类,
样 本 的数量 。这时 ,通过 动态聚 类 的方 法所 扩大 的训练 文本 , 根 据 K篇文本 所属 的类别 判定新文 本所属 的类别 。
样 本 中 ,某些 样本 可能处 于边缘 位置 ( 跟其 他类 的相似 具 体步骤如 下 : 度 也 比较大 ),对所 处 的类 不具 有很好 的代 表性 。这样 它 就影 响 到下 一 步所运 用 的 KN N方 法对 文 本分 类 时 的 精 确性 。在此 ,需要从 训 练样本 集 中删 去这部 分 样本 , S T E P 1 :在新文本到 达后 , 确定新 文本 的向量表 示 ; S T E P 2 :在训 练文 本集 中选 出与 新文 本最 相似 的 K 个 文本 ;
有 的类别 中, 、 该 映射可 以是一 一映射 ,也可 以是一对 多
的映射 。因为通 常一篇文本 可以同多个类别 相关联 】 。
基 于 监 督 学 习 的文 本 分类 存 在 一 定 的局 限性 和 不
足 ,在对 此算法 的研究 中仍然需 要有一 小部分 带有类 别
文本 分类算 法 中的监督学 习 ,需要 一些 已经手工 分 标记 的训 练样 本 ,以它们作 为初 步 已经人为 确定好 了 的
实现 文本 信 息的快速 有 效分 类 。
关键词 :半监督 ;文本分类;动态聚类
中图分类 号 :T P 3 9 1 文献标 识 码 :A 文章 编号 :1 0 0 3 - 9 7 6 7( 2 0 1 5 )1 7 — 1 0 6 - 0 2
文本 的 自动分类 分为 两个过程 训练 过程和分 类过
本分类 技术 可 以弥补传统 搜索 引擎的不 足 ,过 滤掉用户 分类 器最后用来对未 知样本进行分类 。 本不需要 的文章 , 并将检索结果 分 门别类地提供 给用户 , 文本 分类是一 种Baidu Nhomakorabea型 的有监督 的学 习算法 ,它能有
使用 户能够更 加清 晰地发现 自己感兴趣 的 内容 。基 于半 效 地缩小 检索过程 中的搜 索空 间 ,使文档 的查 找更 为容
监督 学 习的文本分类 算法对 于海量 信息 的检索有 极大 的 易 。但是 ,绝大多数 有监督 的机器 学 习算 法依赖 于标 注 研究应用 价值 。 的训练样 本集 ,忽 略 了未标 注样本 的学 习 ,利用 大量 带
1 半监 督学 习的文本分类方法
1 . 1 监督 学 习的文 本分类算法基 础
僖■ 与电■
算 泫语 言
在 半监 督学 习方法 中,算 法 的原理是 :首先 ,在有 分类。 已知 的人为 确定好 的类别 和拥 有少量 已标 记训练 样本 的
K N N 方 法 的基本 思 路 是 :在 给定 新 文本 后 ,考 虑 前提下 ,通过 运用 动态 聚类 的方法来 扩大 各个类 别训 练 在训 练文本集 中与该新 文本距离 最近 ( 最相 似 )的 K篇
好类 的训 练文本集 ,这些 训练 文档集 中文档 的类别是 已 各 类别 的聚类 中心 。通 过少量 带有类别 标记 和不带 有类
经标识 好的 ,在 这些训 练文档 集上构造 分类器 ,然后 对 别标记 的混合 文档来 学习文 档 ,建立 分类器 ,进行 文本
新 的文档进行 分类 。
分类 。所 以 ,称该方法为半 监督 学 习的分类 方法 。
算 法语言
C h i 信 ■ 与 电 脑 ni n a C o mp u t e r &C o mmu c a t i o n
2 0 1 5年第 l 7期
基于半监督学 习算 法在文本分类 中的应用研究
王 敬 李淑 英
( 1 . 河 南交通职 业技 术 学院 ,河南 郑 州 4 5 0 0 0 0 ;2 . 商丘 工 学院 ,河 南 商丘
随着互联 网的快 速发展 ,网上 文本信 息资源 以指数
级 的速度增 长 。 目前 ,网上普遍存 在着 “ 信息爆 炸” 的 程 。训练过 程是文 本分类 系统 的核 心 ,一 个文本分 类 系
问题 ,即信息 极大 丰富而知识 相对 匮乏 。这 一方 面增加 统做 的是 否成功 ,直接取决 于分类 模型 的训练 。训 练过 了对 于快速 、 自动 的文本分 类 的迫切 需求 ,另一方 面又 程 的本质 是通过对 样本 ( 是 由人 工 已分好 类 的样本 )集 为基 于机器学 习的文本分类 方法 准备 了充分 的资源 。文 合 的训 练 , 采 用适 当的学 习分类算 法来创建一个 分类器 。
作者简 介 :王敬 ( 1 9 8 0 一 ),女,河南郑州人 ,硕士 ,讲师 ,副教授 。研究方向:软件工程 。 李淑英 ( 1 9 8 0 - ),女 ,河南商丘人 ,硕士 ,讲师,副教授 。研 究方 向:图像处理设计 。
2 0 l 5年 第 1 7期
C h i n a C o m p u t e r & C o m m u n i c a t i o n
相关文档
最新文档