一种基于半监督学习的短文本分类方法_张倩
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
An Algorithm of Short Text Classification Based on Semi - supervised Learning
Zhang Qian Liu Huailiang ( School of Economics and Management ,Xidian University,Xi ’ an 710071 ,China) 【Abstract】According to the characteristics of short texts and the bottleneck problem of annotation in dealing with large numbers of unlabeled samples,traditional algorithms of text classification can not be used directly. This paper introduces a method of short text classification based on semi - supervised learning and builds a semi - supervised classification model. It is feasible to accomplish the self - training of the training samples and takes full advantages of the unlabeled parts of training texts by using the initial classifier. The bottleneck problem of annotation is solved and the good performance of classifier is shown. The contrast experiment shows that the algorithm of short text classification based on semi - supervised learning can get better classified effect. 【Keywords】Semi - supervised learning Text classification Short text Self - training
[3 ]
。
[6 ]
[5 ] 国内外的学者分别通过扩展 Web 语义核函数 、
构建资源描述框架来表示结构化概念网络 现对短文本的分类 。蔡月红等
[7 ]
, 从而实 图2 传统监督 学习与半监督 学 习 对 比 半监督学习的相关研究起始于 20 世纪中期, 在解 决自然语言处理中关于文本分类相关问题的过程中, 随着利用未标注数据 EM 算法的提出 成功构建
知识组织与知识管理
一种基于半监督学习的短文本分类方法
张 倩 刘怀亮 西安 710071 ) ( 西安电子 科技大学 经济 与管理学院 【摘要】针对短文本的特征词较少 、 信息关联性不强以及存在大量样本的标注瓶颈问题, 传统的文本分类方法已 不能较好地直接适用 。将半监督学习思想引入到文本分类过程中, 提出一种基于半监督学习的短文本分类方法, 通过使用外部网络知识库来扩充短文本特征, 构建基于半监督学习的分类模型, 使用初始分类器进行迭代自学习 实现训练样本中未标注部分的充分利用, 从而解决标注瓶颈, 提高分类器的性能 。 对比实验表明, 该方法能够提 升短文本分类的效果 。 【关键词】半监督学习 【分类号】TP391. 1 文本分类 短文本 自训练
学习的研究工作 。 发展至今, 半监督理论已经在许多 领域得到应用, 如: 网页分类 、 文本聚类 、 标签生成 、 数 字图像检索等, 是机器学习中重要的研究部分 基于生成式模型的方法 方法 法
[18 ] [20 ] [17 ] [16 ]
。目
前, 国内外研究中关于半监督分类学习算法主要包括: 、 基于自学习和协同训练的 、 直推式支持向量机的方 、 密度变化的方法
[4 ]
需要注意的是, 自训练方法在迭代过程中, 如果初 则可能会出 始的训练样本集中已标注样本数量过少, 并通过迭代使错误逐渐被放大, 最终导致 现错误标注, 24]和文献[ 26]通过使用切边权重 错误累积 。文献[ 统计和对原始特征空间进行重采样来降低数据噪声 。 ( 2 ) 改进的基于 K 近邻自训练短文本分类算法 c2 , 为了方便描述, 给定类别( 标签) 集合 C = { c1 , …, c |c| } , 训练样本集合 R 由已标注样本集合 L 和未标 注样本集合 U 组成 。
1
引
言
随着即时通信和互联网技术的不断发展, 网络中的信息每天都在以一定的速率增长, 网络生活中最常见的 如: 微博及其评论 、 聊天记录 、 手机短消息 、 科技文献摘要 、 搜索引擎返回的结果和社区论坛中的发帖回复等形式 的短文本信息, 其中可能隐藏着有价值的信息内容, 因而对短文本进行有效的组织分类是非常有必要的 。 短文本 所包含的形式多样, 通常是指控制在 160 字左右的文本, 经常以口语化 、 生活化的不规则形式出现, 特征词较少且 K- 词与词之间的信息关联性较弱, 然而目前较为常用的传统文本分类方法, 如基于统计的方法: Nave Bayes、
[4 ]
, 提出 图1 2. 2 传统 文本分 类流程 与 短 文本分 类 流程
一种基于半监督学习的文本分类方法来实现对短文本 的有效分类 。该方法通过使用外部知识资源库对短文 构建基于监 本进行信息扩充以解决特征稀疏等问题, 经过不断迭代对训练 督学习的中间过程初始分类器, 样本中的未标注部分进行半监督自训练, 用更新过的 训练样本集来构建最终的分类器, 达到充分利用大量 的未标注样本来提高分类器性能的目的 。 半监督学习研究 从已有的分类研究成果可以看出, 大多数方法是 基于监督学习的
收稿日期: 2013 - 01 - 27 收修改稿日期: 2013 - 02 - 12
。另外, 传统的文本分类方法需要对大量的已
30
现代图书情报技术
总第 230 期 2013 年
第2 期
标注样本进行学习训练, 人工标注大量无标记短文本 的难度较大且耗时耗力 。而半监督学习可在已标注样 本较少的情况下, 结合大量未标注样本进行综合学习 从而解决标注瓶颈问题, 这 来构建性能良好的分类器, 在理论与实践上都具有一定的意义 。 因此, 本文将半监督学习的思想引入文本分类中, 改进地使用维基百科对短文本进行特征扩展
[1 ] Nearest Neighbor、 类中心向量法 、 回归模型 、 支持向量机和最大熵模型等 ; 基于连接的方法: 人工神经网络; 基于
规则的方法: 决策树法和关联规则等
[2 ]
; 这些方法大多是以长文本作为研究对象 。考虑到短文本与长文本的不同
[3 ]
特点, 直接使用传统的方法会在很大程度上影响文本分类的效果
[14 ] [13 ]
通过使用属性选择技
术构建半监督分类模型 。 同时, 也有学者将注意力集 中到使用或构建本体等来进行短文本的特征词扩展, 通过扩充短文本的语义信息来弥补短文本特征稀疏的 问题
[8 - 10 ]
。史伟等
[11 ]
与理论框架的
对微博进行抽取和情感分析, 从
, Shahshanani 等
[15 ]
较早开始了 对半监 督
而建立模糊情感本体 。但由于引入或构建的外部资源 库可能存在适用领域范围小 、 可扩展性较差等因素, 很 4] 12] 难适应互联网发展的进度 。 文献[ 和文献[ 提出 通过引入具有覆盖领域知识面较广的在线百科全书来 对短文本进行分类和聚类, 扩充了短文本的信息, 但该 类方法没有考虑到在已标注样本较少时的学习问题以 及训练样本中未标注部分的价值 。传统文本分类与基 于对训练样本集进行扩展的短文本分类工作流程如图 1 所示, 本文 采 用 图 1 ( b ) 的 思 想 对 短 文 本 进 行 特 征 扩展。
[4 , 8, 9 ]
, 虽然已取得较好的效果, 但是
这类方法的使 为了保证分类器具有良好的泛化能力, 用需要以存在大量已标注语料为前提 。 如图 2 所示, 基于监督学习的传统分类方法主要是通过对训练样本 推导出相应的关系 集中的已标注部分进行学习训练, 模型, 再利用模型对测试样本进行预测判断 。 该方法 忽略了样本集合中数量颇为丰富的未标注部分的存在 价值。而半监督学习分类方法的主要思想则是通过将 已标注样本和未标注样本综合利用来进行分类器的训 练, 既保证了训练速度又可以提高分类的效果 。
[21 ] [19 ]
和基于图的方法
等。其中, 基于自训练的半监
督学习方法可以在具有少量标注数据且无误标记样本 的情况下进行, 并达到较好的训练效果, 操 作实Biblioteka Baidu 简 单。Nigam 等
[22 ]
通过使用 EM 算法对未经标注的文本
XIANDAI TUSHU QINGBAO JISHU
31
知识组织与知识管理
入中间结果提出基于自训练的半监督学习算法 STEM , 24]则是借助切边 提高分类器学习计算效率 。 文献[ 权重统计方法对自标记的样本集进行修正 。 本文就是 基于自训练的方法来进行半监督学习 。
3
3. 1
用于短文本分类的半监督学习算法
基本思想 由于短文本存在缺少描述信息 、 特征较为稀疏以
及因存在大量未标注样本而造成的标注瓶颈等缺陷, 直接使用传统文本分类方法已不能满足短文本分类的 需要, 因此对此类文本需要进行预先处理 。 一些研究 文献 提出通过引入特征扩展的方式来解决这类问题, [ 4] 借助外部网络知识库维基百科进行概念抽取并建 立语义概念集合以实现测试样本的语义特征扩展, 再 用基于监督学习的传统文本分类算法构建分类器实现 但该方法没有考虑到已标注数据较少时存 文本分类, 在的学习问题 。本文通过使用基于维基百科的方法对 训练样本进行语义特征扩展, 并结合半监督学习的思 想提出一种用于短文本分类的半监督学习方法 。 与文 4] 献[ 不同之处在于, 本文是通过扩展训练样本集的 并限制选取扩展特征词的个数, 以减少扩展 语义特征, 后引入过多噪声而造成的效果不明显, 然后使用基于 自训练的半监督学习方法, 充分利用未标注样本改进 分类器性能 。 3. 2 短文本特征扩展 按照图 1 ( b) 所示的短文本分类流程, 为实现文本 的特征扩展, 需要从外部知识库中将页面描述内容与 并使用统计规律和分 类别之间的相关关系提取出来, 类信息将其量化, 建立语义相关概念集合, 然后将该集 合作为语义信息基础对短文本进行扩展, 并计算扩展 后特征词的权重 。本文使用维基百科来构建语义相关 概念集合
2
2. 1
相关理论研究现状
短文本分类研究 短文本是近年来网络中较为常见的文本信息形
式, 存在数量很多, 篇幅较短小, 含有的特征词较少, 词 对海量的这类文本进行基于 与词之间的关联性不强, 语料库的人工标注十分困难, 易形成标注瓶颈, 利用传 统的方法对此类文本进行分类不能达到理想的分类效 果, 因此已不能满足短文本分类的需要
[23 ]
进行学习, 构建半监督文本分类模型 。 张博锋等
引
然后再将数量较多的未经标注的样本 监督学习训练, 预测得出 加入到训练所得的初始分类器中进行预测, 的数值越大代表分类取得的置信度越高, 将置信度较 高的文本连同其分类标注一起加入到训练集中作为新 迭代训练直到满足条件为 的训练样本集进行再学习, 止。自训练在方法的使用上具有以下特点:
①封装性 该方法通过对同一集合中的未标注数据进行自我预测, 实现对已标注数据集的扩大, 不断迭代直到所有 未 标 注 数据 更新为带有标注的数据为止, 自始至终是一个围绕 自我 内部 进行迭代重复学习的过程。 ②开放性 从宏观的角度, 自训练的方法可以被看成一个学 习 的框 架, 通过选择不同的 分 类 方法嵌 入使用, 能够 比 较 方 便地应 用到不同情况中从而更好地解决问题, 体现了此 方法 的开放 性, 本文就是将 传统分 类 算 法 KNN 与 半监督 Self - Training 算法结合使用的。