利用上下位关系的中文短文本分类
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(重庆邮电大学 计算机科学与技术研究所 ,重庆 400065) (ws3711718@ yahoo. com. cn)
摘 要 :针对短文本长度短 、描述信号弱的特点 ,提出了一种利用上下位关系的中文短文本分类框架 。该框架首 先利用“知网 ”确定训练文本中概念对的上下位关系 ,进而确定词语对的上下位关系 ,再将其用于扩展测试文本的特 征向量 ,从而实现对测试文本的分类 。实验表明 :利用上下位关系能够改善短文本的分类性能 。
系为这 m ×n个概念对的上下位关系的整合 ,这种整合过程分
为以下 3步 。
a) 确定概念对 (A i, B j ) 在文本集合中的分布概率 。 设 F (A i , B j ) 为概念对 (A i, B j ) 的出现频率 , P (A i, B j ) 为 (A i , B j ) 的分布概率 ,采用式 ( 2) 计算 P (A i, B j ) :
图 2 《知网 》特征文件中的上下位关系 “知网 ”作者认为 DEF项的第一位置所标注的必须是知 网所规定的主要特征 。 为了获取概念间的上下位关系 , 本文利用首义原描述概 念的特殊作用 ,根据首义原在层次体系中的语义距离来度量
概念对 (A i, B j ) 间上下位关系强度 :
D eg ree (A i, B j )
60 4
计算机应用
第 30卷
系? 对于一个给定的文本集合 ,集合中词语间关系不同于概
念间的关系 ,它应该是能够反映该文本集合特征的关系词对 。 对于只有单个概念的词语 ,文本集合中词对间的关系等价于 概念间的关系 。但是对于多义词 ,因为一个词语可能含有多 个概念 ,所以一个词对对应多个概念对 。如图 1 所示 , 词语 A、B 均含有 3个概念 , 构成对应的 9 (3 ×3)个概念对 。
概念间的关系强度判为 0。
②利用概念对的上下位关系确定词对 (A, B ) 之间的上
下位关系 。
按照问题 2的分析 ,本文认为在一个给定文本集合中 ,词
对上下位关系为对应的各个概念对的上下位关系的一种整
合 。例如 :词对 (A, B ) ,设 A在“知网 ”中有 m 个概念 , B 有 n个 概念 ,一共对应“知网 ”中的 m ×n个概念对 , A、B 间的上下关
第 30卷第 3期 2010年 3月
计算机应用 Journal of Computer App lications
Vol. 30 No. 3 M ar. 2010
文章编号 : 1001 - 9081 (2010) 03 - 0603 - 04
利用上下位关系的中文短文本分类
王 盛 ,樊兴华 ,陈现麟
Leabharlann Baidu
收稿日期 : 2009 - 09 - 14;修回日期 : 2009 - 11 - 11。 基金项目 :国家自然科学基金资助项目 ( 60703010) ;教育部回国留学人员启动基 金资助项目 (教外司留 [ 2007 ]1108号 ) ;重庆市自然科学基金资助项目 (2009BB2079) 。 作者简介 :王盛 (1982 - ) ,男 ,四川乐山人 ,硕士研究生 ,主要研究方向 : 中文信息处理 ; 樊兴华 ( 1972 - ) ,男 ,重庆人 ,教授 ,博士 ,主要研 究方向 :人工智能 、自然语言处理 、信息检索 ; 陈现麟 (1984 - ) ,男 ,湖南岳阳人 ,硕士研究生 ,主要研究方向 :中文信息处理 。
的下位概念 , c2 称为 c1 的上位概念 ,记作 h r( c1 , c2 ) 。 在上下位关系获取中 ,采用的知识源类型多种多样 ,通常
分为三类 :结构化文本 (如数据库中的数据 ) 、半结构化文本 (如词典 、百科全书 )和自由文本 (自然语言语句组成的文本 , 如普通 W eb网页 ) [7 ] 。上下位关系有着广泛的应用 ,例如对 本体 、知识库 、词典进行扩充和完善 ,以用于自然语言处理系 统 、信息抽取和信息检索等领域 。
=
25 5+
; d
0
<
5≤1
(1)
其中 : 5是一个可调节的参数 ; d为义原层次树中义原间的上
下距离 。计算规则如下 。
a) 如果一个义原是另一个义原的子节点 , 或通过子节点
有一条路径到达另一个义原 ,则 d为它们之间的路径距离 ;
b) 其他则认为义原之间不存在上下关系 ,设 d为 + ∞。
当 d大于 3时 ,认为义原间的语义距离较远 ,从而直接将
( Institute of Com pu ter S cience and Technology, Chongqing U n iversity of Posts and Telecomm un ica tions, Chongqing 400065, Ch ina)
Abstract: Concerning the short length and weak signal to describe the characteristics of short text, a framework of Chinese short2text classification was put forward by using hyponymy. In order to achieve the classification of the test text, the framework first used " Hownet" to determ ine the hyponymy between concep t pairs in training text, thus determ ining the hyponymy between word pairs, and then the feature vectors of test text were extended. The experimental results show that short2text classification performance can be imp roved by using the hyponymy.
Key words: short2text; Hownet; hyponymy relation; feature extension
0 引言
短文本通常指文本长度小于 160个字符 ,一般以手机短 信 、网页评论和网络聊天信息等形式存在的文本 。短文本的 自动分类是手机短信息过滤等现实任务的基础 ,具有重要的 应用前景 。由于短文本具有文本长度短 、所描述概念信号弱 的特点 ,传统的文本分类方法 [1 - 2 ]都不能很好地应用到短文 本中 [3 ] 。
∑ P (A i, B j ) =
F (A i, B j ) F (A i, B j )
(2)
0 < i≤m
0 < j≤n
确定概念对频率的方法如下 。
( a) 将文本中的词对 (A, B ) 对应为“知网 ”中的两个概
念 ,构成概念对 (Ax , B y ) 。如果 A 或 B 只有一个意思 , 则直接 对应 ;如果是多义词 , 则对该词语做语义消歧 , 确定词语在上
1 利用上下位关系进行短文本分类关键问题
上下位关系 如果给定概念 c1 , c2 , c1 的同义词集合为 { c1 , c1 ′, …} , c2 的同义词集合为 { c2 , c2 ′, …} , 若 c2 的外延包 括 c1 的外延 ,则认为 c1 和 c2 具有上下位关系 ,其中 c1 称为 c2
在图 1所示的 9个概念对中 ,可能有些存在上下位关系 , 有些不存在 。在一个给定的语言环境中 ,词对可能对应 9个 概念对中的任意一种 ,在多篇文本构成的文本集合中 ,词对间 的关系无法等价于某个概念间的关系 。
图 1 一词多义现象 对于多义词的特征扩展可以有以下两种解决方案 : 1)对待分类文本作词义排歧 ,确定词语在文本中对应的 概念后 ,判断该概念对是否在训练文本中 ,再根据关系构成情 况决定是否进行特征扩展 ; 2)将各个概念对的关系整合为整个文本集中的词语间 关系 ,使用关系词对来对待分类文本做特征扩展 。 由于文本分类是一个在线的过程 ,词义排歧将给分类带 来昂贵的时空代价 ,因此第一种方案不可行 ,只能采取第二种 方案 ,根据概念之间的关系确定给定背景下的词语间的关系 。 问题 3 上下位关系是否有助于短文本分类性能的提 高? 本文采用了一种类似文献 [ 12 ]中的特征扩展方法 ,用关 系词对扩展测试文本 ,以 6类短文本作为实验语料 ,采用 CH I 特征选择方法 ,以朴素贝叶斯为分类器 ,对此问题进行实验研 究。
关键词 :短文本 ;知网 ;上下位关系 ;特征扩展 中图分类号 : TP391. 1; TP18 文献标志码 : A
Ch inese short text cla ssif ica tion ba sed on hyponym y rela tion
WANG Sheng, FAN Xing2hua, CHEN Xian2lin
利用上下位关系来辅助短文本分类 ,必须解决以下三个 问题 。
问题 1 如何确定概念之间的上下位关系 ? 目前上下位关系的获取方法主要有两种 :一种是基于模 式匹配的上下位关系获取方法 [7 - 8 ] ;一种是基于统计的上下 位关系获取方法 [9 - 11 ] 。其中前者是主流的方法 ,该方法通过 分析真实文本中的关系实例 ,获取特定的语言模式 ,然后利用 模式匹配发现上下位关系 。第二种是基于统计的方法 ,该方 法对文本数据进行统计分析 ,采用层次聚类 、分类 、和关联规 则等方法获取上下位关系 。 第一种方法其适用性与语料本身有关 。由于短文本大多 以短信息或网页评论的形式存在 ,表达不规范 ,使得相当一部 分上下位关系词对并不严格按照某种模式存在 。而基于统计 的方法以获取丰富的统计信息为基础 ,短文本具有长度短 、描 述概念信号弱的特点 ,这些特点给统计信息的获取带来很大 的困难 。因此本文在抽取上下位关系的时候采用了引入外部 资源的思想 ,通过借助外部资源中的额外信息来辅助抽取上 下位关系 ,以克服短文本长度短 、描述信号弱的先天缺陷 。 问题 2 如何将概念间的关系整合为词语间的上下位关
下文中的概念 。本文实验中选用的是一种基于义原同现频率
的汉语语义消歧方法 [14 ] 。
( b) 在文本集合中重复 ( a) 步 ,统计概念对 (A i, B j ) 在文 本集合中的出现次数 ,即得到 F (A i, B j ) 。
b) 计算概念对的贡献程度 。
短文本分类的一种可行途径是利用一些额外的信息来辅 助分类 [4 - 6 ] ,引入额外信息的目的是挖掘短文本所表达的信 息量 ,以弥补短文本天生的固有缺陷 。而词语间上下位关系 作为一种重要的语义关系 ,利用这种关系扩展短文本的特征 向量 ,能够在一定程度上弥补短文本所描述概念不显著的缺 陷。
例如 :宝马的外观非常重要 。假设将该短文本表示为特 征向量 (外观 ,重要 ) ,文本中“宝马 ”一词虽然有较强的类别 描述能力 ,但由于其出现频率低而不在特征空间中 ,而“宝 马 ”的上位词“汽车 ”的出现频率较高 ,较容易出现在特征空 间列表中 ,将其扩展进文本后 ,其特征向量变为 (汽车 ,外观 , 重要 ) ,相比扩展前 ,扩展后的特征向量类别描述能力有较大 的提高 。
2 利用上下位关系进行短文本分类整体框架
本文提出了一个利用上下位关系进行短文本分类的整体 框架 。该框架分为以下两部分 。
1)从训练文本集中抽取具有上下位关系的词语对集合 。 ①借助“知网 ”确定概念对 (A i, B j ) 间的上下位关系 。 “知网 ”[13 ]是我国著名机器翻译专家董振东先生逾十年 功夫创建的一个知识系统 。“知网 ”使用一种“知识表示语 言 ”来描述“概念 ”,这种“知识表示语言 ”所用的“词汇 ”叫作 “义原 ”。“义原 ”是用于描述一个“概念 ”的最小意义单位 。 “知网 ”的义原以树形结构存在于特征文件中 ,所以特征 文件中包含了义原之间的上下位关系 ,如图 2所示 。
摘 要 :针对短文本长度短 、描述信号弱的特点 ,提出了一种利用上下位关系的中文短文本分类框架 。该框架首 先利用“知网 ”确定训练文本中概念对的上下位关系 ,进而确定词语对的上下位关系 ,再将其用于扩展测试文本的特 征向量 ,从而实现对测试文本的分类 。实验表明 :利用上下位关系能够改善短文本的分类性能 。
系为这 m ×n个概念对的上下位关系的整合 ,这种整合过程分
为以下 3步 。
a) 确定概念对 (A i, B j ) 在文本集合中的分布概率 。 设 F (A i , B j ) 为概念对 (A i, B j ) 的出现频率 , P (A i, B j ) 为 (A i , B j ) 的分布概率 ,采用式 ( 2) 计算 P (A i, B j ) :
图 2 《知网 》特征文件中的上下位关系 “知网 ”作者认为 DEF项的第一位置所标注的必须是知 网所规定的主要特征 。 为了获取概念间的上下位关系 , 本文利用首义原描述概 念的特殊作用 ,根据首义原在层次体系中的语义距离来度量
概念对 (A i, B j ) 间上下位关系强度 :
D eg ree (A i, B j )
60 4
计算机应用
第 30卷
系? 对于一个给定的文本集合 ,集合中词语间关系不同于概
念间的关系 ,它应该是能够反映该文本集合特征的关系词对 。 对于只有单个概念的词语 ,文本集合中词对间的关系等价于 概念间的关系 。但是对于多义词 ,因为一个词语可能含有多 个概念 ,所以一个词对对应多个概念对 。如图 1 所示 , 词语 A、B 均含有 3个概念 , 构成对应的 9 (3 ×3)个概念对 。
概念间的关系强度判为 0。
②利用概念对的上下位关系确定词对 (A, B ) 之间的上
下位关系 。
按照问题 2的分析 ,本文认为在一个给定文本集合中 ,词
对上下位关系为对应的各个概念对的上下位关系的一种整
合 。例如 :词对 (A, B ) ,设 A在“知网 ”中有 m 个概念 , B 有 n个 概念 ,一共对应“知网 ”中的 m ×n个概念对 , A、B 间的上下关
第 30卷第 3期 2010年 3月
计算机应用 Journal of Computer App lications
Vol. 30 No. 3 M ar. 2010
文章编号 : 1001 - 9081 (2010) 03 - 0603 - 04
利用上下位关系的中文短文本分类
王 盛 ,樊兴华 ,陈现麟
Leabharlann Baidu
收稿日期 : 2009 - 09 - 14;修回日期 : 2009 - 11 - 11。 基金项目 :国家自然科学基金资助项目 ( 60703010) ;教育部回国留学人员启动基 金资助项目 (教外司留 [ 2007 ]1108号 ) ;重庆市自然科学基金资助项目 (2009BB2079) 。 作者简介 :王盛 (1982 - ) ,男 ,四川乐山人 ,硕士研究生 ,主要研究方向 : 中文信息处理 ; 樊兴华 ( 1972 - ) ,男 ,重庆人 ,教授 ,博士 ,主要研 究方向 :人工智能 、自然语言处理 、信息检索 ; 陈现麟 (1984 - ) ,男 ,湖南岳阳人 ,硕士研究生 ,主要研究方向 :中文信息处理 。
的下位概念 , c2 称为 c1 的上位概念 ,记作 h r( c1 , c2 ) 。 在上下位关系获取中 ,采用的知识源类型多种多样 ,通常
分为三类 :结构化文本 (如数据库中的数据 ) 、半结构化文本 (如词典 、百科全书 )和自由文本 (自然语言语句组成的文本 , 如普通 W eb网页 ) [7 ] 。上下位关系有着广泛的应用 ,例如对 本体 、知识库 、词典进行扩充和完善 ,以用于自然语言处理系 统 、信息抽取和信息检索等领域 。
=
25 5+
; d
0
<
5≤1
(1)
其中 : 5是一个可调节的参数 ; d为义原层次树中义原间的上
下距离 。计算规则如下 。
a) 如果一个义原是另一个义原的子节点 , 或通过子节点
有一条路径到达另一个义原 ,则 d为它们之间的路径距离 ;
b) 其他则认为义原之间不存在上下关系 ,设 d为 + ∞。
当 d大于 3时 ,认为义原间的语义距离较远 ,从而直接将
( Institute of Com pu ter S cience and Technology, Chongqing U n iversity of Posts and Telecomm un ica tions, Chongqing 400065, Ch ina)
Abstract: Concerning the short length and weak signal to describe the characteristics of short text, a framework of Chinese short2text classification was put forward by using hyponymy. In order to achieve the classification of the test text, the framework first used " Hownet" to determ ine the hyponymy between concep t pairs in training text, thus determ ining the hyponymy between word pairs, and then the feature vectors of test text were extended. The experimental results show that short2text classification performance can be imp roved by using the hyponymy.
Key words: short2text; Hownet; hyponymy relation; feature extension
0 引言
短文本通常指文本长度小于 160个字符 ,一般以手机短 信 、网页评论和网络聊天信息等形式存在的文本 。短文本的 自动分类是手机短信息过滤等现实任务的基础 ,具有重要的 应用前景 。由于短文本具有文本长度短 、所描述概念信号弱 的特点 ,传统的文本分类方法 [1 - 2 ]都不能很好地应用到短文 本中 [3 ] 。
∑ P (A i, B j ) =
F (A i, B j ) F (A i, B j )
(2)
0 < i≤m
0 < j≤n
确定概念对频率的方法如下 。
( a) 将文本中的词对 (A, B ) 对应为“知网 ”中的两个概
念 ,构成概念对 (Ax , B y ) 。如果 A 或 B 只有一个意思 , 则直接 对应 ;如果是多义词 , 则对该词语做语义消歧 , 确定词语在上
1 利用上下位关系进行短文本分类关键问题
上下位关系 如果给定概念 c1 , c2 , c1 的同义词集合为 { c1 , c1 ′, …} , c2 的同义词集合为 { c2 , c2 ′, …} , 若 c2 的外延包 括 c1 的外延 ,则认为 c1 和 c2 具有上下位关系 ,其中 c1 称为 c2
在图 1所示的 9个概念对中 ,可能有些存在上下位关系 , 有些不存在 。在一个给定的语言环境中 ,词对可能对应 9个 概念对中的任意一种 ,在多篇文本构成的文本集合中 ,词对间 的关系无法等价于某个概念间的关系 。
图 1 一词多义现象 对于多义词的特征扩展可以有以下两种解决方案 : 1)对待分类文本作词义排歧 ,确定词语在文本中对应的 概念后 ,判断该概念对是否在训练文本中 ,再根据关系构成情 况决定是否进行特征扩展 ; 2)将各个概念对的关系整合为整个文本集中的词语间 关系 ,使用关系词对来对待分类文本做特征扩展 。 由于文本分类是一个在线的过程 ,词义排歧将给分类带 来昂贵的时空代价 ,因此第一种方案不可行 ,只能采取第二种 方案 ,根据概念之间的关系确定给定背景下的词语间的关系 。 问题 3 上下位关系是否有助于短文本分类性能的提 高? 本文采用了一种类似文献 [ 12 ]中的特征扩展方法 ,用关 系词对扩展测试文本 ,以 6类短文本作为实验语料 ,采用 CH I 特征选择方法 ,以朴素贝叶斯为分类器 ,对此问题进行实验研 究。
关键词 :短文本 ;知网 ;上下位关系 ;特征扩展 中图分类号 : TP391. 1; TP18 文献标志码 : A
Ch inese short text cla ssif ica tion ba sed on hyponym y rela tion
WANG Sheng, FAN Xing2hua, CHEN Xian2lin
利用上下位关系来辅助短文本分类 ,必须解决以下三个 问题 。
问题 1 如何确定概念之间的上下位关系 ? 目前上下位关系的获取方法主要有两种 :一种是基于模 式匹配的上下位关系获取方法 [7 - 8 ] ;一种是基于统计的上下 位关系获取方法 [9 - 11 ] 。其中前者是主流的方法 ,该方法通过 分析真实文本中的关系实例 ,获取特定的语言模式 ,然后利用 模式匹配发现上下位关系 。第二种是基于统计的方法 ,该方 法对文本数据进行统计分析 ,采用层次聚类 、分类 、和关联规 则等方法获取上下位关系 。 第一种方法其适用性与语料本身有关 。由于短文本大多 以短信息或网页评论的形式存在 ,表达不规范 ,使得相当一部 分上下位关系词对并不严格按照某种模式存在 。而基于统计 的方法以获取丰富的统计信息为基础 ,短文本具有长度短 、描 述概念信号弱的特点 ,这些特点给统计信息的获取带来很大 的困难 。因此本文在抽取上下位关系的时候采用了引入外部 资源的思想 ,通过借助外部资源中的额外信息来辅助抽取上 下位关系 ,以克服短文本长度短 、描述信号弱的先天缺陷 。 问题 2 如何将概念间的关系整合为词语间的上下位关
下文中的概念 。本文实验中选用的是一种基于义原同现频率
的汉语语义消歧方法 [14 ] 。
( b) 在文本集合中重复 ( a) 步 ,统计概念对 (A i, B j ) 在文 本集合中的出现次数 ,即得到 F (A i, B j ) 。
b) 计算概念对的贡献程度 。
短文本分类的一种可行途径是利用一些额外的信息来辅 助分类 [4 - 6 ] ,引入额外信息的目的是挖掘短文本所表达的信 息量 ,以弥补短文本天生的固有缺陷 。而词语间上下位关系 作为一种重要的语义关系 ,利用这种关系扩展短文本的特征 向量 ,能够在一定程度上弥补短文本所描述概念不显著的缺 陷。
例如 :宝马的外观非常重要 。假设将该短文本表示为特 征向量 (外观 ,重要 ) ,文本中“宝马 ”一词虽然有较强的类别 描述能力 ,但由于其出现频率低而不在特征空间中 ,而“宝 马 ”的上位词“汽车 ”的出现频率较高 ,较容易出现在特征空 间列表中 ,将其扩展进文本后 ,其特征向量变为 (汽车 ,外观 , 重要 ) ,相比扩展前 ,扩展后的特征向量类别描述能力有较大 的提高 。
2 利用上下位关系进行短文本分类整体框架
本文提出了一个利用上下位关系进行短文本分类的整体 框架 。该框架分为以下两部分 。
1)从训练文本集中抽取具有上下位关系的词语对集合 。 ①借助“知网 ”确定概念对 (A i, B j ) 间的上下位关系 。 “知网 ”[13 ]是我国著名机器翻译专家董振东先生逾十年 功夫创建的一个知识系统 。“知网 ”使用一种“知识表示语 言 ”来描述“概念 ”,这种“知识表示语言 ”所用的“词汇 ”叫作 “义原 ”。“义原 ”是用于描述一个“概念 ”的最小意义单位 。 “知网 ”的义原以树形结构存在于特征文件中 ,所以特征 文件中包含了义原之间的上下位关系 ,如图 2所示 。