1 基于位置的文本特征加权方法研究

合集下载

一种有指导的文本特征加权改进算法

一种有指导的文本特征加权改进算法

基础 上,提 出一种基于有指 导的改进文本特征加权 方法 tf f i f d o该改进方法结合 tif tr 2种 方法 的特 点 ,考虑词在总体文档及各 类别 i fd 和 ff . .
文档之 间的关系 ,实现文 本特征 加权 。实验结果表 明 ,该方法的分类能 力比 tr方法有 明显提 升。 ff .
[ src ]T et dt n lfd ag rh cnn ttk lav n g f ecaatr t s f aast o lsic t n whc a o f c e Ab ta t h aio a . f lo tm a o ef l d a t eo t h rceii dt e r asf ai , i cnn te et r i ti i a u a h sc o f c i o h rl t h
中圈分类号; P8 T1
种 有指 导 的文本特征 加权 改进 算 法
刘墙 阳 ,陆 洋
( 浙江 工业大学计算机科学 与技 术学院 ,杭州 3 0 2 ) 10 3

要 : 统 tif 传 fd 方法未利 用分类数据 的特性 ,无法 反映词在各个类别之 间的比例关系 。为 此,在 分析有指导的文本特征加权 方法 tf . f .
l 概 述
随着互联 网应 用的普及 ,网络 中已存储 了海 量的文本信 息 ,人们迫切需 要从 文本中挖掘 出有 用的信 息。文本挖掘是 指 从大量文 本数 据中抽取事先未知 的、可理 解的、最终可用
了这一点 。文献【】 5首先指 出了 tif方法的不足 ,在基于有  ̄d 指导 的方法基础 上, 将信息增益结合 tif fd 来改进文本特征加 . 权 。文献[】 6则考虑了词在正类和反类 中的比例 关系,认为 只 要 正类 比反类 占的比例越高 ,该词就越能代 表正类 ,就具 有

基于TFIDF文本特征加权方法的改进研究

基于TFIDF文本特征加权方法的改进研究

Abstract
Aiming at the problem that the document set is dealt with as a whole and the distribution of feature items among and in classes
is not taken into full account when using traditional TFIDF method,an improved TFIDF method which is combined with information entropy is proposed. This method modifies the method of calculating weights of feature items of TFIDF by combining information entropies of feature items among and in classes,which overcomes the defect that the feature items that made less contribution to the categorisation would be given greater weight,thus is able to calculate weights of text feature items more efficiently. Experimental results show that the proposed method enhances recall and precision of text categorisation and is a more effective text feature weighting method. Keywords Term frequencyinverse document frequency ( TFIDF) Text categorisation Feature weighting Vector space model

一种基于概念层次的文本特征权重计算方法

一种基于概念层次的文本特征权重计算方法
摘要: 特征权重计算是文本表示 的关键 , 权重计算方法的优劣直接影响文本分类 和聚类的准确度。基于词形 和词频统计 的特征 加权方法过于近似和粗糙 , 不能有效突出具 有较强类别 区分度 的重要特征 , 难以有效 区分 两类 特征 , 造成 了高维稀疏问题 , 使文 本分类性能不够理想 , 是特征权重计算的主要 障碍 。 出一种基于概念层次的特征权重计算方法 , 这 提 将词空间转移为概念空间, 在概念层次上引入特征支持度 与类别强度两个参数对特征权重进行调整。实验表 明 , 的方法表现 了较好 的分类性能 , 新 在空间 维度的压缩与计算效率上也有 明显 的改善 。 关键词 : 概念空间 ; 特征权重 ; 概念层次 ; 特征支持度; 类别强度
P r r n e o e t r ih i g c mp tt n d r cl nl e c s p e iin o e t c a sf a in o l s r g e o ma c f fa u e we g t o u ai ie t ifu n e r c so f t x ls i c t r c u t i . f n o y i o e n
中 图分 类号 : P 8 T 11 文献标识码: A
An Ap r a h f rT x e t r eg t gC mp tt n Ba e n C n e tHir rh p o c e tF au e W ih i o u ai s d o o c p e ac y o n o
C mp t c n ea dT c nlg, aj gU iesy N nig2 0 9 , hn) o ue S i c n eh oo N ni nvri , aj 10 3 C ia r e y n t n
Abs r c : F au e ta t e t r we g tn c mp t to b ln s o ne f e p o l ms n e t o ume r p e e t t n ih i g o u a in e o g t o o k y r b e i tx d c nt e r Байду номын сангаас n ai . o

一种基于样本加权的位置文本排序算法

一种基于样本加权的位置文本排序算法
务 面临 的挑 战性课 题 。但是 , 独立搜 索引擎存 在着
员 搜索 引擎所 返 回的结果 进行收 集 , 按照一定 然后 的准则 排序 , 终将 排序结 果按一 定顺 序展现 给用 最 户的过 程 。虽 然成 员 搜 索引 擎 的检 索 结 果各 式各
冗余 信息过 载 和索引 数据库 信息覆 盖率低 的 问题 , 不 能提供 大规模 的信 息搜索 , 只有联 合使用 多个搜 索 引擎才 能够满 足用 户需求 。在这种 情况下 , 元搜
索 引擎 系统 应 运 而生 。元 搜 索 引擎 建 立在 多 个 独
样但归纳起来主要由标题 、 摘要和相关度等信息组 成 。因此 , 索引擎 排 序可 以在 成员搜 索引擎排 元搜 序的基础上 , 结合结果的标题、 摘要等信息考虑。 () 1 简单排 序算 法
这 种排序 的方 法 比较 单 一 , 仅 提 高 了 查 全 仅
文章编号
10 5 6 (O 0 O 0 7 0 0 0— 29 2 1 )5— 0 2— 4

种 基 于样 本 加 权 的位 置 文本 排序 算法
敖 飞 , 陈 梅
( 贵州大学 计算机科学与信息学 院, 贵州 贵阳 5 0 2 5 05)

要: 为有 效解 决元搜 索 引擎结 果排 序 的 问题 , 出 了一 种基 于样 本加 权 的位 置文 本排 序 算 提
・ 讯作者 : 通 敖 飞 ,m i:ya18 1@ 16 Cl. E alf _o9 50 2 . O1 l l
第 5期

飞 等 : 种基 于样本加权的位置文本排序算法 一
・ 3・ 7
度, 需要将 查 询 串 q中每个 词 条 t m 与摘 要 a的 e r

基于文本加权词共现的跨语言文本相似度分析

基于文本加权词共现的跨语言文本相似度分析

基于文本加权词共现的跨语言文本相似度分析跨语言文本相似度分析是指在不同语言之间比较文本的相似程度。

基于文本加权词共现的方法是一种常用的跨语言文本相似度分析方法。

该方法首先对文本进行分词处理,然后计算文本中每个词的权重,并构建词共现矩阵。

接着利用词共现矩阵计算文本之间的相似度。

具体步骤如下:
1.分词处理:对文本进行分词处理,将文本中的词语切分出来。

2.计算词权重:对于每个词,可以利用TF-IDF等方法计算其权重。

TF-IDF是一种常用的词权重计算方法,它可以反映词语在文档中的重要程度。

3.构建词共现矩阵:根据文本中词语的共现关系,构建词共现矩阵。

在矩阵中,每一行或每一列代表一个词,矩阵中的元素表示这两个词的共现频率。

4. 计算文本相似度:利用词共现矩阵计算文本之间的相似度。

常用的方法有余弦相似度、Jaccard相似度等。

通过以上步骤,可以实现基于文本加权词共现的跨语言文本相似度分析。

这种方法可以有效地处理不同语言之间的文本相似度比较,为文本信息检索、机器翻译等任务提供支持。

基于同义词词林的文本特征选择与加权研究

基于同义词词林的文本特征选择与加权研究
维之 间更 独立 的特 征空 间_J 3。这 些 方 法 力 求 挖 掘 出 词 条 与 词
语 义 分 析是 自然语 言 处理 领 域 的一 个 概 念 , 义 地 说 是 对 广 各级语 言 单位 , 单 词 、 组 、 子 、 群 所 包 含 的 意 义 和 在 语 即 词 句 句 言使 用过 程 中所 产 生 的意 义进 行 分 析 , 包 含 了词 与 词 之 间 的 它 同义 和蕴 含 关 系 。同 时 专 业 词 汇 的 出现 是 对 文 档 主 题 的 高 度
论 和机 器 学习 方 法 , 比较 著名 的有 信 息 增 益 、 望交 叉 熵 、 本 期 文 证据 权 , 统 计 等 _ J 很多 研 究 者 都 已经 通 过 实 验 证 明 它们 1 ,
是非 常 好 的文 本 特 征 选 择 方 法 。 上述 特 征 选 较 为 有 效 地 去 除 特 征 空 间 中 的 噪音 , 即 但
底 性 和专 门性 。其 中彻 底 性 指 文 本 所 讨 论 的 内 容 被 特 征 词 覆
盖 的程度 ; 门性 指 特 征 词 必 须 能 反 映 文 本 的具 体 内 容 , 不 专 而 是 泛 泛而 谈 。所 以对 于 中文文 本 特 征 的提 取 , 难 度 体 现 在 建 其 立 完 整的 汉语 概 念 体 系的 困难 以及语 法 、 义 和语 用 分 析 的困 语
分 散 了同 一 概 念 的 频 率 。例 如 计算 机 的 同 义 词 有 电 脑 、 机 微 等, 当作 者交 替 使 用 计 算 机 的同 义 词 来 表 达 这 一 概 念 时 , 果 如 只统 计“ 算 机 ” 词 频 , 可 能 该 词 的频 率 并 不 高 , 而 导 致 计 的 有 从 在特 征提 取 时将 其 不 正确 的滤 除 。因 此 , 词 频统 计 时将 表 达 在 同一 概念 的 多个 同义词 进 行词 频 合 并 , 可 以将 原有 特 征提 取 就

一种基于特征加权的KNN文本分类算法

一种基于特征加权的KNN文本分类算法
2l 耳4月 0O

电 脑 学 习
第2 期
种基 于特征加权 的 K N文本分类算法 ’ N 术
赵俊杰” 盛剑锋”’ 陶新民“”
KN N算法 。但 政 进 的 K NN分 类 算法大 多数 是 建立 在 样本 选 择 的 基础 上 。印 以 抽失 分 类 精度 换 取分 类 速 度 。针 对 传
式分 类 贡献 的 不同 . 不 同 的特 征 赋 予不 同 的权 值 . 高 重 要 特征 的 作 用 . 给 提 从而 提 高 了算法 的分 龚 精 度 。矗 后 绘 出实 验 结 栗 并对 实验 数 据 进 j 分 析得 出 结论 。 亍
_’ ’
关 键词 :特征加权
K最近邻
文本分类
针对传统的 K N文本分类算法 的不足 , N 出现了很多改
进 的 K N 算法 , N 目前主要通过两种途径来减小 K N算法 N
本。 计算其 与训练样本集 中每个文本的相似度, 出 K 个 找
相似度 )。 这就大大降低了算法的效率I 2 1 。
K N文本分类算法 的基本思 想是根据传统 的向量空 N
间模型 , 文本内容被形 式化 为特 征空 间中的加权特征 向量,
即 D D ( T , ;T , ;… ; nWn I = 1 Wl 2W2 T , )l l 于 一 个测 试 文 。对
l oi m. re e p r na rs ls r rs ne a d te e p i na aa a ayi o e min i lo ahe e ag r h 1h x e me t eu t ae p ee td n h x rme tl d t n lss e n h o s as c ivd. t i l e

文本分类中的特征选择与权重调整算法

文本分类中的特征选择与权重调整算法

文本分类中的特征选择与权重调整算法文本分类是一项重要且高度复杂的任务,它在自然语言处理领域扮演着重要角色。

在文本分类中,特征选择和权重调整算法是关键步骤,对整个系统的性能有着重要影响。

本文将探讨特征选择和权重调整在文本分类中的作用和方法。

一、特征选择在文本分类中,特征选择是为了选择出对分类任务最具有区分性的特征。

特征选择方法可以分为三类:过滤式、包裹式和嵌入式。

过滤式方法是在特征选择和分类之前独立进行的,通常基于特征的统计信息,如互信息、卡方检验等。

包裹式方法是将特征选择作为一个优化问题,在特征选择和分类之间构建一个评估模型,并进行搜索。

嵌入式方法是将特征选择与分类算法一同训练,通过算法学习自动选择最佳特征。

二、特征权重调整算法在文本分类中,特征权重调整算法是为了调整各个特征对分类结果的重要性。

常见的特征权重调整算法有TF-IDF、CHI、IG等。

TF-IDF(词频-逆文档频率)是一种经典的特征权重计算方法,它通过计算词频和逆文档频率来评估一个词的重要性。

CHI(卡方检验)是一种统计方法,用于衡量特征和类别之间的相关性。

IG (信息增益)则是通过信息熵来衡量特征对分类结果的贡献。

三、特征选择与权重调整算法的结合应用在实际应用中,特征选择和权重调整算法常常结合使用,以达到更好的分类效果。

特征选择可以排除一些冗余和无关的特征,减少维度,提高分类效率。

同时,特征权重调整算法可以对选取的特征进行加权,强调重要特征,减弱次要特征的影响。

在文本分类任务中,选取合适的特征选择和权重调整算法是至关重要的。

不同的特征选择和权重调整算法适用于不同的文本分类问题,因此,根据具体的问题域,选择合适的算法是非常必要的。

此外,还可以通过组合多种特征选择和权重调整算法的结果,来进一步提高分类性能。

例如,可以采用集成学习的方法,通过投票或者加权平均等方式来融合不同的算法结果,以得到更好的分类效果。

总结起来,特征选择和权重调整算法在文本分类中起着至关重要的作用。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

26卷 第2期2009年2月微电子学与计算机M ICROEL ECTRON ICS &COMPU TERVol.26 No.2February 2009收稿日期:2008-05-13基金项目:国家自然科学基金项目(70571087)基于位置的文本特征加权方法研究刘海峰,姚泽清,汪泽焱,张学仁(解放军理工大学理学院,江苏南京210007)摘 要:TF 2IDF 是文本特征赋权的常用方法.该方法简单易行,但没有考虑位置因素对特征赋权的影响.通过修改因子,分析不同条件下文本表现形式的差异,提出3个基于位置的文本特征加权方法.随后的文本分类试验表明,此加权模型相比较于传统的方法,均具有较好的文本标注效果.关键词:特征加权;位置加权;改进;文本分类中图分类号:TP391 文献标识码:A 文章编号:1000-7180(2009)02-0188-05A Study of T ext T erm WeightingB ased on PositionL IU Hai 2feng ,YAO Ze 2qing ,WAN G Ze 2yan ,ZHAN G Xue 2ren(Institute of Sciences ,PLA University of Science and Technology ,Nanjing 210007,China )Abstract :TF 2IDF is a kind of common methods used to measure the terms in a document.This method is easy but it con 2siders no factor of the position.By modifying the TF 2IDF with the position information and analyzing the difference of texts form under the different situation ,we put forward three means based on positions to weight the terms.We have a test about text categorization and the result shows that these methods have a better precision than the common TF 2IDF.K ey w ords :feature weighting ;position weighting ;text classification ;modified TF 2IDF1 引 言作为对文本预处理的重要研究内容之一,高效的文本自动分类显然有助于提高基于内容的信息检索效率.文本自动分类技术研究已经成为信息检索和数据挖掘领域的研究热点与核心技术.基于统计的机器学习方法在文本分类中的应用形成了文本自动分类技术研究的一个主要方向.20世纪90年代以来得到了长足发展的基于机器学习的文本分类方法,注重分类器的模型自动挖掘和生成以及动态优化能力,在分类效果、方法灵活性、扩展性等方面都比之前基于知识工程和专家系统的文本分类模式有所突破.文本自动分类是指在给定的分类体系下,对未知类别的文本根据其特征自动判断其类别归属的过程.文本分类(text categorization ,TC )技术是信息检索和文本挖掘的重要基础,在提高信息利用的有效性和准确性上具有重要的现实意义,在信息检索与信息过滤、信息推荐、自然语言理解及处理、文本自动文摘、主题识别、信息组织与管理等方面,文本自动分类技术均起着越来越重要的作用.2 基于向量模型的文本表示及其相关问题向量空间模型的基本思路是借助向量之间的距离来逼近文本之间的语义相似性.向量空间模型要解决的两个主要问题:一是究竟应该以什么样的语义单元作为文本表示的特征,这一点目前形成的主流共识是以词作为特征项;二是在特征项赋值方面,合理的加权方法应该能体现出特征加权的基本准则:(1)在指定的一个文本内,特征项赋权后具有最大的表示该文本的能力;(2)在文本集的各个文本之间,特征项赋权后具有最大的文本区分能力.2.1 经典向量空间模型的优点及其主要问题借助向量空间模型进行文本分类的通常做法:用特征向量表示文本;用特征项赋权因子进行文本向量加权;用向量夹角余弦进行文档相似性度量;用倒排文本方式进行分类结果排序;以查准率和查全率作为模型分类效果的评价指标.记t ij(i=1,2,…,n)为文档d j的第i个特征项(标引词),w ij(i=1,2,…,n)分别为t ij(i=1,2,…,n)在d j中的权重.w ij一般使用tf2i df因子进行赋权:w ij=tf ij×log(Nn i+0.01)∑ni=1tf ij×log(Nn i+0.01)2(1)tf2i df因子同时考虑了文本标引的两个主要因素:tf因子体现了在文本中频繁出现的特征项在模型中应该赋予较高的权重,而i df因子则加大了不同文本之间的区分度,它说明在许多文献中都出现的词语对于区分相关文献和不相关文献是没有什么作用的.从本质上讲idf因子是一种试图抑制噪音的加权手段.向量空间模型是自动文本分类使用的主要模型,也是信息检索研究领域中文本表示的主流模型,文本分类从某个层面看是基于文本诸类别信息的信息检索.美国康奈尔(Cornell)大学开发的SMAR T 检索系统就是基于向量模型[1].向量空间模型主要优点在于结构简单、应用方便;利用空间相似性逼近语义相似性;通过对特征项的加权改进了模型的检索效果;模型的部分匹配策略允许检索出与查询条件相接近的文献;相似度的引进使得能够对查询结果之间进行排序,以倒排文档方式提交结果.与其余排序方法相比,即使向量模型不是最优的,但是其性能也相当的好.但是向量模型存在着一些不足,就是以统计方法给出的加权模式主要考虑的是特征项的频率而没有考虑其在文本里的位置所含有的信息.事实上,特征项在文本里的不同位置体现着其对文本标引的不同的重要程度.因此对特征项加权方法的研究是提高向量模型分类效率的重要途径之一.2.2 一种基于位置的文本特征项加权方法将特征项在文本里的位置作为确定其权重的因素之一,再结合词频进行特征项权值的确定,这就是基于位置的特征项赋权法.从经典向量空间模型的赋权公式(式(1))可以看出,tf2i df因子没有考虑特征项在文本中位置上的不同所引起的对文本表示能力上的差距.一般说来,对于文本内容的表现力而言,文本的标题、摘要、关键词、副标题及第一段首句、第一段尾句、尾段等位置的特征项对文本表达能力从大到小顺序为:标题>摘要>关键词>副标题>第一段首句>第一段尾句>尾段>其他[2],因此在使用tf2i df赋权因子时,考虑分两步计算式(1)中特征项t ij的权重w ij:(1)首先计算t ij在文本集里文本的第k个位置相应的tf2idf赋权因子w ijk=tf ijk×log(Ndf ijk+0.01)∑ni=1tf ijk×log(Ndf ijk+0.01)2,k=1,2,…,8(2)式中,w ijk(i=1,2,…,8)分别是特征项t ij在文本的标题、摘要、关键词、副标题、第一段首句、第二段首句、尾段、结语位置的权重;(2)对特征项t ij最终赋权为w ij=∑8k=1λiw ijk(3)式中,位置加权系数λi满足λi+1≥λi,i=1,2,…, 7;且∑8i=1λi=1(4)试验中取这组加权系数为0.2,0.18,0.16, 0.14,0.12,0.11,0.1,0.09.3 Web条件下的文本特征项位置加权方法随着信息技术的飞速发展,Web上的文本成为文本研究语料的主要来源,对基于Web上的文本进行有效标注也就成为文本表示的重要内容之一.而Web页面上文本由于其自身特点给第二节中提出的加权模型(式(3))的使用带来新的问题.3.1 Web条件下的文本表示与传统的文本表示的差异 上一节提出的基于位置的文本特征项加权方法适应于对静态文本集的文本特征项加权,将这个模型应用到Web上的文本加权却会遇到新的困难.网络信息资源具有的全文性、动态性与文本格式的复杂多样性等特有性态,使得式(3)的加权方法难以满足基于Web的文本表示需要.随着在线信息的快速增长,提供一种与之相适应的合理的文本表981 第2期刘海峰,等:基于位置的文本特征加权方法研究示机制变得越来越重要.如何克服传统向量空间模型特征项加权方法在Web环境下的不足之处,使之适应网络条件下的文本表示特点,成为向量空间模型用于Web条件下文本表示所需要面对的新问题.两种环境下文本的存在模式具有以下主要差异:首先,一个Web文本常常是由具一定主题的多个页面链接,同时带有html标记的半结构化文本.其中,html语言的各种标签所标引的字段有自身的特点和含义,这些信息在传统的向量模型里没有被考虑进去.事实上利用html文本的结构信息来提高Web信息检索性能的做法已经被在一些商用搜索引擎使用,比如Yahoo、G oole等,所以文本里的这部分信息应该在文本特征项赋权时体现出来.其次,文本链接部分是html文本结构中具有鲜明特点的部分,也是普通文本所没有的内容.链接文本是网页之间链接时相应的描述性说明内容,体现了链接信息与被链接信息之间存在着的一种可信的映射关系.一般说来,在Web上一个页面被其他站点引用的次数基本上反映了该页面的受欢迎程度.这是因为如果页面A有一条指向页面B的链接,则表示页面A的作者认为B里包含了有价值的信息,即含有其研究的相关的内容;而如果页面B被许多其他的页面所引用,则表示该页面里包含了丰富的信息及相关内容.链接文本部分反映了不同的作者对他们所指向内容的评价,这种评价比网页作者自身对其内容的评价更加客观,其可信程度更高[3];所以文本之间的链接信息影响文本检索的效果,这一因素中应该得到考虑.3.2 Web条件下文本各个部分对文本表现能力评估 目前研究文本特征的基于位置加权方法的文章虽然不少,但是能够科学地给出权重分配方案的却不多.文献[4]中通过对涉及经济、教育、文学和心理学等四个领域的1800篇基于Web的文本进行分析、试验[4],对文本所含有的12个信息分布位置:网页题名(title项)、文章标题(bt)、第一段首句(ds1)、第一段尾句(dw1)、第二段首句(ds2)、第二段尾句(dw2)、第三段首句(ds3)、第三段尾句(dw3)、首段(sd)、尾段(wd)、其他段(qt)(即除去sd、wd,并且不包括ds2、ds2、dw2、ds3、dw3之外的文本其他部分)以及html标记(html)等不同部分对文本的表达能力进行了详细的统计分析,得到各个位置对主题表达能力的先后顺序如下:bt>Html>Sd>Ds1>Title>Dw1>Qt>Wd>Ds2>Dw2>Ds3>Dw3;并建议位置权重方案如下:Bt∶Html∶Sd∶Ds1∶Title∶Dw1∶Qt∶Wd∶Ds2∶Dw2∶Ds3∶Dw3=5∶5∶5∶4∶4∶4∶2∶2∶2∶2∶2∶2(5)从该试验可以看出,文章标题、html标记以及首段对文本主题的表达能力最强;第一段首句、网页题名以及第一段尾句部分次之;而文本的其余部分如第二段首句、第二段尾句、第三段首句、第三段尾句等部分所含有的信息最少.因此,对文本的处理分三个层面进行是比较合理的.首先,标题部分一般说来是网页内容的精炼概括,字数较少,除很少的一些虚词外基本上都是本网页的特征词,标题文本基本上反映了网页的主要内容[5];其次,html语言的各种标签所标引的字段有自身的特点和含义,而文本的链接描述实际是不同的作者对该网页的客观评价;再者,在首段往往表达了作者写作的主旨,对于文本的主题标示具有重要的意义.并且这些内容具有一些共同之处[6]:(1)对文本主题的表达能力最强;(2)相比较整个文本来说本身词数较少.对于这部分内容,我们将其划为第一层面.其次,第一段首句、第一段尾句以及网页题名部分对文本也具有较强的表达能力.对于中文文本来说,由于中国人写文章一般讲究“起、乘、转、合”、“开门见山”,在第一段通常提出自己所想表达的主题思想.所以相比正文的其余部分,这部分内容在表达文本主题的能力上应该更强一些;另外,虽然根据式(5)可以得出首段的特征项相应的权值应该大于第一段首句、第一段尾句里特征项的权值,但由于该部分词数通常较多,所以将这三部分放在一起划为第二层面.最后,第二段首句、第二段尾句、第三段首句、第三段尾句、尾段(wd)、其他剩余部分等在文本主题表达能力方面区别不大,所以将它们归为第三层面处理.3.3 Web条件下一种文本特征项线性加权模型根据上述分析,文中设计Web文本特征项赋权方法如下:(1)将待表示的文本集里每个文本分解为上述三个层面,将各部分分别归入3个集合S1、S2、S3中.其中,S i(i=1,2,3)分别由上述3个层面相应的文本部分构成相应的3个“伪文本集”;091微电子学与计算机2009年(2)每个文本d j用3个特征向量表示:第一个特征向量V1j为文本d j中位于第一层面部分的特征项的权重构成;相应地,第二、三个特征向量V2j、V3j分别为第二、三层面相应部分特征项权重组成;其赋权通过式(1)的tf2i df计算;(3)为了降低计算时间与存储空间,对上述3个“伪文本集”相应的向量维数进行限制.一般分别选择权值最大的若干个特征项的权重构成伪文本向量:V kj=(w k1j,w k2j,…,w ktj);k=1,2,3(6)式中,w klj表示文本d j相应于第k层面的第l个特征项的权重,l=1,2,…,t.试验中取t=10;(4)根据式(5)反映的不同位置对特征项权重的影响程度,写出文本d j的向量表示形式:d j= (2.5w11j,2.5w12j,…,2.5w1tj,2w21j,2w22j,…, 2w2tj,w31j,w32j,…,w3tj)T(7)并将其单位化.3.4 Web条件下一种非线性文本特征加权方法线性加权模型是文本检索权重计算方面常用的模型,该模型结构简单,使用方便,在文本分类领域广为应用.但是,这种加权方式也有其不足之处.首先,尽管大家都感觉到特征词在不同的位置对其相应的权重应该有所影响,但是却很难将这种影响量化为明确的数量关系;其次,tf2idf赋权因子本质上是一种基于词频统计的加权模型.但是该模型本身在以自然语言形式存在的文本表示方面也有值得商榷的地方.比如:假定特征项A在文本里出现5次,特征项B在文本里出现1次,可以认为在该文本里特征词A的重要程度要大于特征词B,但是显然不能就认为A的重要程度是B的5倍.因此这种权重的线性加权模式与实际情况可能有较大的出入.究其原因,是由于在对文本不同部分的重要性进行量化的过程中,若使用线性加权模式会使得对不同位置的权重处理太“刚硬”,因此,可以考虑用一种非线性函数来构造特征项的加权模型.一般说来,这种非线性函数应该具有下面的特性[7]:(1)在该模式下权重随着词频的增加单调上升,并逐渐向1接近;(2)上升速度相比较线性加权模式要平缓一些;(3)当词频数特别多时,其权值的变化应该基本上趋于稳定;(4)该函数的函数值应该介于[0,1]之间.当然满足这种特性的函数很多.若以上节的V3j为参照系,需要对V1j、V2j的权重进行调整,又由于三者对文本表示的重要程度依次为V1j>V2j >V3j,所以对后者调整力度应该由高到低.为此,使用满足上述四个特性的非线性模型:f1(n)=n1+n(8)及在自动控制系统里常用的Sigmoid模型:f2(n)=e n1+e n,(9)可以证明:当n>0时有0<f1(n)<f2(n)<1事实上,由y=f2(n)-f1(n)=en1+e n-n1+n=e n-n(1+e n)(1+n)>0,(n>0),易得上述不等式.由于对V1j的调大幅度应该更大于对V2j的调大幅度,所以将式(9)用于对V2j的修正.至此,对式(7)中的伪文本向量进行如下权值调整:定义: w1pj=f1(df1pj)×2.5w1pj;p=1,2,…,t;w2pj=f2(df3pj)×2.5w3pj;p=1,2,…,t;w3pj=w3pj;p=1,2,…,t(10)式中,df kpj表示文本d j的特征项t pj在“伪文本集”S k 中的频数,k=1,2,3.则文本d j表示为d j=( w11j, w12j,…, w1tj, w21j, w22j,…, w2tj, w31j, w32j,…, w3tj)T(11)再将其单位化.4 实验结果及其分析使用上述的4种特征加权方法对文本进行标注,将标注后的文本进行分类,分类器使用常用的kNN分类器,试验语料是从G oogle网站上下载1200篇HTML文本,分为军事(292篇)、体育(116篇)、房地产(212篇)、音乐(343篇)文学(237篇)共5类.为了便于统计词频,计算权值,对下载的文本使用禁用词表剔除了虚词、助词、人称代词、特高频词等建立特征项集合.使用传统向量空间模型(式(1))、基于位置的加权模式(式(3))(此时该组参数取值为0.2,0.18,0.16,0.14,0.12,0.11,0.1, 0.09)进行特征加权;在基于Web的文本特征加权时,将该集合按照相应三个层面的属性划为三个子集S1、S2、S3.分别以Web条件下线性加权模型(式(7))及Web条件下非线性加权模型(式(11))(其中取参数k=10)进行特征项加权,以查准率(Preci2191 第2期刘海峰,等:基于位置的文本特征加权方法研究sion)和查全率为(Recall)为分类性能评价指标[8]:查准率=分类的正确文本数/实际分类文本数;查全率=分类的正确文本数/应有文本数;在使用传统向量空间模型(式(1))进行加权时,剔除html标记等Web文本特有的相关内容.同时使用上述4种加权模式构造相应的5种类别文本向量,取查准率与查全率的5个数值的平均为最终评价指标.实验结果数据统计如表1所示.表1 四种加权模型的文本分类效果统计查准率查全率传统向量加权模型0.72130.7672基于位置的加权模型0.81460.8619基于Web的线性加权模型0.86170.8238基于Web的非线性加权模型0.87620.8572从表1可以看出,文中提出的不同环境下的加权模型相比较于传统向量模型来说,在文本分类的性能上优势还是明显的,其主要原因之一可能是后两种模型含有的html标记等信息提高了标注效果;而后两种模型在分类效率上相差不大,且非线性加权模型在性能上更显得平稳一些.参考文献:[1]闫龙,王文杰.基于贝叶斯方法的一种垃圾邮件的过滤与实现[J].微电子学与计算机,2006,23(2):86-88. [2]丁璇.中文网页标引源主题表达能力的调查[J].大学图书馆学报,2002(6):70-72.[3]胡健,陆一鸣,马范援.基于HTML文档结构的向量空间模型的改进[J].情报学报,2005,24(4):433-437. [4]侯汉清,张成志,郑红.Web概念挖掘中标引源加权方案初探[J].情报学报,2005,24(1):87-92.[5]Einat Amitay,David Carmel,Adam Darlow.Topic distil2lation with knowledge agents[C]//Proceedings of Text Retrieval A:K luwer Academic Publisher, 2002:263-265.[6]韩毅.基于文档结构的向量空间检索模型研究[J].情报学报,2004,23(2):158-162.[7]刘海峰,王元元.基于向量模型的文本检索若干问题研究[J].情报杂志,2006,25(10):57-59.[8]张选平,蒋宇,袁明轩,等.一种基于概念的信息检索查询与扩展[J].微电子学与计算机,2006,23(4):110-114.作者简介:刘海峰 男,(1962-),博士研究生,副教授.研究方向为数据挖掘、文本分类.姚泽清 男,(1960-),教授.研究方向为统计分析、数据挖掘.汪泽焱 男,(1972-),副教授.研究方向为统计分析.张学仁 男,(1955-),副教授.研究方向为人工智能.(上接第187页)[2]高丹,刘海涛.CMOS数字电路低功耗的层次化设计[J].微电子学与计算机,2008,25(1):100-103.[3]Ghose K,K amble M B.Reducing power in superscalarprocessor caches using subbanking,multiple line buffers and bit-line segmentation[C]//Proc.of the International Symposium on Low Power Electronics and Design (ISL PED’99).New Y ork,1999:70-75.[4]Aly R E,Nallamilli B R,Bayoumi M A.Variable-wayset associative cache design for embedded system applica2 tions[C]//Proc.of the46th IEEE International Midwest Symposium on Circuits and Systems(MWSCAS’03).USA,2003:1435-1438.[5]Hennessy J L,Patterson D puter architecture:aquantitative approach[M].4th ed.Beijing:China Ma2 chine Press,2007.[6]Pong F,Stenstrom P,Dubois M.An integrated methodol2ogy for the verification of directory-based cache protocols[C]//Proc.of the International Conference on ParallelProcessing(ICPP’94).USA:North Carolira State Uni2 versity,1994:158-165.[7]张延军,何虎.适用于VL IW数字信号处理器的功能验证策略[J].微电子学与计算机,2007,24(2):1-4.作者简介:贾 迪 男,(1984-),硕士研究生.研究方向为嵌入式数字信号处理器的cache系统设计.何 虎 男,(1974-),助理研究员.研究方向为处理器体系结构.孙义和 男,(1945-),教授,博士生导师.研究方向为L SI/ SOC测试方法学和可测性设计、多媒体VL SI/SOC设计技术和数据网络安全VL SI/SOC结构.291微电子学与计算机2009年。

相关文档
最新文档