1 基于位置的文本特征加权方法研究

合集下载

一种有指导的文本特征加权改进算法

基础上，提出一种基于有指导的改进文本特征加权方法ｔｆｆｉｆｄｏ该改进方法结合ｔｉｆｔｒ２种方法的特点，考虑词在总体文档及各类别ｉｆｄ和ｆｆ．．
文档之间的关系，实现文本特征加权。实验结果表明，该方法的分类能力比ｔｒ方法有明显提升。ｆｆ．
［ｓｒｃ］ＴｅｔｄｔｎｌｆｄａｇｒｈｃｎｎｔｔｋｌａｖｎｇｆｅｃａａｔｒｔｓｆａａｓｔｏｌｓｉｃｔｎｗｈｃａｏｆｃｅＡｂｔａｔｈａｉｏａ．ｆｌｏｔｍａｏｅｆｌｄａｔｅｏｔｈｒｃｅｉｉｄｔｅｒａｓｆａｉ，ｉｃｎｎｔｅｅｔｒｉｔｉｉａｕａｈｓｃｏｆｃｉｏｈｒｌｔｈ
中圈分类号；Ｐ８Ｔ１
种有指导的文本特征加权改进算法
刘墙阳，陆洋
（浙江工业大学计算机科学与技术学院，杭州３０２）１０３
攮
要：统ｔｉｆ传ｆｄ方法未利用分类数据的特性，无法反映词在各个类别之间的比例关系。为此，在分析有指导的文本特征加权方法ｔｆ．ｆ．
ｌ概述
随着互联网应用的普及，网络中已存储了海量的文本信息，人们迫切需要从文本中挖掘出有用的信息。文本挖掘是指从大量文本数据中抽取事先未知的、可理解的、最终可用
了这一点。文献【】５首先指出了ｔｉｆ方法的不足，在基于有￣ｄ指导的方法基础上，将信息增益结合ｔｉｆｆｄ来改进文本特征加．权。文献［】６则考虑了词在正类和反类中的比例关系，认为只要正类比反类占的比例越高，该词就越能代表正类，就具有

基于TFIDF文本特征加权方法的改进研究

Abstract
Aiming at the problem that the document set is dealt with as a whole and the distribution of feature items among and in classes
is not taken into full account when using traditional TFIDF method，an improved TFIDF method which is combined with information entropy is proposed． This method modifies the method of calculating weights of feature items of TFIDF by combining information entropies of feature items among and in classes，which overcomes the defect that the feature items that made less contribution to the categorisation would be given greater weight，thus is able to calculate weights of text feature items more efficiently． Experimental results show that the proposed method enhances recall and precision of text categorisation and is a more effective text feature weighting method． Keywords Term frequencyinverse document frequency （ TFIDF） Text categorisation Feature weighting Vector space model

一种基于概念层次的文本特征权重计算方法

摘要：特征权重计算是文本表示的关键，权重计算方法的优劣直接影响文本分类和聚类的准确度。基于词形和词频统计的特征加权方法过于近似和粗糙，不能有效突出具有较强类别区分度的重要特征，难以有效区分两类特征，造成了高维稀疏问题，使文本分类性能不够理想，是特征权重计算的主要障碍。出一种基于概念层次的特征权重计算方法，这提将词空间转移为概念空间，在概念层次上引入特征支持度与类别强度两个参数对特征权重进行调整。实验表明，的方法表现了较好的分类性能，新在空间维度的压缩与计算效率上也有明显的改善。关键词：概念空间；特征权重；概念层次；特征支持度；类别强度
Ｐｒｒｎｅｏｅｔｒｉｈｉｇｃｍｐｔｔｎｄｒｃｌｎｌｅｃｓｐｅｉｉｎｏｅｔｃａｓｆａｉｎｏｌｓｒｇｅｏｍａｃｆｆａｕｅｗｅｇｔｏｕａｉｉｅｔｉｆｕｎｅｒｃｓｏｆｔｘｌｓｉｃｔｒｃｕｔｉ．ｆｎｏｙｉｏｅｎ
中图分类号：Ｐ８Ｔ１１文献标识码：Ａ
ＡｎＡｐｒａｈｆｒＴｘｅｔｒｅｇｔｇＣｍｐｔｔｎＢａｅｎＣｎｅｔＨｉｒｒｈｐｏｃｅｔＦａｕｅＷｉｈｉｏｕａｉｓｄｏｏｃｐｅａｃｙｏｎｏ
ＣｍｐｔｃｎｅａｄＴｃｎｌｇ，ａｊｇＵｉｅｓｙＮｎｉｇ２０９，ｈｎ）ｏｕｅＳｉｃｎｅｈｏｏＮｎｉｎｖｒｉ，ａｊ１０３Ｃｉａｒｅｙｎｔｎ
Ａｂｓｒｃ：Ｆａｕｅｔａｔｅｔｒｗｅｇｔｎｃｍｐｔｔｏｂｌｎｓｏｎｅｆｅｐｏｌｍｓｎｅｔｏｕｍｅｒｐｅｅｔｔｎｉｈｉｇｏｕａｉｎｅｏｇｔｏｏｋｙｒｂｅｉｔｘｄｃｎｔｅｒ Байду номын сангаас ｎａｉ．ｏ

一种基于样本加权的位置文本排序算法

务面临的挑战性课题。但是，独立搜索引擎存在着
员搜索引擎所返回的结果进行收集，按照一定然后的准则排序，终将排序结果按一定顺序展现给用最户的过程。虽然成员搜索引擎的检索结果各式各
冗余信息过载和索引数据库信息覆盖率低的问题，不能提供大规模的信息搜索，只有联合使用多个搜索引擎才能够满足用户需求。在这种情况下，元搜
索引擎系统应运而生。元搜索引擎建立在多个独
样但归纳起来主要由标题、摘要和相关度等信息组成。因此，索引擎排序可以在成员搜索引擎排元搜序的基础上，结合结果的标题、摘要等信息考虑。（）１简单排序算法
这种排序的方法比较单一，仅提高了查全仅
文章编号
１０５６（Ｏ０Ｏ０７０００— ２９２１）５— ０２— ４
一
种基于样本加权的位置文本排序算法
敖飞，陈梅
（贵州大学计算机科学与信息学院，贵州贵阳５０２５０５）
摘
要：为有效解决元搜索引擎结果排序的问题，出了一种基于样本加权的位置文本排序算提
・讯作者：通敖飞，ｍｉ：ｙａ１８１＠１６Ｃｌ．Ｅａｌｆ＿ｏ９５０２．Ｏ１ｌｌ
第５期
敖
飞等：种基于样本加权的位置文本排序算法一
・３・７
度，需要将查询串ｑ中每个词条ｔｍ与摘要ａ的ｅｒ

基于文本加权词共现的跨语言文本相似度分析

基于文本加权词共现的跨语言文本相似度分析跨语言文本相似度分析是指在不同语言之间比较文本的相似程度。

基于文本加权词共现的方法是一种常用的跨语言文本相似度分析方法。

该方法首先对文本进行分词处理，然后计算文本中每个词的权重，并构建词共现矩阵。

接着利用词共现矩阵计算文本之间的相似度。

具体步骤如下：
1.分词处理：对文本进行分词处理，将文本中的词语切分出来。

2.计算词权重：对于每个词，可以利用TF-IDF等方法计算其权重。

TF-IDF是一种常用的词权重计算方法，它可以反映词语在文档中的重要程度。

3.构建词共现矩阵：根据文本中词语的共现关系，构建词共现矩阵。

在矩阵中，每一行或每一列代表一个词，矩阵中的元素表示这两个词的共现频率。

4. 计算文本相似度：利用词共现矩阵计算文本之间的相似度。

常用的方法有余弦相似度、Jaccard相似度等。

通过以上步骤，可以实现基于文本加权词共现的跨语言文本相似度分析。

这种方法可以有效地处理不同语言之间的文本相似度比较，为文本信息检索、机器翻译等任务提供支持。

基于同义词词林的文本特征选择与加权研究

维之间更独立的特征空间＿Ｊ３。这些方法力求挖掘出词条与词
语义分析是自然语言处理领域的一个概念，义地说是对广各级语言单位，单词、组、子、群所包含的意义和在语即词句句言使用过程中所产生的意义进行分析，包含了词与词之间的它同义和蕴含关系。同时专业词汇的出现是对文档主题的高度
论和机器学习方法，比较著名的有信息增益、望交叉熵、本期文证据权，统计等＿Ｊ很多研究者都已经通过实验证明它们１，
是非常好的文本特征选择方法。上述特征选较为有效地去除特征空间中的噪音，即但
底性和专门性。其中彻底性指文本所讨论的内容被特征词覆
盖的程度；门性指特征词必须能反映文本的具体内容，不专而是泛泛而谈。所以对于中文文本特征的提取，难度体现在建其立完整的汉语概念体系的困难以及语法、义和语用分析的困语
分散了同一概念的频率。例如计算机的同义词有电脑、机微等，当作者交替使用计算机的同义词来表达这一概念时，果如只统计“ 算机 ” 词频，可能该词的频率并不高，而导致计的有从在特征提取时将其不正确的滤除。因此，词频统计时将表达在同一概念的多个同义词进行词频合并，可以将原有特征提取就

一种基于特征加权的KNN文本分类算法

２ｌ耳４月０Ｏ
一
电脑学习
第２期
种基于特征加权的ＫＮ文本分类算法 ’ Ｎ术
赵俊杰” 盛剑锋”’ 陶新民“”
ＫＮＮ算法。但政进的ＫＮＮ分类算法大多数是建立在样本选择的基础上。印以抽失分类精度换取分类速度。针对传
式分类贡献的不同．不同的特征赋予不同的权值．高重要特征的作用．给提从而提高了算法的分龚精度。矗后绘出实验结栗并对实验数据进ｊ分析得出结论。亍
＿’ ’
关键词：特征加权
Ｋ最近邻
文本分类
针对传统的ＫＮ文本分类算法的不足，Ｎ出现了很多改
进的ＫＮ算法，Ｎ目前主要通过两种途径来减小ＫＮ算法Ｎ
本。计算其与训练样本集中每个文本的相似度，出Ｋ个找
相似度）。这就大大降低了算法的效率Ｉ２１。
ＫＮ文本分类算法的基本思想是根据传统的向量空Ｎ
间模型，文本内容被形式化为特征空间中的加权特征向量，
即ＤＤ（Ｔ，；Ｔ，；… ；ｎＷｎＩ＝１Ｗｌ２Ｗ２Ｔ，）ｌｌ于一个测试文。对
ｌｏｉｍ．ｒｅｅｐｒｎａｒｓｌｓｒｒｓｎｅａｄｔｅｅｐｉｎａａａａａｙｉｏｅｍｉｎｉｌｏａｈｅｅａｇｒｈ１ｈｘｅｍｅｔｅｕｔａｅｐｅｅｔｄｎｈｘｒｍｅｔｌｄｔｎｌｓｓｅｎｈｏｓａｓｃｉｖｄ．ｔｉｌｅ

文本分类中的特征选择与权重调整算法

文本分类中的特征选择与权重调整算法文本分类是一项重要且高度复杂的任务，它在自然语言处理领域扮演着重要角色。

在文本分类中，特征选择和权重调整算法是关键步骤，对整个系统的性能有着重要影响。

本文将探讨特征选择和权重调整在文本分类中的作用和方法。

一、特征选择在文本分类中，特征选择是为了选择出对分类任务最具有区分性的特征。

特征选择方法可以分为三类：过滤式、包裹式和嵌入式。

过滤式方法是在特征选择和分类之前独立进行的，通常基于特征的统计信息，如互信息、卡方检验等。

包裹式方法是将特征选择作为一个优化问题，在特征选择和分类之间构建一个评估模型，并进行搜索。

嵌入式方法是将特征选择与分类算法一同训练，通过算法学习自动选择最佳特征。

二、特征权重调整算法在文本分类中，特征权重调整算法是为了调整各个特征对分类结果的重要性。

常见的特征权重调整算法有TF-IDF、CHI、IG等。

TF-IDF（词频-逆文档频率）是一种经典的特征权重计算方法，它通过计算词频和逆文档频率来评估一个词的重要性。

CHI（卡方检验）是一种统计方法，用于衡量特征和类别之间的相关性。

IG （信息增益）则是通过信息熵来衡量特征对分类结果的贡献。

三、特征选择与权重调整算法的结合应用在实际应用中，特征选择和权重调整算法常常结合使用，以达到更好的分类效果。

特征选择可以排除一些冗余和无关的特征，减少维度，提高分类效率。

同时，特征权重调整算法可以对选取的特征进行加权，强调重要特征，减弱次要特征的影响。

在文本分类任务中，选取合适的特征选择和权重调整算法是至关重要的。

不同的特征选择和权重调整算法适用于不同的文本分类问题，因此，根据具体的问题域，选择合适的算法是非常必要的。

此外，还可以通过组合多种特征选择和权重调整算法的结果，来进一步提高分类性能。

例如，可以采用集成学习的方法，通过投票或者加权平均等方式来融合不同的算法结果，以得到更好的分类效果。

总结起来，特征选择和权重调整算法在文本分类中起着至关重要的作用。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

26卷　第2期2009年2月微电子学与计算机M ICROEL ECTRON ICS &COMPU TERVol.26　No.2February 2009收稿日期:2008-05-13基金项目:国家自然科学基金项目(70571087)基于位置的文本特征加权方法研究刘海峰,姚泽清,汪泽焱,张学仁(解放军理工大学理学院,江苏南京210007)摘　要:TF 2IDF 是文本特征赋权的常用方法.该方法简单易行,但没有考虑位置因素对特征赋权的影响.通过修改因子,分析不同条件下文本表现形式的差异,提出3个基于位置的文本特征加权方法.随后的文本分类试验表明,此加权模型相比较于传统的方法,均具有较好的文本标注效果.关键词:特征加权;位置加权;改进;文本分类中图分类号:TP391 文献标识码:A 文章编号:1000-7180(2009)02-0188-05A Study of T ext T erm WeightingB ased on PositionL IU Hai 2feng ,YAO Ze 2qing ,WAN G Ze 2yan ,ZHAN G Xue 2ren(Institute of Sciences ,PLA University of Science and Technology ,Nanjing 210007,China )Abstract :TF 2IDF is a kind of common methods used to measure the terms in a document.This method is easy but it con 2siders no factor of the position.By modifying the TF 2IDF with the position information and analyzing the difference of texts form under the different situation ,we put forward three means based on positions to weight the terms.We have a test about text categorization and the result shows that these methods have a better precision than the common TF 2IDF.K ey w ords :feature weighting ;position weighting ;text classification ;modified TF 2IDF1　引　言作为对文本预处理的重要研究内容之一,高效的文本自动分类显然有助于提高基于内容的信息检索效率.文本自动分类技术研究已经成为信息检索和数据挖掘领域的研究热点与核心技术.基于统计的机器学习方法在文本分类中的应用形成了文本自动分类技术研究的一个主要方向.20世纪90年代以来得到了长足发展的基于机器学习的文本分类方法,注重分类器的模型自动挖掘和生成以及动态优化能力,在分类效果、方法灵活性、扩展性等方面都比之前基于知识工程和专家系统的文本分类模式有所突破.文本自动分类是指在给定的分类体系下,对未知类别的文本根据其特征自动判断其类别归属的过程.文本分类(text categorization ,TC )技术是信息检索和文本挖掘的重要基础,在提高信息利用的有效性和准确性上具有重要的现实意义,在信息检索与信息过滤、信息推荐、自然语言理解及处理、文本自动文摘、主题识别、信息组织与管理等方面,文本自动分类技术均起着越来越重要的作用.2　基于向量模型的文本表示及其相关问题向量空间模型的基本思路是借助向量之间的距离来逼近文本之间的语义相似性.向量空间模型要解决的两个主要问题:一是究竟应该以什么样的语义单元作为文本表示的特征,这一点目前形成的主流共识是以词作为特征项;二是在特征项赋值方面,合理的加权方法应该能体现出特征加权的基本准则:(1)在指定的一个文本内,特征项赋权后具有最大的表示该文本的能力;(2)在文本集的各个文本之间,特征项赋权后具有最大的文本区分能力.2.1　经典向量空间模型的优点及其主要问题借助向量空间模型进行文本分类的通常做法:用特征向量表示文本;用特征项赋权因子进行文本向量加权;用向量夹角余弦进行文档相似性度量;用倒排文本方式进行分类结果排序;以查准率和查全率作为模型分类效果的评价指标.记t ij(i=1,2,…,n)为文档d j的第i个特征项(标引词),w ij(i=1,2,…,n)分别为t ij(i=1,2,…,n)在d j中的权重.w ij一般使用tf2i df因子进行赋权:w ij=tf ij×log(Nn i+0.01)∑ni=1tf ij×log(Nn i+0.01)2(1)tf2i df因子同时考虑了文本标引的两个主要因素:tf因子体现了在文本中频繁出现的特征项在模型中应该赋予较高的权重,而i df因子则加大了不同文本之间的区分度,它说明在许多文献中都出现的词语对于区分相关文献和不相关文献是没有什么作用的.从本质上讲idf因子是一种试图抑制噪音的加权手段.向量空间模型是自动文本分类使用的主要模型,也是信息检索研究领域中文本表示的主流模型,文本分类从某个层面看是基于文本诸类别信息的信息检索.美国康奈尔(Cornell)大学开发的SMAR T 检索系统就是基于向量模型[1].向量空间模型主要优点在于结构简单、应用方便;利用空间相似性逼近语义相似性;通过对特征项的加权改进了模型的检索效果;模型的部分匹配策略允许检索出与查询条件相接近的文献;相似度的引进使得能够对查询结果之间进行排序,以倒排文档方式提交结果.与其余排序方法相比,即使向量模型不是最优的,但是其性能也相当的好.但是向量模型存在着一些不足,就是以统计方法给出的加权模式主要考虑的是特征项的频率而没有考虑其在文本里的位置所含有的信息.事实上,特征项在文本里的不同位置体现着其对文本标引的不同的重要程度.因此对特征项加权方法的研究是提高向量模型分类效率的重要途径之一.2.2　一种基于位置的文本特征项加权方法将特征项在文本里的位置作为确定其权重的因素之一,再结合词频进行特征项权值的确定,这就是基于位置的特征项赋权法.从经典向量空间模型的赋权公式(式(1))可以看出,tf2i df因子没有考虑特征项在文本中位置上的不同所引起的对文本表示能力上的差距.一般说来,对于文本内容的表现力而言,文本的标题、摘要、关键词、副标题及第一段首句、第一段尾句、尾段等位置的特征项对文本表达能力从大到小顺序为:标题>摘要>关键词>副标题>第一段首句>第一段尾句>尾段>其他[2],因此在使用tf2i df赋权因子时,考虑分两步计算式(1)中特征项t ij的权重w ij:(1)首先计算t ij在文本集里文本的第k个位置相应的tf2idf赋权因子w ijk=tf ijk×log(Ndf ijk+0.01)∑ni=1tf ijk×log(Ndf ijk+0.01)2,k=1,2,…,8(2)式中,w ijk(i=1,2,…,8)分别是特征项t ij在文本的标题、摘要、关键词、副标题、第一段首句、第二段首句、尾段、结语位置的权重;(2)对特征项t ij最终赋权为w ij=∑8k=1λiw ijk(3)式中,位置加权系数λi满足λi+1≥λi,i=1,2,…, 7;且∑8i=1λi=1(4)试验中取这组加权系数为0.2,0.18,0.16, 0.14,0.12,0.11,0.1,0.09.3　Web条件下的文本特征项位置加权方法随着信息技术的飞速发展,Web上的文本成为文本研究语料的主要来源,对基于Web上的文本进行有效标注也就成为文本表示的重要内容之一.而Web页面上文本由于其自身特点给第二节中提出的加权模型(式(3))的使用带来新的问题.3.1　Web条件下的文本表示与传统的文本表示的差异上一节提出的基于位置的文本特征项加权方法适应于对静态文本集的文本特征项加权,将这个模型应用到Web上的文本加权却会遇到新的困难.网络信息资源具有的全文性、动态性与文本格式的复杂多样性等特有性态,使得式(3)的加权方法难以满足基于Web的文本表示需要.随着在线信息的快速增长,提供一种与之相适应的合理的文本表981　第2期刘海峰,等:基于位置的文本特征加权方法研究示机制变得越来越重要.如何克服传统向量空间模型特征项加权方法在Web环境下的不足之处,使之适应网络条件下的文本表示特点,成为向量空间模型用于Web条件下文本表示所需要面对的新问题.两种环境下文本的存在模式具有以下主要差异:首先,一个Web文本常常是由具一定主题的多个页面链接,同时带有html标记的半结构化文本.其中,html语言的各种标签所标引的字段有自身的特点和含义,这些信息在传统的向量模型里没有被考虑进去.事实上利用html文本的结构信息来提高Web信息检索性能的做法已经被在一些商用搜索引擎使用,比如Yahoo、G oole等,所以文本里的这部分信息应该在文本特征项赋权时体现出来.其次,文本链接部分是html文本结构中具有鲜明特点的部分,也是普通文本所没有的内容.链接文本是网页之间链接时相应的描述性说明内容,体现了链接信息与被链接信息之间存在着的一种可信的映射关系.一般说来,在Web上一个页面被其他站点引用的次数基本上反映了该页面的受欢迎程度.这是因为如果页面A有一条指向页面B的链接,则表示页面A的作者认为B里包含了有价值的信息,即含有其研究的相关的内容;而如果页面B被许多其他的页面所引用,则表示该页面里包含了丰富的信息及相关内容.链接文本部分反映了不同的作者对他们所指向内容的评价,这种评价比网页作者自身对其内容的评价更加客观,其可信程度更高[3];所以文本之间的链接信息影响文本检索的效果,这一因素中应该得到考虑.3.2　Web条件下文本各个部分对文本表现能力评估目前研究文本特征的基于位置加权方法的文章虽然不少,但是能够科学地给出权重分配方案的却不多.文献[4]中通过对涉及经济、教育、文学和心理学等四个领域的1800篇基于Web的文本进行分析、试验[4],对文本所含有的12个信息分布位置:网页题名(title项)、文章标题(bt)、第一段首句(ds1)、第一段尾句(dw1)、第二段首句(ds2)、第二段尾句(dw2)、第三段首句(ds3)、第三段尾句(dw3)、首段(sd)、尾段(wd)、其他段(qt)(即除去sd、wd,并且不包括ds2、ds2、dw2、ds3、dw3之外的文本其他部分)以及html标记(html)等不同部分对文本的表达能力进行了详细的统计分析,得到各个位置对主题表达能力的先后顺序如下:bt>Html>Sd>Ds1>Title>Dw1>Qt>Wd>Ds2>Dw2>Ds3>Dw3;并建议位置权重方案如下:Bt∶Html∶Sd∶Ds1∶Title∶Dw1∶Qt∶Wd∶Ds2∶Dw2∶Ds3∶Dw3=5∶5∶5∶4∶4∶4∶2∶2∶2∶2∶2∶2(5)从该试验可以看出,文章标题、html标记以及首段对文本主题的表达能力最强;第一段首句、网页题名以及第一段尾句部分次之;而文本的其余部分如第二段首句、第二段尾句、第三段首句、第三段尾句等部分所含有的信息最少.因此,对文本的处理分三个层面进行是比较合理的.首先,标题部分一般说来是网页内容的精炼概括,字数较少,除很少的一些虚词外基本上都是本网页的特征词,标题文本基本上反映了网页的主要内容[5];其次,html语言的各种标签所标引的字段有自身的特点和含义,而文本的链接描述实际是不同的作者对该网页的客观评价;再者,在首段往往表达了作者写作的主旨,对于文本的主题标示具有重要的意义.并且这些内容具有一些共同之处[6]:(1)对文本主题的表达能力最强;(2)相比较整个文本来说本身词数较少.对于这部分内容,我们将其划为第一层面.其次,第一段首句、第一段尾句以及网页题名部分对文本也具有较强的表达能力.对于中文文本来说,由于中国人写文章一般讲究“起、乘、转、合”、“开门见山”,在第一段通常提出自己所想表达的主题思想.所以相比正文的其余部分,这部分内容在表达文本主题的能力上应该更强一些;另外,虽然根据式(5)可以得出首段的特征项相应的权值应该大于第一段首句、第一段尾句里特征项的权值,但由于该部分词数通常较多,所以将这三部分放在一起划为第二层面.最后,第二段首句、第二段尾句、第三段首句、第三段尾句、尾段(wd)、其他剩余部分等在文本主题表达能力方面区别不大,所以将它们归为第三层面处理.3.3　Web条件下一种文本特征项线性加权模型根据上述分析,文中设计Web文本特征项赋权方法如下:(1)将待表示的文本集里每个文本分解为上述三个层面,将各部分分别归入3个集合S1、S2、S3中.其中,S i(i=1,2,3)分别由上述3个层面相应的文本部分构成相应的3个“伪文本集”;091微电子学与计算机2009年(2)每个文本d j用3个特征向量表示:第一个特征向量V1j为文本d j中位于第一层面部分的特征项的权重构成;相应地,第二、三个特征向量V2j、V3j分别为第二、三层面相应部分特征项权重组成;其赋权通过式(1)的tf2i df计算;(3)为了降低计算时间与存储空间,对上述3个“伪文本集”相应的向量维数进行限制.一般分别选择权值最大的若干个特征项的权重构成伪文本向量:V kj=(w k1j,w k2j,…,w ktj);k=1,2,3(6)式中,w klj表示文本d j相应于第k层面的第l个特征项的权重,l=1,2,…,t.试验中取t=10;(4)根据式(5)反映的不同位置对特征项权重的影响程度,写出文本d j的向量表示形式:d j= (2.5w11j,2.5w12j,…,2.5w1tj,2w21j,2w22j,…, 2w2tj,w31j,w32j,…,w3tj)T(7)并将其单位化.3.4　Web条件下一种非线性文本特征加权方法线性加权模型是文本检索权重计算方面常用的模型,该模型结构简单,使用方便,在文本分类领域广为应用.但是,这种加权方式也有其不足之处.首先,尽管大家都感觉到特征词在不同的位置对其相应的权重应该有所影响,但是却很难将这种影响量化为明确的数量关系;其次,tf2idf赋权因子本质上是一种基于词频统计的加权模型.但是该模型本身在以自然语言形式存在的文本表示方面也有值得商榷的地方.比如:假定特征项A在文本里出现5次,特征项B在文本里出现1次,可以认为在该文本里特征词A的重要程度要大于特征词B,但是显然不能就认为A的重要程度是B的5倍.因此这种权重的线性加权模式与实际情况可能有较大的出入.究其原因,是由于在对文本不同部分的重要性进行量化的过程中,若使用线性加权模式会使得对不同位置的权重处理太“刚硬”,因此,可以考虑用一种非线性函数来构造特征项的加权模型.一般说来,这种非线性函数应该具有下面的特性[7]:(1)在该模式下权重随着词频的增加单调上升,并逐渐向1接近;(2)上升速度相比较线性加权模式要平缓一些;(3)当词频数特别多时,其权值的变化应该基本上趋于稳定;(4)该函数的函数值应该介于[0,1]之间.当然满足这种特性的函数很多.若以上节的V3j为参照系,需要对V1j、V2j的权重进行调整,又由于三者对文本表示的重要程度依次为V1j>V2j >V3j,所以对后者调整力度应该由高到低.为此,使用满足上述四个特性的非线性模型:f1(n)=n1+n(8)及在自动控制系统里常用的Sigmoid模型:f2(n)=e n1+e n,(9)可以证明:当n>0时有0<f1(n)<f2(n)<1事实上,由y=f2(n)-f1(n)=en1+e n-n1+n=e n-n(1+e n)(1+n)>0,(n>0),易得上述不等式.由于对V1j的调大幅度应该更大于对V2j的调大幅度,所以将式(9)用于对V2j的修正.至此,对式(7)中的伪文本向量进行如下权值调整:定义: w1pj=f1(df1pj)×2.5w1pj;p=1,2,…,t;w2pj=f2(df3pj)×2.5w3pj;p=1,2,…,t;w3pj=w3pj;p=1,2,…,t(10)式中,df kpj表示文本d j的特征项t pj在“伪文本集”S k 中的频数,k=1,2,3.则文本d j表示为d j=( w11j, w12j,…, w1tj, w21j, w22j,…, w2tj, w31j, w32j,…, w3tj)T(11)再将其单位化.4　实验结果及其分析使用上述的4种特征加权方法对文本进行标注,将标注后的文本进行分类,分类器使用常用的kNN分类器,试验语料是从G oogle网站上下载1200篇HTML文本,分为军事(292篇)、体育(116篇)、房地产(212篇)、音乐(343篇)文学(237篇)共5类.为了便于统计词频,计算权值,对下载的文本使用禁用词表剔除了虚词、助词、人称代词、特高频词等建立特征项集合.使用传统向量空间模型(式(1))、基于位置的加权模式(式(3))(此时该组参数取值为0.2,0.18,0.16,0.14,0.12,0.11,0.1, 0.09)进行特征加权;在基于Web的文本特征加权时,将该集合按照相应三个层面的属性划为三个子集S1、S2、S3.分别以Web条件下线性加权模型(式(7))及Web条件下非线性加权模型(式(11))(其中取参数k=10)进行特征项加权,以查准率(Preci2191　第2期刘海峰,等:基于位置的文本特征加权方法研究sion)和查全率为(Recall)为分类性能评价指标[8]:查准率=分类的正确文本数/实际分类文本数;查全率=分类的正确文本数/应有文本数;在使用传统向量空间模型(式(1))进行加权时,剔除html标记等Web文本特有的相关内容.同时使用上述4种加权模式构造相应的5种类别文本向量,取查准率与查全率的5个数值的平均为最终评价指标.实验结果数据统计如表1所示.表1　四种加权模型的文本分类效果统计查准率查全率传统向量加权模型0.72130.7672基于位置的加权模型0.81460.8619基于Web的线性加权模型0.86170.8238基于Web的非线性加权模型0.87620.8572从表1可以看出,文中提出的不同环境下的加权模型相比较于传统向量模型来说,在文本分类的性能上优势还是明显的,其主要原因之一可能是后两种模型含有的html标记等信息提高了标注效果;而后两种模型在分类效率上相差不大,且非线性加权模型在性能上更显得平稳一些.参考文献:[1]闫龙,王文杰.基于贝叶斯方法的一种垃圾邮件的过滤与实现[J].微电子学与计算机,2006,23(2):86-88. [2]丁璇.中文网页标引源主题表达能力的调查[J].大学图书馆学报,2002(6):70-72.[3]胡健,陆一鸣,马范援.基于HTML文档结构的向量空间模型的改进[J].情报学报,2005,24(4):433-437. [4]侯汉清,张成志,郑红.Web概念挖掘中标引源加权方案初探[J].情报学报,2005,24(1):87-92.[5]Einat Amitay,David Carmel,Adam Darlow.Topic distil2lation with knowledge agents[C]//Proceedings of Text Retrieval A:K luwer Academic Publisher, 2002:263-265.[6]韩毅.基于文档结构的向量空间检索模型研究[J].情报学报,2004,23(2):158-162.[7]刘海峰,王元元.基于向量模型的文本检索若干问题研究[J].情报杂志,2006,25(10):57-59.[8]张选平,蒋宇,袁明轩,等.一种基于概念的信息检索查询与扩展[J].微电子学与计算机,2006,23(4):110-114.作者简介:刘海峰　男,(1962-),博士研究生,副教授.研究方向为数据挖掘、文本分类.姚泽清　男,(1960-),教授.研究方向为统计分析、数据挖掘.汪泽焱　男,(1972-),副教授.研究方向为统计分析.张学仁　男,(1955-),副教授.研究方向为人工智能.(上接第187页)[2]高丹,刘海涛.CMOS数字电路低功耗的层次化设计[J].微电子学与计算机,2008,25(1):100-103.[3]Ghose K,K amble M B.Reducing power in superscalarprocessor caches using subbanking,multiple line buffers and bit-line segmentation[C]//Proc.of the International Symposium on Low Power Electronics and Design (ISL PED’99).New Y ork,1999:70-75.[4]Aly R E,Nallamilli B R,Bayoumi M A.Variable-wayset associative cache design for embedded system applica2 tions[C]//Proc.of the46th IEEE International Midwest Symposium on Circuits and Systems(MWSCAS’03).USA,2003:1435-1438.[5]Hennessy J L,Patterson D puter architecture:aquantitative approach[M].4th ed.Beijing:China Ma2 chine Press,2007.[6]Pong F,Stenstrom P,Dubois M.An integrated methodol2ogy for the verification of directory-based cache protocols[C]//Proc.of the International Conference on ParallelProcessing(ICPP’94).USA:North Carolira State Uni2 versity,1994:158-165.[7]张延军,何虎.适用于VL IW数字信号处理器的功能验证策略[J].微电子学与计算机,2007,24(2):1-4.作者简介:贾　迪　男,(1984-),硕士研究生.研究方向为嵌入式数字信号处理器的cache系统设计.何　虎　男,(1974-),助理研究员.研究方向为处理器体系结构.孙义和　男,(1945-),教授,博士生导师.研究方向为L SI/ SOC测试方法学和可测性设计、多媒体VL SI/SOC设计技术和数据网络安全VL SI/SOC结构.291微电子学与计算机2009年。