1 基于位置的文本特征加权方法研究

合集下载

一种有指导的文本特征加权改进算法

一种有指导的文本特征加权改进算法

基础 上,提 出一种基于有指 导的改进文本特征加权 方法 tf f i f d o该改进方法结合 tif tr 2种 方法 的特 点 ,考虑词在总体文档及各 类别 i fd 和 ff . .
文档之 间的关系 ,实现文 本特征 加权 。实验结果表 明 ,该方法的分类能 力比 tr方法有 明显提 升。 ff .
[ src ]T et dt n lfd ag rh cnn ttk lav n g f ecaatr t s f aast o lsic t n whc a o f c e Ab ta t h aio a . f lo tm a o ef l d a t eo t h rceii dt e r asf ai , i cnn te et r i ti i a u a h sc o f c i o h rl t h
中圈分类号; P8 T1
种 有指 导 的文本特征 加权 改进 算 法
刘墙 阳 ,陆 洋
( 浙江 工业大学计算机科学 与技 术学院 ,杭州 3 0 2 ) 10 3

要 : 统 tif 传 fd 方法未利 用分类数据 的特性 ,无法 反映词在各个类别之 间的比例关系 。为 此,在 分析有指导的文本特征加权 方法 tf . f .
l 概 述
随着互联 网应 用的普及 ,网络 中已存储 了海 量的文本信 息 ,人们迫切需 要从 文本中挖掘 出有 用的信 息。文本挖掘是 指 从大量文 本数 据中抽取事先未知 的、可理 解的、最终可用
了这一点 。文献【】 5首先指 出了 tif方法的不足 ,在基于有  ̄d 指导 的方法基础 上, 将信息增益结合 tif fd 来改进文本特征加 . 权 。文献[】 6则考虑了词在正类和反类 中的比例 关系,认为 只 要 正类 比反类 占的比例越高 ,该词就越能代 表正类 ,就具 有

基于TFIDF文本特征加权方法的改进研究

基于TFIDF文本特征加权方法的改进研究

Abstract
Aiming at the problem that the document set is dealt with as a whole and the distribution of feature items among and in classes
is not taken into full account when using traditional TFIDF method,an improved TFIDF method which is combined with information entropy is proposed. This method modifies the method of calculating weights of feature items of TFIDF by combining information entropies of feature items among and in classes,which overcomes the defect that the feature items that made less contribution to the categorisation would be given greater weight,thus is able to calculate weights of text feature items more efficiently. Experimental results show that the proposed method enhances recall and precision of text categorisation and is a more effective text feature weighting method. Keywords Term frequencyinverse document frequency ( TFIDF) Text categorisation Feature weighting Vector space model

一种基于概念层次的文本特征权重计算方法

一种基于概念层次的文本特征权重计算方法
摘要: 特征权重计算是文本表示 的关键 , 权重计算方法的优劣直接影响文本分类 和聚类的准确度。基于词形 和词频统计 的特征 加权方法过于近似和粗糙 , 不能有效突出具 有较强类别 区分度 的重要特征 , 难以有效 区分 两类 特征 , 造成 了高维稀疏问题 , 使文 本分类性能不够理想 , 是特征权重计算的主要 障碍 。 出一种基于概念层次的特征权重计算方法 , 这 提 将词空间转移为概念空间, 在概念层次上引入特征支持度 与类别强度两个参数对特征权重进行调整。实验表 明 , 的方法表现 了较好 的分类性能 , 新 在空间 维度的压缩与计算效率上也有 明显 的改善 。 关键词 : 概念空间 ; 特征权重 ; 概念层次 ; 特征支持度; 类别强度
P r r n e o e t r ih i g c mp tt n d r cl nl e c s p e iin o e t c a sf a in o l s r g e o ma c f fa u e we g t o u ai ie t ifu n e r c so f t x ls i c t r c u t i . f n o y i o e n
中 图分 类号 : P 8 T 11 文献标识码: A
An Ap r a h f rT x e t r eg t gC mp tt n Ba e n C n e tHir rh p o c e tF au e W ih i o u ai s d o o c p e ac y o n o
C mp t c n ea dT c nlg, aj gU iesy N nig2 0 9 , hn) o ue S i c n eh oo N ni nvri , aj 10 3 C ia r e y n t n
Abs r c : F au e ta t e t r we g tn c mp t to b ln s o ne f e p o l ms n e t o ume r p e e t t n ih i g o u a in e o g t o o k y r b e i tx d c nt e r Байду номын сангаас n ai . o

一种基于样本加权的位置文本排序算法

一种基于样本加权的位置文本排序算法
务 面临 的挑 战性课 题 。但是 , 独立搜 索引擎存 在着
员 搜索 引擎所 返 回的结果 进行收 集 , 按照一定 然后 的准则 排序 , 终将 排序结 果按一 定顺 序展现 给用 最 户的过 程 。虽 然成 员 搜 索引 擎 的检 索 结 果各 式各
冗余 信息过 载 和索引 数据库 信息覆 盖率低 的 问题 , 不 能提供 大规模 的信 息搜索 , 只有联 合使用 多个搜 索 引擎才 能够满 足用 户需求 。在这种 情况下 , 元搜
索 引擎 系统 应 运 而生 。元 搜 索 引擎 建 立在 多 个 独
样但归纳起来主要由标题 、 摘要和相关度等信息组 成 。因此 , 索引擎 排 序可 以在 成员搜 索引擎排 元搜 序的基础上 , 结合结果的标题、 摘要等信息考虑。 () 1 简单排 序算 法
这 种排序 的方 法 比较 单 一 , 仅 提 高 了 查 全 仅
文章编号
10 5 6 (O 0 O 0 7 0 0 0— 29 2 1 )5— 0 2— 4

种 基 于样 本 加 权 的位 置 文本 排序 算法
敖 飞 , 陈 梅
( 贵州大学 计算机科学与信息学 院, 贵州 贵阳 5 0 2 5 05)

要: 为有 效解 决元搜 索 引擎结 果排 序 的 问题 , 出 了一 种基 于样 本加 权 的位 置文 本排 序 算 提
・ 讯作者 : 通 敖 飞 ,m i:ya18 1@ 16 Cl. E alf _o9 50 2 . O1 l l
第 5期

飞 等 : 种基 于样本加权的位置文本排序算法 一
・ 3・ 7
度, 需要将 查 询 串 q中每个 词 条 t m 与摘 要 a的 e r

基于文本加权词共现的跨语言文本相似度分析

基于文本加权词共现的跨语言文本相似度分析

基于文本加权词共现的跨语言文本相似度分析跨语言文本相似度分析是指在不同语言之间比较文本的相似程度。

基于文本加权词共现的方法是一种常用的跨语言文本相似度分析方法。

该方法首先对文本进行分词处理,然后计算文本中每个词的权重,并构建词共现矩阵。

接着利用词共现矩阵计算文本之间的相似度。

具体步骤如下:
1.分词处理:对文本进行分词处理,将文本中的词语切分出来。

2.计算词权重:对于每个词,可以利用TF-IDF等方法计算其权重。

TF-IDF是一种常用的词权重计算方法,它可以反映词语在文档中的重要程度。

3.构建词共现矩阵:根据文本中词语的共现关系,构建词共现矩阵。

在矩阵中,每一行或每一列代表一个词,矩阵中的元素表示这两个词的共现频率。

4. 计算文本相似度:利用词共现矩阵计算文本之间的相似度。

常用的方法有余弦相似度、Jaccard相似度等。

通过以上步骤,可以实现基于文本加权词共现的跨语言文本相似度分析。

这种方法可以有效地处理不同语言之间的文本相似度比较,为文本信息检索、机器翻译等任务提供支持。

基于同义词词林的文本特征选择与加权研究

基于同义词词林的文本特征选择与加权研究
维之 间更 独立 的特 征空 间_J 3。这 些 方 法 力 求 挖 掘 出 词 条 与 词
语 义 分 析是 自然语 言 处理 领 域 的一 个 概 念 , 义 地 说 是 对 广 各级语 言 单位 , 单 词 、 组 、 子 、 群 所 包 含 的 意 义 和 在 语 即 词 句 句 言使 用过 程 中所 产 生 的意 义进 行 分 析 , 包 含 了词 与 词 之 间 的 它 同义 和蕴 含 关 系 。同 时 专 业 词 汇 的 出现 是 对 文 档 主 题 的 高 度
论 和机 器 学习 方 法 , 比较 著名 的有 信 息 增 益 、 望交 叉 熵 、 本 期 文 证据 权 , 统 计 等 _ J 很多 研 究 者 都 已经 通 过 实 验 证 明 它们 1 ,
是非 常 好 的文 本 特 征 选 择 方 法 。 上述 特 征 选 较 为 有 效 地 去 除 特 征 空 间 中 的 噪音 , 即 但
底 性 和专 门性 。其 中彻 底 性 指 文 本 所 讨 论 的 内 容 被 特 征 词 覆
盖 的程度 ; 门性 指 特 征 词 必 须 能 反 映 文 本 的具 体 内 容 , 不 专 而 是 泛 泛而 谈 。所 以对 于 中文文 本 特 征 的提 取 , 难 度 体 现 在 建 其 立 完 整的 汉语 概 念 体 系的 困难 以及语 法 、 义 和语 用 分 析 的困 语
分 散 了同 一 概 念 的 频 率 。例 如 计算 机 的 同 义 词 有 电 脑 、 机 微 等, 当作 者交 替 使 用 计 算 机 的同 义 词 来 表 达 这 一 概 念 时 , 果 如 只统 计“ 算 机 ” 词 频 , 可 能 该 词 的频 率 并 不 高 , 而 导 致 计 的 有 从 在特 征提 取 时将 其 不 正确 的滤 除 。因 此 , 词 频统 计 时将 表 达 在 同一 概念 的 多个 同义词 进 行词 频 合 并 , 可 以将 原有 特 征提 取 就

一种基于特征加权的KNN文本分类算法

一种基于特征加权的KNN文本分类算法
2l 耳4月 0O

电 脑 学 习
第2 期
种基 于特征加权 的 K N文本分类算法 ’ N 术
赵俊杰” 盛剑锋”’ 陶新民“”
KN N算法 。但 政 进 的 K NN分 类 算法大 多数 是 建立 在 样本 选 择 的 基础 上 。印 以 抽失 分 类 精度 换 取分 类 速 度 。针 对 传
式分 类 贡献 的 不同 . 不 同 的特 征 赋 予不 同 的权 值 . 高 重 要 特征 的 作 用 . 给 提 从而 提 高 了算法 的分 龚 精 度 。矗 后 绘 出实 验 结 栗 并对 实验 数 据 进 j 分 析得 出 结论 。 亍
_’ ’
关 键词 :特征加权
K最近邻
文本分类
针对传统的 K N文本分类算法 的不足 , N 出现了很多改
进 的 K N 算法 , N 目前主要通过两种途径来减小 K N算法 N
本。 计算其 与训练样本集 中每个文本的相似度, 出 K 个 找
相似度 )。 这就大大降低了算法的效率I 2 1 。
K N文本分类算法 的基本思 想是根据传统 的向量空 N
间模型 , 文本内容被形 式化 为特 征空 间中的加权特征 向量,
即 D D ( T , ;T , ;… ; nWn I = 1 Wl 2W2 T , )l l 于 一 个测 试 文 。对
l oi m. re e p r na rs ls r rs ne a d te e p i na aa a ayi o e min i lo ahe e ag r h 1h x e me t eu t ae p ee td n h x rme tl d t n lss e n h o s as c ivd. t i l e

文本分类中的特征选择与权重调整算法

文本分类中的特征选择与权重调整算法

文本分类中的特征选择与权重调整算法文本分类是一项重要且高度复杂的任务,它在自然语言处理领域扮演着重要角色。

在文本分类中,特征选择和权重调整算法是关键步骤,对整个系统的性能有着重要影响。

本文将探讨特征选择和权重调整在文本分类中的作用和方法。

一、特征选择在文本分类中,特征选择是为了选择出对分类任务最具有区分性的特征。

特征选择方法可以分为三类:过滤式、包裹式和嵌入式。

过滤式方法是在特征选择和分类之前独立进行的,通常基于特征的统计信息,如互信息、卡方检验等。

包裹式方法是将特征选择作为一个优化问题,在特征选择和分类之间构建一个评估模型,并进行搜索。

嵌入式方法是将特征选择与分类算法一同训练,通过算法学习自动选择最佳特征。

二、特征权重调整算法在文本分类中,特征权重调整算法是为了调整各个特征对分类结果的重要性。

常见的特征权重调整算法有TF-IDF、CHI、IG等。

TF-IDF(词频-逆文档频率)是一种经典的特征权重计算方法,它通过计算词频和逆文档频率来评估一个词的重要性。

CHI(卡方检验)是一种统计方法,用于衡量特征和类别之间的相关性。

IG (信息增益)则是通过信息熵来衡量特征对分类结果的贡献。

三、特征选择与权重调整算法的结合应用在实际应用中,特征选择和权重调整算法常常结合使用,以达到更好的分类效果。

特征选择可以排除一些冗余和无关的特征,减少维度,提高分类效率。

同时,特征权重调整算法可以对选取的特征进行加权,强调重要特征,减弱次要特征的影响。

在文本分类任务中,选取合适的特征选择和权重调整算法是至关重要的。

不同的特征选择和权重调整算法适用于不同的文本分类问题,因此,根据具体的问题域,选择合适的算法是非常必要的。

此外,还可以通过组合多种特征选择和权重调整算法的结果,来进一步提高分类性能。

例如,可以采用集成学习的方法,通过投票或者加权平均等方式来融合不同的算法结果,以得到更好的分类效果。

总结起来,特征选择和权重调整算法在文本分类中起着至关重要的作用。

基于位置的文本分类样本剪裁及加权方法

基于位置的文本分类样本剪裁及加权方法
理工 大学 理学院 , 南京 2 1 0 0 0 7
I n s t i t u t e o f S c i e n c e s , P L A Un i v e r s i t y o f S c i e n c e a n d T e c h n o l o g y , Na n j i n g 2 1 0 0 0 7 , C h i n a
摘 要 : k 近 邻方法是 文本分类 中广泛应用 的方法 , 对其性 能的优化具有现 实需求 。使 用一种 改进 的聚类算法进行 样 本剪裁 以提 高训 练样本 的类别表 示能力 ; 根据样 本的空 间位 置先后 实现 了基 于类 内和类 间分布的样本加权 ; 改善 了k 近邻 算法 中的大类别 、 高密度训 练样本 占优现 象。 实验结 果表 明 , 提 出的改进文本加权 方法提 高 了分类 器的分
1 引 言
基于 We b 的文本 信息处 理技 术是 网络信息 检索领
域 的 主 要 研 究 内 容 。作 为 文 本 信 息 的 预 处 理 步 骤 , 自动
a l g o r i t h m p e r f o r ma n c e . I t u s e s a n i mp r o v e d c l u s t e r i n g a l g o r i t h m f o r s a mpl e c u t t o i mp r o v e t r a i n i n g s a mp l e c a t e g o r y r e p r e - s e n t a t i o n c a pa b i l i t y . Ac c o r d i n g t o t h e s p a t i a l l o c a t i o n o f t h e s a mp l e ,i t r e a l i z e s t h e s a mp l e we i g h t i n g b a s e d o n c l a s s i n n e r

基于词频的文本特征加权及短文本相似性计算方法、系统和介质[发明专利]

基于词频的文本特征加权及短文本相似性计算方法、系统和介质[发明专利]
专利内容由知识产权出版社提供
专利名称:基于词频的文本特征加权及短文本相似性计算方 法、系统和介质
专利类型:发明专利 发明人:蒋艳凰,贺依依,宋卓,李根,余硕军,赵强利,张少伟,雷
鹏 申请号:CN201910864 611.3 申请日:20190912 公开号:CN1104 89759A 公开日:20191122
申请人:人和未来生物科技(长沙)有限公司 地址:410000 湖南省长沙市开福区长沙高新开发区文轩路27号麓谷钰园C2栋1101号 国籍:CN 代理机构:湖南兆弘专利事务所(普通合伙) 代理人:谭武艺
更多信息请下载全文后查看
摘要:本发明公开了一种基于词频的文本特征加权及短文本相似性计算方法、系统和介质,本发 明基于语料库进行词频统计实现基于词频的文本特征加权,可以用于自然语言处理领域中多个任务。 比如文本分类,关键词提取,相似度计算计算方法,通过给予文本中的词不同的权重,实现信息的非线性分布,能够提高文本的相似度 计算的准确率,这种权重设计能够降低词频低的词的权重,同时也能够赋予词频高的词的较低的权 重,增加中间段词频的词的权重,减少词频低的词和词频高的词对整个文本向量的影响,提高文本间 的相似度计算的准确率。

基于位置的特征项权重算法

基于位置的特征项权重算法

基于位置的特征项权重算法
刘辉
【期刊名称】《中国新技术新产品》
【年(卷),期】2011(000)014
【摘要】Web文本分类是Web文本挖掘的主要内容,而特征项权重的计算是web 文本分类中一个非常重要的步骤.Web文本一般由标题、描述和正文三部分组成.根据Web文本的这一特点,本文提出了一种基于位置的特征项权重算法,并使用此算法对Web文本进行了分类实验.实验结果表明该算法有效提高了Web文本分类系统的分类性能.
【总页数】1页(P28)
【作者】刘辉
【作者单位】辽宁工程技术大学,辽宁葫芦岛,125105
【正文语种】中文
【中图分类】TP274
【相关文献】
1.文本层次分类中特征项权重算法的比较研究 [J], 谭金波
2.文本分类中特征项权重算法的改进 [J], 卢志翔;蒙丽莉
3.基于敏感度分析的案例特征项权重算法的改进 [J], 杨宝华;辜丽川;李绍稳
4.用于文本分类的特征项权重算法改进 [J], 龚静;胡平霞;胡灿
5.用遗传模拟退火算法挖掘特征项权重的研究 [J], 齐平;贾瑞玉;贾兆红;王会颖
因版权原因,仅展示原文概要,查看原文内容请购买。

基于互信息的文本特征加权方法

基于互信息的文本特征加权方法

基于互信息的文本特征加权方法樊小超;张重阳;邓雄伟【摘要】特征加权是文本分类中的重要环节,通过考察传统的特征选择函数,发现互信息方法在特征加权过程中表现尤为突出。

为了提高互信息方法在特征加权时的性能,加入了词频信息、文档频率信息以及类别相关度因子,提出了一种基于改进的互信息特征加权方法。

实验结果表明,该方法比传统的特征加权方法具有更好的分类性能。

%Feature weighting is an important part of the procedure of text categorization, by examining the traditional feature selection function, it finds that the method of mutual information in feature weighting process performs particularly promi-nent. In order to improve the performance of the method of mutual information in feature weighting, the paper adds the term frequency information, document frequency information and categories correlation factor, and proposes a feature weighted based on mutual information method. The experiments show that this method has better classification perfor-mance than the traditional feature weighting method.【期刊名称】《计算机工程与应用》【年(卷),期】2015(000)013【总页数】5页(P145-148,190)【关键词】文本分类;特征选择;特征加权;互信息【作者】樊小超;张重阳;邓雄伟【作者单位】南京理工大学计算机科学与工程学院,南京 210018; 新疆师范大学计算机科学技术学院,乌鲁木齐 830054;南京理工大学计算机科学与工程学院,南京 210018;南京理工大学计算机科学与工程学院,南京 210018【正文语种】中文【中图分类】TP3911 引言随着计算机技术、网络技术、数据库技术的快速发展与普及应用,网络成为人们获取信息最大的资源库。

一种基于特征加权的文本相似度计算算法

一种基于特征加权的文本相似度计算算法

一种基于特征加权的文本相似度计算算法邱先标;陈笑蓉【摘要】文本相似度的计算是文本挖掘的基础.传统的基于向量空间模型(VSM)的文本相似度计算方法把文本映射成词向量,再利用余弦距离公式来计算相似度,这样存在文本向量维数过高以及语义敏感度差的问题.针对以上问题,通过对词性以及权值大小的过滤可以缩减特征词规模,在一定程度上可以减少高维稀疏的情况发生,并且引入LDA模型的文本隐含主题特征,增加文本表示的语义背景,通过线性加权的方式结合VSM模型的特征词特征和LDA模型的主题特征,计算文本相似度.实验表明,与单独使用VSM模型和LDA模型比较,利用加权特征计算文本相似度有着更好的效果.%The calculation of text similarity is the basis of text mining. The traditional text similarity calculation method based on vector space model (VSM) maps the text into word vectors,and then uses the cosine distance formula to calculate the similarity, which has the problems of high dimension and poor semantic sensitivity. Through the filtering of the part of speech and the filtering of the word weight,it is possible to reduce the size of the feature words,which can reduce the occurrence of high-dimensional sparseness. The thematic features of the LDA (Latent Dirichlet Allocation) model were introduced, which can increase the semantic background of the text representation. The text similarity was calculated by combining the feature words of the VSM model with the thematic features of the LDA model. Experiments show that compared with the VSM model and the LDA model a-lone,combining these two features to calculate the text similarity has a better effect.【期刊名称】《贵州大学学报(自然科学版)》【年(卷),期】2018(035)001【总页数】6页(P63-68)【关键词】文本相似度;向量空间模型;LDA模型;特征加权;文本挖掘【作者】邱先标;陈笑蓉【作者单位】贵州大学计算机科学与技术学院,贵州贵阳550025;贵州大学计算机科学与技术学院,贵州贵阳550025【正文语种】中文【中图分类】TP391文本相似度计算方法是文本之间进行比较和距离计算的理论依据,计算文本之间的差异性,这也是许多文本处理技术的前提。

一种基于特征重要度的文本分类特征加权方法

一种基于特征重要度的文本分类特征加权方法
计算机研究与发展 Journal of Computer Research and Development
ISSN 1000—12391CN 11—1777/TP
46(10):1693—1703,2009
一种基于特征重要度的文本分类特征加权方法
刘 赫1’2 刘大有h2 裴志利3 高 滢1’2
1(吉林大学计算机科学与技术学院长春 130012) 2(吉林大学符号计算与知识工程教育都重点实验室 长春130012) 3(内蒙古民族大学计算机科学与技术学院 内蒙古通辽028043) (1iuhel980@163.corn)
万方数据
关键词文本分类;特征加权;特征重要度;粗糙集;决策表
中图法分类号TP391
计算机研究与发展2009,46(10)
文本分类是处理和组织大规模文本数据的关键 技术.直到20世纪80年代末,在文本分类方面占主 导地位的是基于知识工程(knowledge engineering) 的分类方法,即由专业人员手工编写分类规则来指 导分类,其中最著名的系统是路透社的Construe系 统.20世纪90年代以来,随着信息存储技术和计算 机网络的迅猛发展,大量的文字信息开始以计算机 可读的形式存在,并且其数量与日俱增.在这种情况 下,机器学习(machine learning)逐渐取代知识工程 成为文本分类的主流技术.目前,文本分类技术正受 到广泛关注,并且广泛应用于搜索引擎、快速资料分 检、自动文摘、信息资料推送和信息过滤等领域.
C对应决策特征值y;的特征值子集区间c(y,)定义
如下:
c(yf)一{勘l勘一f(x,f);Vz∈U,yf—f(x,d)).
(1)
条件特征c∈C对应决策值y;的特征值子集区 间与对应决策值Yj的特征值子集区间的交集记为

一种基于特征重要度的文本分类特征加权方法

一种基于特征重要度的文本分类特征加权方法

一种基于特征重要度的文本分类特征加权方法刘赫;刘大有;裴志利;高滢【期刊名称】《计算机研究与发展》【年(卷),期】2009(046)010【摘要】针对文本分类中的特征加权问题,提出了一种基于特征重要度的特征加权方法.该方法基于实数粗糙集理论,通过定义特征重要度,将特征对分类的决策信息引入到特征权重中.然后,在标准文本数据集Reuters-21578 Top10和WebKB上进行了实验.结果表明,该方法能改善样本空间的分布状态,使同类样本更加紧凑,异类样本更加松散,从而简化从样本到类别的映射关系.最后,使用Na ve Bayes,kNN和SVM分类器在上述数据集上对该方法进行了实验.结果表明,该方法能提高分类的准确率、召回率和F1值.【总页数】11页(P1693-1703)【作者】刘赫;刘大有;裴志利;高滢【作者单位】吉林大学计算机科学与技术学院,长春,130012;吉林大学符号计算与知识工程教育部重点实验室,长春,130012;吉林大学计算机科学与技术学院,长春,130012;吉林大学符号计算与知识工程教育部重点实验室,长春,130012;内蒙古民族大学计算机科学与技术学院,内蒙古通辽,028043;吉林大学计算机科学与技术学院,长春,130012;吉林大学符号计算与知识工程教育部重点实验室,长春,130012【正文语种】中文【中图分类】TP391【相关文献】1.一种基于特征加权的KNN文本分类算法 [J], 赵俊杰;盛剑锋;陶新民2.一种基于特征加权语言模型的微博分类新方法 [J], 崔为娜3.一种基于特征加权的点迹质量评估方法及应用 [J], 赵三伟;徐敏超;孙玉玺4.一种基于特征加权的点迹质量评估方法及应用 [J], 赵三伟;徐敏超;孙玉玺5.一种基于特征加权模板匹配方法在纸币字符识别中的应用 [J], 陈国彬;张广泉因版权原因,仅展示原文概要,查看原文内容请购买。

基于位置的文本分类样本剪裁及加权方法

基于位置的文本分类样本剪裁及加权方法

基于位置的文本分类样本剪裁及加权方法刘海峰;刘守生;苏展【期刊名称】《计算机工程与应用》【年(卷),期】2015(000)002【摘要】k近邻方法是文本分类中广泛应用的方法,对其性能的优化具有现实需求。

使用一种改进的聚类算法进行样本剪裁以提高训练样本的类别表示能力;根据样本的空间位置先后实现了基于类内和类间分布的样本加权;改善了k近邻算法中的大类别、高密度训练样本占优现象。

实验结果表明,提出的改进文本加权方法提高了分类器的分类效率。

%K nearest neighbor method is widely used in text classification method. There is the real need of improving the algorithm performance. It uses an improved clustering algorithm for sample cut to improve training sample category repre-sentation capability. According to the spatial location of the sample, it realizes the sample weighting based on class inner and class between. It improves the phenomenon that categories, high density of training samples have the advantage in k nearest neighbor algorithm. The experimental result shows that the improved text weighted method improves the classifi-cation efficiency.【总页数】5页(P131-135)【作者】刘海峰;刘守生;苏展【作者单位】解放军理工大学理学院,南京 210007;解放军理工大学理学院,南京 210007;解放军理工大学理学院,南京 210007【正文语种】中文【中图分类】TP391【相关文献】1.基于样本密度加权的神经网络分类器在文本分类中的应用 [J], 廖一星2.基于优化样本分布抽样集成学习的半监督文本分类方法研究 [J], 徐禹洪;黄沛杰3.一种基于样本加权的位置文本排序算法 [J], 敖飞;陈梅4.基于异构图卷积网络的小样本短文本分类方法 [J], 袁自勇;高曙;曹姣;陈良臣5.文本分类中基于K-means的类偏斜KNN样本剪裁 [J], 刘海峰;姚泽清;苏展;张学仁因版权原因,仅展示原文概要,查看原文内容请购买。

位置加权文本聚类算法

位置加权文本聚类算法

位置加权文本聚类算法金春霞;周海岩【期刊名称】《计算机工程与科学》【年(卷),期】2011(33)6【摘要】Document clustering is an important research topic of natural language processing and is widely applicable in the areas such as information retrieval, web mining and digital libraries. Because the feature terms of different positions in the document are different for the article's contribution, TCAB-PW (a text clustering algorithm based on position weighting) is proposed in this paper. We construct a new text vector by selecting L-top-weight text that reflects the topical subject of the document and it is used to realize text clustering by hierarchical clustering and the K-means method. The results show that without affecting the quality of text clustering, the algorithm can not only greatly reduce the high dimension of text clustering, but also can significantly increase the stability and purity of text clutering, and can also produce the clusering effect of good quality.%文本聚类是自然语言处理研究中一项重要研究课题,文本聚类技术广泛地应用于信息检索、Web挖掘和数字图书馆等领域.本文针对特征词在文档中的不同位置对文档的贡献大小不同,提出了基于特征词的位置加权文本聚类改进算法--TCABPW.通过选取反映文档主题的前L个高权值的特征项构造新的文本特征向量,采用层次聚类和K-means文本聚类相结合的改进算法实现文本聚类.实验结果表明,提出的改进算法在不影响聚类质量的情况下大大地降低了文本聚类的维度,在稳定性和纯度上都有显著提高,获得了较好的聚类效果.【总页数】5页(P154-158)【作者】金春霞;周海岩【作者单位】淮阴工学院计算机工程学院,江苏淮安223003;淮阴工学院计算机工程学院,江苏淮安223003【正文语种】中文【中图分类】TP18【相关文献】1.基于样本加权的文本聚类算法研究 [J], 章成志;师庆辉;薛德军2.加权模糊C均值文本聚类算法研究及仿真 [J], 谭营军;李翠霞3.基于位置的文本分类样本剪裁及加权方法 [J], 刘海峰;刘守生;苏展4.基于加权核非负矩阵分解的短文本聚类算法 [J], 曹大为;贺超波;陈启买;刘海5.基于子空间变量自动加权的K-均值文本聚类算法的研究 [J], 宁涛;晋博晨;宋存利因版权原因,仅展示原文概要,查看原文内容请购买。

基于信息熵的文本特征加权方法研究的开题报告

基于信息熵的文本特征加权方法研究的开题报告

基于信息熵的文本特征加权方法研究的开题报告一、研究背景和意义随着信息技术的飞速发展,大量的文本数据被产生和存储,这些数据涵盖了各个领域,包括社交媒体、新闻报道、科学研究等。

文本特征提取作为文本数据挖掘中的关键问题,已经成为了研究的热点之一。

由于文本数据的复杂性和多样性,传统的文本特征提取方法已经无法满足人们的需求。

因此,开发高效、准确、可靠的文本特征提取方法对于文本数据挖掘的成功应用具有重大的意义。

信息熵是信息论中一个重要的概念,它可以用来描述一个随机过程或随机变量的随机性和不确定性。

在文本挖掘中,信息熵可以用来衡量一个文档中单词分布的不均匀程度,从而作为文本特征的一种衡量指标。

然而,目前基于信息熵的文本特征加权方法的研究还比较少,需要进一步探索和研究。

因此,本研究将基于信息熵的文本特征加权方法进行研究,力求提出一种有效的文本特征提取方法,以满足文本挖掘领域的需求。

二、研究内容和方法本研究的主要内容是基于信息熵的文本特征加权方法的研究。

具体研究内容包括以下两个方面:1. 探索文本特征加权方法本研究将从信息熵的角度出发,通过分析文本中单词分布的不均匀程度,构建文本特征加权模型,对文本特征进行有效的加权。

具体来说,本研究将考虑以下几个方面:(1)基于信息熵的特征加权算法:通过计算文本中单词出现的频率和信息熵,建立加权模型,实现对文本特征的加权。

(2)特征选择方法的研究:考虑到在文本挖掘中大多数特征都是冗余的,本研究将研究一些常用的特征选择方法,如相关度分析法、互信息法等。

2. 文本分类应用研究本研究将利用所提出的基于信息熵的文本特征加权方法,对文本进行特征提取,并将其应用于文本分类中。

具体来说,本研究将研究以下两个方面:(1)基于机器学习的文本分类算法:本研究将研究传统的分类算法,并探索一些新兴的文本分类算法,如深度学习算法、集成学习算法等。

(2)文本分类实验与评估:本研究将采用一些常用的评价指标,如准确率、召回率、F1值等,对所提出的基于信息熵的文本特征加权方法进行实验和评估,以验证其有效性和可行性。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

26卷 第2期2009年2月微电子学与计算机M ICROEL ECTRON ICS &COMPU TERVol.26 No.2February 2009收稿日期:2008-05-13基金项目:国家自然科学基金项目(70571087)基于位置的文本特征加权方法研究刘海峰,姚泽清,汪泽焱,张学仁(解放军理工大学理学院,江苏南京210007)摘 要:TF 2IDF 是文本特征赋权的常用方法.该方法简单易行,但没有考虑位置因素对特征赋权的影响.通过修改因子,分析不同条件下文本表现形式的差异,提出3个基于位置的文本特征加权方法.随后的文本分类试验表明,此加权模型相比较于传统的方法,均具有较好的文本标注效果.关键词:特征加权;位置加权;改进;文本分类中图分类号:TP391 文献标识码:A 文章编号:1000-7180(2009)02-0188-05A Study of T ext T erm WeightingB ased on PositionL IU Hai 2feng ,YAO Ze 2qing ,WAN G Ze 2yan ,ZHAN G Xue 2ren(Institute of Sciences ,PLA University of Science and Technology ,Nanjing 210007,China )Abstract :TF 2IDF is a kind of common methods used to measure the terms in a document.This method is easy but it con 2siders no factor of the position.By modifying the TF 2IDF with the position information and analyzing the difference of texts form under the different situation ,we put forward three means based on positions to weight the terms.We have a test about text categorization and the result shows that these methods have a better precision than the common TF 2IDF.K ey w ords :feature weighting ;position weighting ;text classification ;modified TF 2IDF1 引 言作为对文本预处理的重要研究内容之一,高效的文本自动分类显然有助于提高基于内容的信息检索效率.文本自动分类技术研究已经成为信息检索和数据挖掘领域的研究热点与核心技术.基于统计的机器学习方法在文本分类中的应用形成了文本自动分类技术研究的一个主要方向.20世纪90年代以来得到了长足发展的基于机器学习的文本分类方法,注重分类器的模型自动挖掘和生成以及动态优化能力,在分类效果、方法灵活性、扩展性等方面都比之前基于知识工程和专家系统的文本分类模式有所突破.文本自动分类是指在给定的分类体系下,对未知类别的文本根据其特征自动判断其类别归属的过程.文本分类(text categorization ,TC )技术是信息检索和文本挖掘的重要基础,在提高信息利用的有效性和准确性上具有重要的现实意义,在信息检索与信息过滤、信息推荐、自然语言理解及处理、文本自动文摘、主题识别、信息组织与管理等方面,文本自动分类技术均起着越来越重要的作用.2 基于向量模型的文本表示及其相关问题向量空间模型的基本思路是借助向量之间的距离来逼近文本之间的语义相似性.向量空间模型要解决的两个主要问题:一是究竟应该以什么样的语义单元作为文本表示的特征,这一点目前形成的主流共识是以词作为特征项;二是在特征项赋值方面,合理的加权方法应该能体现出特征加权的基本准则:(1)在指定的一个文本内,特征项赋权后具有最大的表示该文本的能力;(2)在文本集的各个文本之间,特征项赋权后具有最大的文本区分能力.2.1 经典向量空间模型的优点及其主要问题借助向量空间模型进行文本分类的通常做法:用特征向量表示文本;用特征项赋权因子进行文本向量加权;用向量夹角余弦进行文档相似性度量;用倒排文本方式进行分类结果排序;以查准率和查全率作为模型分类效果的评价指标.记t ij(i=1,2,…,n)为文档d j的第i个特征项(标引词),w ij(i=1,2,…,n)分别为t ij(i=1,2,…,n)在d j中的权重.w ij一般使用tf2i df因子进行赋权:w ij=tf ij×log(Nn i+0.01)∑ni=1tf ij×log(Nn i+0.01)2(1)tf2i df因子同时考虑了文本标引的两个主要因素:tf因子体现了在文本中频繁出现的特征项在模型中应该赋予较高的权重,而i df因子则加大了不同文本之间的区分度,它说明在许多文献中都出现的词语对于区分相关文献和不相关文献是没有什么作用的.从本质上讲idf因子是一种试图抑制噪音的加权手段.向量空间模型是自动文本分类使用的主要模型,也是信息检索研究领域中文本表示的主流模型,文本分类从某个层面看是基于文本诸类别信息的信息检索.美国康奈尔(Cornell)大学开发的SMAR T 检索系统就是基于向量模型[1].向量空间模型主要优点在于结构简单、应用方便;利用空间相似性逼近语义相似性;通过对特征项的加权改进了模型的检索效果;模型的部分匹配策略允许检索出与查询条件相接近的文献;相似度的引进使得能够对查询结果之间进行排序,以倒排文档方式提交结果.与其余排序方法相比,即使向量模型不是最优的,但是其性能也相当的好.但是向量模型存在着一些不足,就是以统计方法给出的加权模式主要考虑的是特征项的频率而没有考虑其在文本里的位置所含有的信息.事实上,特征项在文本里的不同位置体现着其对文本标引的不同的重要程度.因此对特征项加权方法的研究是提高向量模型分类效率的重要途径之一.2.2 一种基于位置的文本特征项加权方法将特征项在文本里的位置作为确定其权重的因素之一,再结合词频进行特征项权值的确定,这就是基于位置的特征项赋权法.从经典向量空间模型的赋权公式(式(1))可以看出,tf2i df因子没有考虑特征项在文本中位置上的不同所引起的对文本表示能力上的差距.一般说来,对于文本内容的表现力而言,文本的标题、摘要、关键词、副标题及第一段首句、第一段尾句、尾段等位置的特征项对文本表达能力从大到小顺序为:标题>摘要>关键词>副标题>第一段首句>第一段尾句>尾段>其他[2],因此在使用tf2i df赋权因子时,考虑分两步计算式(1)中特征项t ij的权重w ij:(1)首先计算t ij在文本集里文本的第k个位置相应的tf2idf赋权因子w ijk=tf ijk×log(Ndf ijk+0.01)∑ni=1tf ijk×log(Ndf ijk+0.01)2,k=1,2,…,8(2)式中,w ijk(i=1,2,…,8)分别是特征项t ij在文本的标题、摘要、关键词、副标题、第一段首句、第二段首句、尾段、结语位置的权重;(2)对特征项t ij最终赋权为w ij=∑8k=1λiw ijk(3)式中,位置加权系数λi满足λi+1≥λi,i=1,2,…, 7;且∑8i=1λi=1(4)试验中取这组加权系数为0.2,0.18,0.16, 0.14,0.12,0.11,0.1,0.09.3 Web条件下的文本特征项位置加权方法随着信息技术的飞速发展,Web上的文本成为文本研究语料的主要来源,对基于Web上的文本进行有效标注也就成为文本表示的重要内容之一.而Web页面上文本由于其自身特点给第二节中提出的加权模型(式(3))的使用带来新的问题.3.1 Web条件下的文本表示与传统的文本表示的差异 上一节提出的基于位置的文本特征项加权方法适应于对静态文本集的文本特征项加权,将这个模型应用到Web上的文本加权却会遇到新的困难.网络信息资源具有的全文性、动态性与文本格式的复杂多样性等特有性态,使得式(3)的加权方法难以满足基于Web的文本表示需要.随着在线信息的快速增长,提供一种与之相适应的合理的文本表981 第2期刘海峰,等:基于位置的文本特征加权方法研究示机制变得越来越重要.如何克服传统向量空间模型特征项加权方法在Web环境下的不足之处,使之适应网络条件下的文本表示特点,成为向量空间模型用于Web条件下文本表示所需要面对的新问题.两种环境下文本的存在模式具有以下主要差异:首先,一个Web文本常常是由具一定主题的多个页面链接,同时带有html标记的半结构化文本.其中,html语言的各种标签所标引的字段有自身的特点和含义,这些信息在传统的向量模型里没有被考虑进去.事实上利用html文本的结构信息来提高Web信息检索性能的做法已经被在一些商用搜索引擎使用,比如Yahoo、G oole等,所以文本里的这部分信息应该在文本特征项赋权时体现出来.其次,文本链接部分是html文本结构中具有鲜明特点的部分,也是普通文本所没有的内容.链接文本是网页之间链接时相应的描述性说明内容,体现了链接信息与被链接信息之间存在着的一种可信的映射关系.一般说来,在Web上一个页面被其他站点引用的次数基本上反映了该页面的受欢迎程度.这是因为如果页面A有一条指向页面B的链接,则表示页面A的作者认为B里包含了有价值的信息,即含有其研究的相关的内容;而如果页面B被许多其他的页面所引用,则表示该页面里包含了丰富的信息及相关内容.链接文本部分反映了不同的作者对他们所指向内容的评价,这种评价比网页作者自身对其内容的评价更加客观,其可信程度更高[3];所以文本之间的链接信息影响文本检索的效果,这一因素中应该得到考虑.3.2 Web条件下文本各个部分对文本表现能力评估 目前研究文本特征的基于位置加权方法的文章虽然不少,但是能够科学地给出权重分配方案的却不多.文献[4]中通过对涉及经济、教育、文学和心理学等四个领域的1800篇基于Web的文本进行分析、试验[4],对文本所含有的12个信息分布位置:网页题名(title项)、文章标题(bt)、第一段首句(ds1)、第一段尾句(dw1)、第二段首句(ds2)、第二段尾句(dw2)、第三段首句(ds3)、第三段尾句(dw3)、首段(sd)、尾段(wd)、其他段(qt)(即除去sd、wd,并且不包括ds2、ds2、dw2、ds3、dw3之外的文本其他部分)以及html标记(html)等不同部分对文本的表达能力进行了详细的统计分析,得到各个位置对主题表达能力的先后顺序如下:bt>Html>Sd>Ds1>Title>Dw1>Qt>Wd>Ds2>Dw2>Ds3>Dw3;并建议位置权重方案如下:Bt∶Html∶Sd∶Ds1∶Title∶Dw1∶Qt∶Wd∶Ds2∶Dw2∶Ds3∶Dw3=5∶5∶5∶4∶4∶4∶2∶2∶2∶2∶2∶2(5)从该试验可以看出,文章标题、html标记以及首段对文本主题的表达能力最强;第一段首句、网页题名以及第一段尾句部分次之;而文本的其余部分如第二段首句、第二段尾句、第三段首句、第三段尾句等部分所含有的信息最少.因此,对文本的处理分三个层面进行是比较合理的.首先,标题部分一般说来是网页内容的精炼概括,字数较少,除很少的一些虚词外基本上都是本网页的特征词,标题文本基本上反映了网页的主要内容[5];其次,html语言的各种标签所标引的字段有自身的特点和含义,而文本的链接描述实际是不同的作者对该网页的客观评价;再者,在首段往往表达了作者写作的主旨,对于文本的主题标示具有重要的意义.并且这些内容具有一些共同之处[6]:(1)对文本主题的表达能力最强;(2)相比较整个文本来说本身词数较少.对于这部分内容,我们将其划为第一层面.其次,第一段首句、第一段尾句以及网页题名部分对文本也具有较强的表达能力.对于中文文本来说,由于中国人写文章一般讲究“起、乘、转、合”、“开门见山”,在第一段通常提出自己所想表达的主题思想.所以相比正文的其余部分,这部分内容在表达文本主题的能力上应该更强一些;另外,虽然根据式(5)可以得出首段的特征项相应的权值应该大于第一段首句、第一段尾句里特征项的权值,但由于该部分词数通常较多,所以将这三部分放在一起划为第二层面.最后,第二段首句、第二段尾句、第三段首句、第三段尾句、尾段(wd)、其他剩余部分等在文本主题表达能力方面区别不大,所以将它们归为第三层面处理.3.3 Web条件下一种文本特征项线性加权模型根据上述分析,文中设计Web文本特征项赋权方法如下:(1)将待表示的文本集里每个文本分解为上述三个层面,将各部分分别归入3个集合S1、S2、S3中.其中,S i(i=1,2,3)分别由上述3个层面相应的文本部分构成相应的3个“伪文本集”;091微电子学与计算机2009年(2)每个文本d j用3个特征向量表示:第一个特征向量V1j为文本d j中位于第一层面部分的特征项的权重构成;相应地,第二、三个特征向量V2j、V3j分别为第二、三层面相应部分特征项权重组成;其赋权通过式(1)的tf2i df计算;(3)为了降低计算时间与存储空间,对上述3个“伪文本集”相应的向量维数进行限制.一般分别选择权值最大的若干个特征项的权重构成伪文本向量:V kj=(w k1j,w k2j,…,w ktj);k=1,2,3(6)式中,w klj表示文本d j相应于第k层面的第l个特征项的权重,l=1,2,…,t.试验中取t=10;(4)根据式(5)反映的不同位置对特征项权重的影响程度,写出文本d j的向量表示形式:d j= (2.5w11j,2.5w12j,…,2.5w1tj,2w21j,2w22j,…, 2w2tj,w31j,w32j,…,w3tj)T(7)并将其单位化.3.4 Web条件下一种非线性文本特征加权方法线性加权模型是文本检索权重计算方面常用的模型,该模型结构简单,使用方便,在文本分类领域广为应用.但是,这种加权方式也有其不足之处.首先,尽管大家都感觉到特征词在不同的位置对其相应的权重应该有所影响,但是却很难将这种影响量化为明确的数量关系;其次,tf2idf赋权因子本质上是一种基于词频统计的加权模型.但是该模型本身在以自然语言形式存在的文本表示方面也有值得商榷的地方.比如:假定特征项A在文本里出现5次,特征项B在文本里出现1次,可以认为在该文本里特征词A的重要程度要大于特征词B,但是显然不能就认为A的重要程度是B的5倍.因此这种权重的线性加权模式与实际情况可能有较大的出入.究其原因,是由于在对文本不同部分的重要性进行量化的过程中,若使用线性加权模式会使得对不同位置的权重处理太“刚硬”,因此,可以考虑用一种非线性函数来构造特征项的加权模型.一般说来,这种非线性函数应该具有下面的特性[7]:(1)在该模式下权重随着词频的增加单调上升,并逐渐向1接近;(2)上升速度相比较线性加权模式要平缓一些;(3)当词频数特别多时,其权值的变化应该基本上趋于稳定;(4)该函数的函数值应该介于[0,1]之间.当然满足这种特性的函数很多.若以上节的V3j为参照系,需要对V1j、V2j的权重进行调整,又由于三者对文本表示的重要程度依次为V1j>V2j >V3j,所以对后者调整力度应该由高到低.为此,使用满足上述四个特性的非线性模型:f1(n)=n1+n(8)及在自动控制系统里常用的Sigmoid模型:f2(n)=e n1+e n,(9)可以证明:当n>0时有0<f1(n)<f2(n)<1事实上,由y=f2(n)-f1(n)=en1+e n-n1+n=e n-n(1+e n)(1+n)>0,(n>0),易得上述不等式.由于对V1j的调大幅度应该更大于对V2j的调大幅度,所以将式(9)用于对V2j的修正.至此,对式(7)中的伪文本向量进行如下权值调整:定义: w1pj=f1(df1pj)×2.5w1pj;p=1,2,…,t;w2pj=f2(df3pj)×2.5w3pj;p=1,2,…,t;w3pj=w3pj;p=1,2,…,t(10)式中,df kpj表示文本d j的特征项t pj在“伪文本集”S k 中的频数,k=1,2,3.则文本d j表示为d j=( w11j, w12j,…, w1tj, w21j, w22j,…, w2tj, w31j, w32j,…, w3tj)T(11)再将其单位化.4 实验结果及其分析使用上述的4种特征加权方法对文本进行标注,将标注后的文本进行分类,分类器使用常用的kNN分类器,试验语料是从G oogle网站上下载1200篇HTML文本,分为军事(292篇)、体育(116篇)、房地产(212篇)、音乐(343篇)文学(237篇)共5类.为了便于统计词频,计算权值,对下载的文本使用禁用词表剔除了虚词、助词、人称代词、特高频词等建立特征项集合.使用传统向量空间模型(式(1))、基于位置的加权模式(式(3))(此时该组参数取值为0.2,0.18,0.16,0.14,0.12,0.11,0.1, 0.09)进行特征加权;在基于Web的文本特征加权时,将该集合按照相应三个层面的属性划为三个子集S1、S2、S3.分别以Web条件下线性加权模型(式(7))及Web条件下非线性加权模型(式(11))(其中取参数k=10)进行特征项加权,以查准率(Preci2191 第2期刘海峰,等:基于位置的文本特征加权方法研究sion)和查全率为(Recall)为分类性能评价指标[8]:查准率=分类的正确文本数/实际分类文本数;查全率=分类的正确文本数/应有文本数;在使用传统向量空间模型(式(1))进行加权时,剔除html标记等Web文本特有的相关内容.同时使用上述4种加权模式构造相应的5种类别文本向量,取查准率与查全率的5个数值的平均为最终评价指标.实验结果数据统计如表1所示.表1 四种加权模型的文本分类效果统计查准率查全率传统向量加权模型0.72130.7672基于位置的加权模型0.81460.8619基于Web的线性加权模型0.86170.8238基于Web的非线性加权模型0.87620.8572从表1可以看出,文中提出的不同环境下的加权模型相比较于传统向量模型来说,在文本分类的性能上优势还是明显的,其主要原因之一可能是后两种模型含有的html标记等信息提高了标注效果;而后两种模型在分类效率上相差不大,且非线性加权模型在性能上更显得平稳一些.参考文献:[1]闫龙,王文杰.基于贝叶斯方法的一种垃圾邮件的过滤与实现[J].微电子学与计算机,2006,23(2):86-88. [2]丁璇.中文网页标引源主题表达能力的调查[J].大学图书馆学报,2002(6):70-72.[3]胡健,陆一鸣,马范援.基于HTML文档结构的向量空间模型的改进[J].情报学报,2005,24(4):433-437. [4]侯汉清,张成志,郑红.Web概念挖掘中标引源加权方案初探[J].情报学报,2005,24(1):87-92.[5]Einat Amitay,David Carmel,Adam Darlow.Topic distil2lation with knowledge agents[C]//Proceedings of Text Retrieval A:K luwer Academic Publisher, 2002:263-265.[6]韩毅.基于文档结构的向量空间检索模型研究[J].情报学报,2004,23(2):158-162.[7]刘海峰,王元元.基于向量模型的文本检索若干问题研究[J].情报杂志,2006,25(10):57-59.[8]张选平,蒋宇,袁明轩,等.一种基于概念的信息检索查询与扩展[J].微电子学与计算机,2006,23(4):110-114.作者简介:刘海峰 男,(1962-),博士研究生,副教授.研究方向为数据挖掘、文本分类.姚泽清 男,(1960-),教授.研究方向为统计分析、数据挖掘.汪泽焱 男,(1972-),副教授.研究方向为统计分析.张学仁 男,(1955-),副教授.研究方向为人工智能.(上接第187页)[2]高丹,刘海涛.CMOS数字电路低功耗的层次化设计[J].微电子学与计算机,2008,25(1):100-103.[3]Ghose K,K amble M B.Reducing power in superscalarprocessor caches using subbanking,multiple line buffers and bit-line segmentation[C]//Proc.of the International Symposium on Low Power Electronics and Design (ISL PED’99).New Y ork,1999:70-75.[4]Aly R E,Nallamilli B R,Bayoumi M A.Variable-wayset associative cache design for embedded system applica2 tions[C]//Proc.of the46th IEEE International Midwest Symposium on Circuits and Systems(MWSCAS’03).USA,2003:1435-1438.[5]Hennessy J L,Patterson D puter architecture:aquantitative approach[M].4th ed.Beijing:China Ma2 chine Press,2007.[6]Pong F,Stenstrom P,Dubois M.An integrated methodol2ogy for the verification of directory-based cache protocols[C]//Proc.of the International Conference on ParallelProcessing(ICPP’94).USA:North Carolira State Uni2 versity,1994:158-165.[7]张延军,何虎.适用于VL IW数字信号处理器的功能验证策略[J].微电子学与计算机,2007,24(2):1-4.作者简介:贾 迪 男,(1984-),硕士研究生.研究方向为嵌入式数字信号处理器的cache系统设计.何 虎 男,(1974-),助理研究员.研究方向为处理器体系结构.孙义和 男,(1945-),教授,博士生导师.研究方向为L SI/ SOC测试方法学和可测性设计、多媒体VL SI/SOC设计技术和数据网络安全VL SI/SOC结构.291微电子学与计算机2009年。

相关文档
最新文档