Web文本分类及其阻塞减少策略
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
We b文本分 类及 其阻塞减少策 略
徐春荣 欧阳为民 勾海波
( 上海 大学计算机工程与科学学院 上海 207 ) ( 002 上海大学计算 机网络中心 上海 207 ) 002
摘 要
We b挖掘 中, 根据 内容对 We b文档进行分类是 至关重要 的一步。在 We 档分 类 中一种通 常 的方法是层 次型分类方 b文
( colfC m ue n ier ga dSi c,h nh iU i rt,h n h i 0 0 2 C ia Sho o p t E gnen n c neS ag a nv syS a g a 0 7 , hn ) o r i e ei 2 ( a p sNtokCn rSa g a nvr yS a g a 2 0 7 C ia C m u e r et ,hn h i i s ,hn h i 0 02, hn ) w e U e i t
所以 We b文本挖掘有其独 特的特征 。 目前 We b文本 挖掘 主要 包括 We 文本 内容的挖 掘 和结构 的挖掘 , 中, b 其 本文 牵涉 到的 主要是 We b文本 内容 的挖掘 。
于, 接下来判断是否属于分类树 中的一个或多个子类别。重复
该 过程 , 直到这个文档不 能被归属 到任何 的下一层 子节点类别 或到达叶子类别 。当对 We b文档 进行 H C分类 时 , T 经常会 出 现不能把文档归 属到 具体 类别 的情 况 , 即使 文档 属 于该类别 。
首先判断一个文档是否属 于一个分 类树 的根节点类 别 , 果属 如
1 We b文本 内容挖掘和 文本分 类
Wb e 文本挖掘是指从 大量 的 We b网页 的集 合 中发现 隐含 的模 式。We b文本挖掘的定 义和一般 数据挖 掘的定义 相似 , 但 是因为 We 文档对象有 巨量 、 、 构化或无 结构等特 点 , b 分散 半结
n mey T rs od Re u t n, sr td Voigt d rs h lc igpo lm n We e t lsic t n a l , h h l d ci Re tce t a d estebo kn rbe i b tx asf ai . e o / n o c i o Ke wo d y rs D t nn We nn C as c t n aamii g b miig lsi ai i f o
kn hc f ou et wo g jc db ec sie t i e- vl adcno b asdt ec sies to e- vl.nti i w i r e t dc m ns rnl r et yt l s r a hg rees n ant e se t l s r a l rl e I s g her o s ye e h a fs h l i p oh a f w e s h i
维普资讯
第2 4卷第 1 期
20 0 7年 1月
计 算机 应 用与软件
C mp trAp l ain n o w r o ue pi t sa d S f ae c o t
Vo . 4, . 1 2 No 1
Jn 2 0 a .0 7
ቤተ መጻሕፍቲ ባይዱ
i ec tg r rea dcasfigtx o u nsi pd w n e. we e . eheac ia et lsi ct nmeh d ufr rm bo - nt ae oyt n lsi n t c me t nat — o nma n rHo v r t irrhc tx asf ai to ssf o lc h e y e d o h l c i o ef
情况 。
关键词
数据挖掘
We b挖掘
分类
、 EB EXT CLAS I CATI v T .S FI ON AND BLOCKI NG REDUCTI ON TRAT S EGI ES
Xu C u rn Ou a g Wemig Go io h no g yn i n u Hab
p p rw s lsie -e tcp r r n eme s r n wna lc igfco od tr n h xe t ftebo kn n s to s a e , e ueaca s rcnr e oma c a uek o sbo kn a trt eemietee tn lc iga du et meh d , i f i f o h wo
法, 这种方法采用自顶向下的方式把文档分类到一个分类树的相应类别。然而, 层次型分类方法在对文档进行分类时经常产生待分
类 的文档在分类树 的上层分 类器被错误地 拒绝的现 象( 阻塞) 。针对这种现象 , 采用 了以分 类器 为 中心 的阻塞 因子 去衡 量 阻塞 的程 度, 并介绍 了两种新的层次型分类方法 , 即基于降低 阈值 的方法和基 于限制 投票的方法 , 去改善 We b文档 分类 中文档被 错误 阻塞 的
例如 。 某一 文档 内容 是讲猫 这 种具 体动 物 的, 对其 分类 假设 但 时, 如果存在一个这样 的类别层次 : 动物一猫科动物一猫 、 老虎,
Ab ta t sr c On o ec mmo p ra hi b tx lsic t ni heac ia x lsic t nta n ov sa scaigcasf r i o e na po c n We e t a s iai irrhclt t a s ai h t v le so it lsiesw t n d s c f o s e c i f o i n i h