基于本体语义树的主题空间向量模型
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
t p c bu loa ay e h ee a c ft e l t n i r v d Pa e n ag rt m. l e h ee a c o s o i, t s n l z st e r lv n eo i wi a mp o e g Ra k l o ih On y wh nt e r lv n ed e a h n k h n tr a h a g v n tr s o d wili d wn o d t e p g or s o d n o t e URL.Th sc lu ai n meh d c n g e ty o e c i e h e h l l t o l a h a e c re p n i g t h i a c lto t o a r al r d c n e e s r o u a in lo e h a ,a d ma e f l s fa c o e ta d l mp ra e ofi f r to . e u e u n c s ay c mp t t a v r e d n k ul u e o n h rt x n i i o tnc n o mai n o y k n Fi l ,i c lults t e rlva c fa we a e whc sn ts r eh ri i ea e o t e t p c n li tl nal t ac a e h ee n e o b p g ih i o u e wh te t s r ltd t h o i ,a d u t y maey d tr i e eh rt i a es o l ec l ce rn t e e n swh t e sp g h u db o l td o o . m h e
r lto his b t e n c n e t . hs b ss t e p p rp e e t to o c lu ae t e r lv n e o eains p e w e o c p s On t i a i, h a e r s n sa me h d t ac lt h ee a c fHTM L p g s a e
计 算 机 系 统 应 用
ht:w . sa r. t / wwc —. gc p/ — o n
21 0 1年 第 2 卷 第 1 期 0 0
基于本体语义树 的主题空间向量模
卢承 山
(0 3
摘
要 :在传 统检索模型的基础上 ,结合本 体的概念 ,提 出一种基于本体语 义树的主题空 间向量模型 。该模 型
me o ste d l a ec b bet i e ni cne trew t whc m l t dsr e h e n c t d,h e cnd sr eas jc w t sma t o cp t i i ii s pe o ec b esmat h mo i u h c e h h ts i i t i
a dt et pi. he n l zn h ee a c fU RL, td e o n y a ay et er lva c fln a c o e ta d t e n h o c W n a a y i g te r lv n eo i o sn to l n lz h ee n e o k n h rtx n h i
Absr c :Ba e n t e ta i o a e r h m o e,c mbii g t e c n e to n o o y h spa e o o e h m ai ta t s d o h r dt n ls a c d l o i n n h o c p fo t l g ,t i p rpr p s s a t e t c
nt r rwl gmo e b sd o no g e ni t e U l etet dt nl ewodb sd sbet ecit n e wokca i d l ae n o tl y smat e. ni r io a ky r-ae ujc d sr i n o cr k h a i po
能够用语义概 念树描述一个主题 ,与传统基 于关键词描述主题 的方法不 同,它能够描述概念之 间的简单 语义关 系 。在此基础上 ,给 出 HT ML页 面内容 与主题相 关度 的计算方法 。在分析 U L的相关度时 ,不仅分析链接锚文 R 本与主题相关度 ,还 结合了改进 的 P gR n a e ak算法来分析链接的相关度 。只有 当链接相关度达不到给定的 阀值时
才会去下载链接对应 的页面 。这样 的 U L相关度计算方法可 以大大减 少不必 要的计 算开销,又可 以充分地利用 R 锚文本和链接 重要度信息 。最后还对那些 不确定是否与主题相关 的网页进行 内容相关度计算 ,进而最 终确 定是
否应该采集此 网页 。
关键词 :本体 ;概念树 ;主题网络 ;锚文本;主题相关度
The a i m tcVSM s d o Ba e n Ont l y S m a tcTr e o og e n i e
LU Che g Sh n n — a
(c o l f o ue cec d eh oo yWu a iesyo T cn lg, hn4 0 6 , hn) S h o C mp t S i e n cn lg, hnUnvri f eh oo Wu a 3 0 3 C ia o r n a T t y