一种基于语义分析的主题爬虫算法

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
同样, P( Cj ) ( j = 1, 2, , m) 也可以由训练数据简便 地计算出来。又由于 P( S) 对于各个类别是一样的, 所以实 际计算过程中可以不予考虑。
这样, 对某一 个 数据 S , 其所 属 类别 可 按如 下 方法 决 定, 即 S 属于 C j 当且仅当 P( S | Cj ) P (Cj ) > P(S | Ck ) P ( Ck) , 1 ! k! m 且k ∀ j 。
2 主题预测算法
2. 1 朴素贝叶斯
朴素贝叶斯( N a ve Bayes, 简称 NB) [ 6,7] : 设 Rd 空 间中
* 收稿日期: 2010 03 12; 修订日期: 2010 06 17 作者简介: 蒋宗礼( 1956 ) , 男, 河南南阳人, 教授, CCF 会员( E200005392s) , 研究方向为网络信息处理和并行计算; 田晓燕, 硕士生, 研究方向为网络信息处理和机器学习; 赵旭, 硕士生, 研究方向为网络信息处理和机器学习。 通讯地址: 100124 北京市北京工业大学计算机学院信息楼北楼 214 室; T el: ( 010) 67392508; E mail : jian gzl@ bjut . edu. cn Address: Room 214, N ort h Inf ormat ion Building, School of Comput er Science, Beijing U niversity of Technology , Beijing 100124, P. R. China
有很多研究成果。例如, 傅向华等[ 1] 将 W eb 爬行看作是执 行序列动作的过程, 结合改进的快 速 Q 学习 和半监督 贝叶 斯分类器, 提出了一种新 的具有 在线增 量自学习 能力的 聚 焦爬行方法; Chakrabar ti S 等[ 2 ] 第一次提出基于朴素 贝叶 斯分类模型[ 3] 引导 主题 Web 爬虫; Johnso n 等[ 4] 提出了 基 于支持向 量 机( Suppor t Vecto r M achine, 简 称 SV M ) 分 类 模型来进行主题爬 行。本文 算法是在 文献[ 5] 算 法的基 础 上进行改进得到的, 文献 [ 5] 算法用 于检索, 而在 本文算 法 中使用基于子空间 的语义分 析来进 行主题 预测, 同时结 合 朴素贝叶斯以及支 持向量机 算法, 构成 一个完整 的主题 爬 虫算法。
由贝叶斯公式, 有: P (Cj | S) = (P (S | Cj ) P(Cj ) ) / P( S)
在实际 计算过程中, 经常 假设组成 每个训练数 据点的 各个属性间是相互独立 的, 这 样可以 在很大 程度上 简化 P ( S | Cj )的计 算, 即:
P( S | Cj ) = P ( s1 | Cj ) P ( s2 | Cj ) P ( sd | Cj ) 其中, si ( i = 1, 2, , d) 为 数据 点 的各 个属 性 值。P ( s1 | Cj ) , P( s2 | Cj ) , , P( sd | Cj ) 可以 由训 练数 据很容 易地 计算出来。
文献标 识码: A
1 引言
爬虫是搜索引擎的重要 组成部 分, 其 作用 是从网 上下 载网页, 为搜索引擎 采集资源 。主题爬 虫是限 定主题 在一 定领域范围内下载网页的爬虫, 其运作流程是: 根据一定的 文本分析算法过滤掉与 主题无关 的链接, 将 与主题相 关的 链接保留下来放入 待抓 取的 U RL 队列 中; 然后 根据 一定 的策略从队列中选择 下一 个要 抓取的 U RL , 重复 此过 程, 直到达到系统的停止条件。所有被网络爬虫抓取的网页将 会被系统存储, 进行一定的分析、过滤, 建立索引。
图 1 支持向量机 从图 1 可以看出, 左右 两种情 况下的 分划 超平面 都可 以将两类数据点分开, 但很明 显右边 的超平 面的划分 更加 合理, 因为在右图中与 分划超 平面平 行并与 两类数据 点相 接触的超平面间的距离 要比左 边的大 很多。因此, 问 题归 结为我们如何为 数据 点选 择一 个像 图 1 右侧 这样 的 超平 面, 使得与分划超平面 平行并 与两类 数据点 相接触的 超平 面间的距离最大化。进一 步地, 可以转 化为如 何寻找 一个 合理的超平面的法线方 向, 使 得超平 面能将 两类数据 点完 美地分开。 用如下式子进行描述。设与分划超平面平行并与两类 数据点相接触的超平面分别为 ( w * x ) + b = 1 和( w * x ) + b = - 1, 则分 划超平 面为 ( w * x ) + b = 0。所 以, 与分划超平面平行 并与两 类数据 点相接 触的超平 面间 的距离为 2 / # w # , 最大化与分划超平面平行并与两类数 据点相接触的超平面间的距离即最大化 2/ # w # 。 同时, 由于要 满足 分划 超 平面, 可 以 将两 类数 据 点分
关键词: 主题爬虫; 子空间; 语义分析; 支持向量机
Key words: topic craw ler ; subspace; semantic analy sis; suppor t vector machine
doi: 10. 3969/ j. issn. 1007 130X. 2010. 09. 038 中图分类号: T P391
2. 2 支持向量机
按照主题相关与否, Rd 空 间中的 数据 点被分 成两 类, 数据点 x i Rd 的相关分类用 y i 表示, y i { 1, - 1} : ( x i , yi ) , i = 1, 2, , n。当 y i = 1 时, 表示 x i 属于主题相关的, 当 yi = - 1 时, 表示 x i 属于主题不相关的。我们希望在 Rd 中找到一个分化超平面 将这两类 数据点 完全分 开, 使 得两 类点分别位于分化超平面的两侧, 如图 1 所示。
摘 要: 海量网页的存在及其量的急速增 长使得通用搜索引擎难 以为面向主 题或领域 的查询提供 满意结果。本 文研 究的主题爬虫致力于收集主题相关信息, 达到 极大降低网页处理量的目的。它通过评价网页的主题相关度, 并优先爬取相
关度较高的网页。利用一种基于子空间的语义分析技术, 并结合贝叶斯以及支持向量机, 设计并实现了一个 高效的主题爬 虫。实验表明, 此算法具有很好的准确性和高效性。
蒋宗礼, 田晓燕, 赵 旭 JIANG Zong li, TIAN Xiao yan, ZHAO Xu ( 北京工业大学计算机学院, 北京 100124) ( School of Computer Science, Beijing University of Technology, Beijing 100124, China)
mechanism and suppor t vector machine, w e desig n and im plement an efficient to pic cr awler. Ex per iments show that o ur al
g or ithm has g oo d accuracy and efficiency .
和通用爬虫相比, 主 题爬虫 最明显的 特点 是需对 待爬 取的网页内容进行主题 相似性分 析, 而如何 判断一篇 网页 和一个主题的相 似性 关系 则成 为一 个 主题 爬虫 设计 的关 键。研究者已经提出了多 种判别主 题相关 性的方 法, 其中 包括基于 Web 超级链 接、基于内 容、基于 文本 分类器 等方 法。本文主要讨论基于文本分类器的方法。这类方法已经
14 6
开, 所以要加上一个约束条件, 即: y i ( w * x i + b) ∃ 1, i = 1, 2, , n
支持向量机可以归纳 为如下最优化问题: M ax 2/ # w #
sit yi ( w * x i + b) ∃ 1 其中, i = 1, 2, , n。
或者表述为如下形式 : M in 1/ 2 * # w # 2
首先将给定的训练 集合进 行预处 理, 得 到训 练集合 的 词 % % % 文档矩阵 CT, 其中:
C11
C1n
C=
Cm1
C mn
它的行对应文档, 列对应特征词。
然后对原始词 % % % 文 档矩阵 CT 按列进行中心化, 以便
将坐标原点移动到文档集 的质心, 本文仍然用 CT 表示按照
列中心化处理后的矩阵。经过奇异值分解得 到其 k 阶 近似
矩阵 CTk = UkQk VTk 。将原始 特征空 间中的每 一个 特征词 投 影到语义空间。计算这些特征词在语义空间 中的两两相似
度, 存于矩阵 SI 中。将文档表示成它所包含的主题特 征的 质心, 即它所包含的主题特征向量的均值。
具体的计算过程如下 : 将特 征 词 I 、J 分 别表 示成 向 量 I = ( 0, 0, , 0, i, 0, 0) 和 J = ( 0, 0, , 0, j , 0, 0) , I ∀ J 时, i 和 j 不在 同 一维上, 唯一的非 0 元代表特征词关于这篇& 文档∋ 的权重。 这样, 可以得到特征词 I 、J 在语义空间中 的表示形式, 如式 ( 1) 和式( 2) 所示:
CN 43 1258/ T P ISSN 1007 130X
计算机工程与科学
COM P U T ER EN GIN EERIN G & SCIEN CE
2010 年第 32 卷第 9 期 Vo l 32, N o 9, 2010
文章编号: 1007 130X ( 2010) 09 0145 03
一种基于语义分析的主题爬虫算法* A T opic Craw ler Algorit hm Based on Semant ic A nalysis
Abstract: M assive w eb and its rapid g row th make it difficult for g ener al purpose search eng ines to pr ov ide sat isfact ory
results for the t heme o r area o riented queries. T his paper studies t he subject o f gather ing info rmatio n relev ant to the sub
ject , to significantly r educe the amount of w eb pag es dealing . By assessing the degr ee o f W eb pages, it g iv es prio rity to the
cr aw ling pag es related to a higher degr ee. U sing a subspace based semantic analy sis t echnique, combined w ith the Bayesian
145
有 n 个数据点{ x i | i = 1, 2, , n ) , 这些数 据点分 别属于 m 个特定的类别{ Ck| i = 1, 2, , m} , 即, 对于 x i Rd , ! k , 1 ! k ! m, x i Ck 。
朴素贝叶斯分类器将某个样本 S 划分到 某个类别 Cj , 当且仅当 P( Cj | S) > P( Ck | S) , 1 ! k ! m 且 k ∀ j , 所以 朴素贝叶斯方法需要计算 P( Cj | S ) ( j = 1, 2, , m) 。
sit y i ( w * x i + b) ∃ 1 其中, i = 1, 2, , n。
2. 3 Байду номын сангаас空间语义分析以及基于语义分析的主题爬 虫算法
子空间分析算法的基 本思想是根据给定文档中包含的
词与其最相似的文档的所 属类别关系来确定相应文档的所 属类别。和其他机器 学习算 法一样, 首先 需要使 用训练 样 本进行训练, 得 到一 个分 类模 型, 并用 模型 进行 后 续的 分 类, 其基本原理如下:
相关文档
最新文档