第8章 链接结构分析子系统设计及核心算法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第8 章链接结构分析子系统设计及核心算法
本章内容:
万维网链接结构图及特性;
链接结构分析方法的形式化基础;
链接结构分析Page Rank 算法、HITS 算法;
链接结构分析结果在搜索结果排序中的应用。
8.1 万维网链接结构图
万维网的链接结构可用有向图来描述,网页是节点,超链接是有向边。
从源网页指向目的网页的超链接,为源网页的“出链接”,为目的网页的“入链接”。
●节点A-H 表示网页;
●链接关系用有向边来表示;
●网页A、B、C 之间的双向边,表示三个网页之间相互链接;
●网页F与G各自有一个指向自身的有向边。
链接结构关系图的邻接矩阵描述。
邻接矩阵是用来描述图中节点邻接关系的一种方式,设n为链接结构图Graph 的节点规模,则邻接矩阵M 是一个n*n的矩阵,其中某个元素m i,j的取值满足:
图8.1 所示链接结构图,其邻接矩阵如下:
万维网链接图GWeb (V, E)
V:节点集合,V = { v1 , v2 , v3,…,v n},节点数|V| = n ;
E :边集合,E = { e1 , e2 , e3,…,e m},边数|E|=m 。
将万维网的整个链接结构图作为对象来研究不仅对理解万维网的各种属性有直接的意义,同时还对搜索引擎领域的相关算法研究也有着重要的帮助。
很多实验和观察促进了万维网链接图结构的研究。
针对图GWeb ( V , E ),研究;
V、E的规模;
拓扑结构;
节点入度、出度分布。
图G ( V , E)的某节点所关联的边数称为该节点的“度”。
对于图GWeb ( V , E)而言,某节点的入度就是指以该节点作为目的网页的超链接数(该节点入链接数);
某节点的出度则是指以该节点为源网页的超链接数(该节点出链接数)。
8.1.1 万维网链接图的规模
GWeb (V, E)规模难以统计
(1)图中的节点存在形式复杂;
非自由访问的网页(网页对用户访问加以限制,如采取登录策略等);
自由访问的网页;
传统形式的静态页面;
随用户查询需求在服务器端实时生成的动态页面;
用Ajax 技术生成的URL 相同但内容千差万别的页面;
(2) 超链接的界定,存在诸多困难;
“博客日历”,每个日期都是一个超链接。
服务器端自动生成的超链接VS网页作者手工编辑添加的链接。
GWeb ( V , E)的节点集合规模
通过域名注册服务商可统计网站、域名数量且较为准确;
统计网站涉及的网页数目就会面临上面提到的问题;
研究中通常用搜索引擎的索引规模来估算万维网链接图的节点规模;
没被任何一个搜索引擎收录的网页,被用户访问到的可能性微乎其微;
2008年7月,谷歌索引量1万亿网页,一定程度上反映了GWeb (V, E)节点集合的规模。
GWeb ( V , E)的边集合规模
估计边集合规模更困难;
超链接的添加不需要登记、备案,各大搜索引擎也很少公布统计数据;
只能通过实验性万维网语料库的相关数据对GWeb (V , E)的边集合规模有一个概括性的认识;
AltaVista 语料库,链接关系图包含 2.03 亿个网页、14.66 亿条链接。
Clueweb09 语料库,链接关系图包含的节点数为1040 809705个,对应的出链接数为7944351835个。
sogouT语料库,链接关系图包含1.39 亿个网页、33 . 4亿条链接。
从这些语料库,可以估计,边集合的规模要大于节点集合的规模,约为节点集合规模的几到几十倍。
8.1.2 万维网链接图的连通情况
定义:导出子图
给定G=(V, E),如果存在另外一个图G/=(V/,E/),满足V/包含于V,E/包含于E,则称G/是G的一个子图。特别地,如果V/包含于V,且E/包含了在节点子集V/之间的所有边,则称G/是G的导出子图。
定义:强连通子图
给定一个有向图,该有向图的一个强连通子图是指由一部分节点组成的一个导出子图,对于该子图中其中的任意两个节点u和v,都存在一条路径使得从u 可以访问到v。
性质:
1、一个有向图中可有多个强连通子图。
2、强连通子图之间不存在公有节点;否则可以合二为一。
对万维网连接图,每个强连通子图都代表着构成该子图的节点是相互连通的,通过超链接通过一个网页可访问另一个。
定义:弱连通子图
给定一个有向图,该有向图的一个弱连通子图是指由一部分节点组成的一个导出子图,对于该子图中其中的任意两个节点u和v,都存在一条无向路径使得从u可以访问到v。
对于万维网链接图,重点考察其包含的强、弱连通子图的规模分布情况,借此了解整个链接图的拓扑结构和连通情况。
2000年,Broder的研究成果,万维网链接结构图的强、弱连通子图的规模
分布情况如下图所示。
●图中,横轴为连通子图规模,纵轴为连通子图数量;
●横轴、纵轴使用对数坐标轴。
●可以看出强连通子图、弱连通子图的规模分布规律基本相同;
●设连通子图规模为Size,具有规模Size的连通子图的数目Number近似满足;
指数形式表示为:
几点结论:
●规模大的连通子图数目远小于规模小的连通子图数目。
●规模最大的连通子图所覆盖的网络资源数量,占网络资源总量中相当比例。
●基于链接结构抓取,很难抓取到网络环境中所有数据,但通过抓取规模较大的连通子图可获取最主要部分的数据。
规模最大的强连通子图,其节点规模达到560余万,此连通子图在Broder 研究的网页集合总规模中占有近28%的网页。
以此连通子图为中心,考察其他网页与此连通子图的链接关系,可以对整个网络页面的链接结构关系有一个清晰的认识。
根据Broder的研究结论绘制的万维网链接结构示意图如下图所示。