Web社区发现浅析(精)
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
HITS算法和PageRank算法的比较
PageRank算法实质上是一种通过离线对整个互联网结构图进行幂迭代运 算的方法。这种方法的一个主要优点是所有的处理过程都是离线进行的, 因此不会为在线的查询过程付出额外的代价。但是,PageRank算法也同 样存在一个显著的问题,即价值度的计算是不是针对用户给出的特定主 题查询的。对于某个特定主题的查询,在返回结果中一些与主题无关的 “强壮”网页将会排在较前的位置。比如,PageRank会把网页 网页排在/counties/greece的前面,因为excite. com显然比city. net /counties/ greece具有更大的链入数目。当查询是Greece时,excite .com将 会在查询结果中比city .net/counties/greece具有更高的价值度。当 然,excite .com可以通过文本的分析而被预先剔除掉,但是这类问题对 PageRank算法的影响则有必要作更进一步的研究。
HITS算法在概念的定义上比PageRank算法多提出了一个中心性网页hub的概 念。通过中心网页和权威网页的相互作用,HITS算法更好地描述了互联网的 一种重要组织特点:权威网页之间通常是通过中心网页而彼此发生关联在一 起的。HITS算法和PageRank算法相似,也是通过迭代的方法计算相邻矩阵的 特征向量。但HITS算法所针对的不是整个互联网结构图,而是特定查询主题 的互联网子图。规模上的极大减小可以使HITS算法的迭代收敛速度比 PageRank要快得多。但因为与查询相关,所以查询过程需要考虑排序的代价。 另外,除非为HITS算法中所考虑的链接赋予适当的权值,否则,相邻矩阵的主特 征向量并不能反映最合理的网页价值度排列(参见2.4)。更为严重的是,在 对很多广义主题进行查询时,HITS算法会错误地将许多与主题无关的网页赋 予很高的价值度。例如,当查询“笔记本电脑”时,得到的结果却是许多IT计 算机公司的主页。这是因为和“笔记本电脑”有关的网页通常会链接向计算 机公司的主页,由于计算机公司主页的商业性,大量的链接会发生在这些公司 主页之间,从而错误地诱导了HITS算法。这种现象通常被称为主题漂移(topic drift)。最后,应该注意到HITS算法所作用的查询子图是根据查询关键词在线 构造的。通过常规的方法将无法满足在线查询响应时间的要求。
2.“互联网社会学” 3.门户网站
3. Web社区的分类:
1.显形社区 2.隐性社区
主题萃取算法
1. HITS算法
2. PageRank算法
3. HITS算法和PageRank算法的比较
HITS算法
互联网上一个宽泛的主题包含有大量显著的权威 性网页,这些权威网页从链接结构的角度来看应 该是被大量的超链接所指向的,也可以说是被大 量的网页作者所认可的。然而仅通过这种计算链 入数目的机制来描述互联网环境中网页的权威性 在实际中仍会有很多问题。在很多情况下,同一 主题下的权威网页之间并不存在相互的链接(相 互间并不“认可”或者由于竞争的原因)。例 如,“Microsoft”和“Netscape”虽然都是浏览器主题 中的权威站点,但它们却并不存在相互的链接。 然而,它们通常同时被一些不知名的网页所共同 指向。Kleinberg称这种网页为中心性网页(hub), 它们指向多个主题相关的权威网页。通过这两种 不同类型的网页(权威网页和中心网页),链接结构 可以描述为它们之间的一种依赖关系:一个好的 中心性网页应该指向很多好的权威性网页,而一 个好的权威性网页则应该被很多好的中心性网页 所指向,这两类网页是相互增强的关系。
Web社区发现算法
HITS算法发现社区 拖网二分图的方法发现社区 流方法发现社区
HITS算法发现社区
在HITS方法产生的社区中,社区被看成是AUTHORITY页面和 用来将AUTHORITY页面组织起来的HUB页面的集合。 1.从用户的查询开始,HITS首先建立一个页面的root集合, 通常情况下这个集合有200个页面,我们把这个页面集合 标识为S。然后利用集合内页面指向集合外页面的链接和 集合外页面指向集合内页面的链接所属的页面来扩展页面 集合,得到页面集合T。 2.每个集合T内的页面p都赋予一个hub权重数值h(p)和一个 authority权重数值a(p),所有的hub值和authority值都初始化 为1。假设p->q表示“页面p中有一个链接指向页面q”,然 后,HITS算法利用下面的迭代计算公式来计算每个页面的 hub中心值和authority权威值。 3. 经过若干次迭代计算之后,在kleinberg的论文中证明最终 每个页面的authority值和hub值是收敛的。这个时候,我们 取出页面集合T中权威值最高的10个authority页面和中心值 最高的10个hub页面来形成我们想要的社区。(在这里, 数字10可以根据具体需要进行调整)
Web社区发现浅析
中国人民大学 姜勇 -2004.04.28
演示内容结构
Web社区的基本概念 主题萃取算法介绍 Web社区发现算法 未来研究发展
Web社区基本概念
1. Web社区的基本概念:一组查询引擎的问题
PageRank算法
PageRank算法[13,14,15]是最早并且最成功地将链接分析技术应用到商业 搜索引擎中(Google)的算法。它的基本出发点是试图为搜索引擎所涵盖的 所有网页赋予一个量化的价值度数值。每个网页被量化的价值是通过一 种递归的方式来定义,由所有链接向它的网页的价值程度所决定。显然,一 个被很多高价值网页所指向的网页也应该具有很高的价值。下面是整个 过程的形式化表达,并由此可以为每一个网页计算其价值度PR: PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR( Tn )/C(Tn)) ● PR(A) 代表页面A的PageRank值。 ● C(Ti)代表有链接指向页面A的页面i的链接出度。 ● d是一个参数值,一般设置为0.85。 根据这个公式,我们可以知道计算一个页面A的PageRank值是通过计算所 有有链接指向该页面的其它页面的PageRank值和这些页面的链接出度值 的和来得到。给定一个关键字查询,匹配的文档将会按照这个分值的大 小排列返回给用户。注意这个分值的计算是与查询无关的。