基于超链接分析技术排序算法研究高国顺[论文]
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于超链接分析技术的排序算法的研究高国顺
讨论页面信息检索中基于超链接分析技术的排序算法及其优化。
文章在分析传统排序算法优缺点的基础上,引入了优化的排序算法:基于超链接分析技术的排序算法。
该算法在相同查全率的条件下具有更高的查准率。
pagerank超链接信息检索点击率信息检索通常可分成两类:一类是像google、baidu等搜索引擎,根据用户输入的信息,在internet上搜索相关的网站链接,这种检索方式通常要用户进一步浏览才能找到需要的信息。
另一类检索就是直接返回信息给用户。
用户只需输入关键词,就能直接得到需要的信息而不需要遍历很多网站。
本文主要是对第一种方式进行阐述:分析信息检索的性能、优化网页排序的算法。
本文重点不在讨论单个网页的权值,而是考虑整个网站或者网站中重要页面的pagerank值。
一、检索性能公式化分析搜索引擎系统可以搜索internet上所有的页面,所以查全率是可以保证的。
经过对查准率相关分析得出,一个搜索引擎要具有好的查准率,这和搜索相关页面的页面等级(pagerank)有着重要的关系。
传统的网页排序算法只考虑了网页间的链接信息和网页自身的内容,忽略了返回结果集合中网页所属的网站的性能和搜索者的操作对页面值的影响。
二、pagerank算法原理pagerank的原理类似于论文中的引用机制:谁的论文被引用次数多,谁就是权威。
在互联网上,链接就相当于“引用”,在b 网页中链接了a,相当于b在谈话时提到了a,如果在c、d、e、f 中都链接了a,那么说明a网页是最重要的,a网页的pagerank值
也就最高。
其中:系数为一个大于0,小于1的数。
一般设置为0.85。
网页1、网页2至网页n表示所有链接指向a的网页。
三、网页排序算法的改进网页之间的链接和网页内容是传统网页排序的主要
依据,这削减了信息检索者交互的作用。
pagerank算法主要缺陷是将pagerank值在所有的出链接上进行平均分配,没有很好地考虑网页本身的特征和搜索者的相关操作。
很容易受到无关链接的影响,产生主题漂移。
下面结合已有的页面算法,提出了一个简单的优化算法,改进pagerank算法,该算法在平均分配的基础之上,考虑了网站的相关的性能和用户的点击率对页面等级的影响,并对其性能进行分析。
1.优化网站性能,反馈用户信息页面载入时间是指从用户发出指令到页面被显示所用的时间,这是影响网站性能最重要的因素之一。
页面载入时间过长容易招致访问者的不满,访问者可能中断操作或离开网站。
在网络非繁忙时间(23:00~8:00)对目前常用的中文搜索引擎google和百度进行15个随机选取的关键词,每个关键词前100个检索结果进行了测试,发现网页不可达的情况达5~13%,另有1~2%的网站的页面载入时间超过了8s。
研究表明,在较慢的网络传输速度(小于3kb/s)或上网高峰时间,载入时间超过8s的网页将会大大增加。
对页面x载入时间可以用t (x)来加以区别和标记。
如果搜索引擎返回较多的载入时间过长的页面,会在一定程度上影响其用户服务质量(qos)。
这样会影响用户访问页面的次数,减少了页面的点击率,从而会减少pagerank 值。
在搜索引擎中,用户的参与也很重要。
用户的选择,即搜索引
擎用户对返回结果的每一次点击,实际上就是对相应网页的一次选择。
用户的选择应该作为评价网页重要性的一个因素。
针对这一问题,本文提出了改进的算法,依照用户的选择来调整搜索返回结果集的排序。
pagerank算法(以及其他的基于链接分析的网页处理技术)在计算时所使用的信息仅限于链接结构(或者还有文本内容),这些信息更新的周期较长,忽略了互联网上每时每刻都在变化的大量的动态信息,这些信息的捕捉和利用十分困难,但是,如果成功地利用这些信息,必将获得很大的收益。
在搜索中,用户的参与很重要,因此,将用户选择作为评价网页重要性的一个重要因素是必要的。
为了让用户比较关心的页面(经常点击的页面)在搜索引擎返回结果集中有比较好的排名,在服务器端把用户的每一次点击的网址都记录下来,存入数据库,在计算pagerank时考虑用户的点击次数占总点击次数的百分比m,即用户对这个网页的推荐度。
对经常访问的页面m较大,反之m较小。
加入m的值,能够提高信息检索的查准率(对于特殊的页面可以加上相应的调整值;对于为了提高页面的点击率恶意刷新页面的,要减去一个调整值)。
对于网站的本身性能,可以根据搜索引擎统计的结果或专业网站性能评测机构的结果,对pagerank值或authority值乘以一个网站性能因子p(x)进行修正。
对于性能好的网站p(x)较大,对于性能差的网站p(x)较小。
对网站的平均页面载入时间,搜索引擎可以根据自己的数据库进行统计,也可以借助专门的网站性能评测机构的评测结果。
2.性能分析由于时间和实验条件的限制,检验算法的效
果只能在web构造图的一个小的子图上进行。
本实验包括两个部分:第一部分是考虑搜索引擎的通用排序因素的实验结果,第二部分是结合用户的点击率和网站本身性能等因素的实验结果。
本文利用
trs提供的链接数据库和硬件搭建一个实验平台,实验完成于一台具有intel 1.8ghz的cpu,1g的内存,80g硬盘的pc机上,采用的操作系统是windows server 2003系统。
本文所用到的实验数据取自trs的采集工具在2008年5月份采集到的。
对实验数据的分析:根据上面的测试结果,可以看出,该算法能够及时的进行数据的采集和索引的更新,查准率比较高,能够满足用户的需求。
在增加网站的相关性能和用户的点击率后,检索结果的数量变化很小,但是排序效果有明显的改善,排序在前的文档内容与流行的主题很相关。
该排序算法在目前阶段是合理和可行的。
四、算法评价及其前景展望搜索引擎的技术改进和优化都直接反应到搜索结果
的排序上。
查准率和检索速度在一定程度得到了提高,使一些链接比较少的页面的pagerank有了提高,达到了交互的目的。
网页排序技术给搜索引擎用户带来了极大的方便,提高了用户对查询结果的满意度。
可是目前的排序技术仍然存在两大不足:1.没有真正解决相关性仅仅通过链接、锚文本、版式信息等表面特征,不能真正判断搜索词和文章的相关性,另外,有些网页中没有出现搜索词,但网页的内容却与搜索词相关,一般搜索引擎无法搜到这些网页。
2.搜索结果单一化在搜索引擎上,任何人搜索同一个词,搜索引擎所给的都是一样的结果,这样明显不能满足所有访问者的要求。
参考文献:
[1]何其俊.internet上的信息提取[j].中山大学,2005,(04):22
[2]杨思洛.搜索引擎的排序技术研究[j].现代图书情报技术,2005.43-47.。