面向百度搜索引擎优化算法应用规律闵惜琳
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
价值工程
0引言
搜索引擎是当今网络信息检索的主要工具,它在满足人们从互联网上快速、准确、全面地获取信息的需求方面发挥了重要的作用。
搜索引擎诞生的同时,搜索引擎优化(SEO,Search Engine Optimization)应运而生。
一些研究关注于分析在具体的应用上如何通过选择合适的关键字来吸引搜索用户;如何去吸引Google爬虫的抓取;链接构建的相关技巧[1]。
或针对具体的优化技术,研究如何将掌握的搜索引擎优化技术应用到提高网站的用户体验中去[2]。
有些对于搜索引擎优化的研究主要是从独立的各项指标的算法展开的,如对PageRank、关键词、链接等各方面[3-5]。
然而在进行搜索引擎优化时,目前市场份额最大的两大搜索引擎“百度”和“Google”中得到的效果会有所不同。
本文面向百度这一搜索引擎,根据经典的搜索引擎排序算法,推导出可能影响主流搜索引擎搜索结果排序的相关因素,借助站长工具来收集相关数据,利用SPSS的统计图来观察规律,再根据可能的规律来使用相应的方法(如Q-Q图,探索分析等)来检验和拟合,最后得出相应的结论和指标,达到为优化实践提供参考建议的目的。
1经典搜索引擎排序算法
1.1词频和位置加权算法利用关键词在文档中出现的频率及其在文档中位置的重要性进行排序是搜索引擎早期排序的主要思想。
关键词词频越高的文档和关键词出现的位置越重要的文档优先排在检索结果的前面。
该算法简单、易实现,比较适用于结构化文档数据,如期刊数据等,但对互联网资源来说,很难保证文档的结构和
面向“百度”搜索引擎优化算法应用规律分析
Analysis about Application Rule on Search Engine Optimization Algorithm:Direction of"Baidu"Search Engine
闵惜琳①Min Xilin;朱展发②Zhu Zhanfa
(①广东工业大学管理学院,广州510520;②佛山电信,佛山528000)
(①School of Management,Guangdong University of Technology,Guangzhou510520,China;②Foshan Telecom Company,Foshan528000,China)
摘要:面向主流搜索引擎“百度”,针对搜索引擎的经典排序算法,分析得出影响主流搜索引擎排序可能的相关因素:网页的关键词频率、关键词密度、Alexa排名、外部链接数量、PR值、出站链接数量。
使用站长工具收集百度中靠前的网页的可能相关因素的数据,通过筛选过滤后,利用统计图来观察规律,再根据可能的规律使用相应方法进行检验和拟合,通过研究发现在百度靠前的搜索结果中,网页的关键字密度和PageRank具有规律性,这些结果为各类企业规划电子商务网站时,进行搜索引擎优化提供参考依据。
Abstract:Aiming at classical sort algorithm of search engine,it was obtained the possible relevant factors which influent sequencing of main current search engine"Baidu",including,keywords frequency,keywords density,Alexa rank,quantities of external links,PR(PageRank)value,quantity of outbound links.At first it was used webmaster tools to collect data finding of possible relevant factors which ranks better in website"Baidu";next,used cartogram to observe rules after screening;finally,survey and linear fitting according to possible rules.It was find out the regularity on keywords density and PR in the rank front of search result,and some reference basis to implement tactics of Search Engine Optimization are offered in this paper.
关键词:排名;搜索引擎优化相关因素;优化规律
Key words:ranking;relevant factor of SEO;optimization rules
中图分类号:C812文献标识码:A文章编号:1006-4311(2012)14-0196-03
——
——
——
——
——
——
——
——
——
——
——
—
作者简介:闵惜琳(1974-),女,四川宜宾人,广东工业大学管理学院副教授,
博士,研究方向为信息管理,知识管理。
数据结构,并提出空间数据库相关功能的实现方案,它是将设计的空间数据库结构进行编码实现,并将收集来的空间数据入库,建立空间数据库管理信息系统。
公路数据不管是空间数据还是属性数据都是存储在关系数据库SQL Server2005中,整个建库是基于Geodatabase数据模型,Geodatabase是一种采用标准关系数据库技术来表现地理信息的数据模型,它是AreGIS是一种标准空间数据模型。
目前有两种Geodatabase结构,个人Geodatabase和多用户Geodatabase。
个人Geodatabase对于AreGIS用户是免费的,它使用Microsoft Jet Engine 数据文件结构,将GIS数据存储在小型数据库中。
多用户Geodatabase通过AreGIS支持多种数据库平台,如SQL Server等[8]。
2.3.2空间数据的输入流程空间数据的输入就是将图形资料转化成数学形式,形成数字化文件,其流程为图空间数据输入流程图。
2.4属性数据库的建立属性数据库由于不反映任何空间位置和形态特征,故又称为“非空间数据”。
属性数据库放置于后台,表的数量和表结构字段都比较多,存储了系统所需的一切属性信息。
因此属性数据库的设计及其管理在系统中尤为重要。
3系统主要功能的实现
在系统中,软件核心模块主要有COM组件集(AE)、面向服务体系架构、ARCGIS中高层开发控件。
其中COM表示ComponentObjectModel(组件对象模型),它是Microsoft大力推广的软件开发技术,为组件软件和应用程序之间进行通信提供了统一的标准,它是大量技术的二元规范,定义了对象和系统怎样才能以一种开放的和可扩展的方式相交互。
它又是一种客户/服务器模型,这种模型稳定性好,而且可靠性高。
系统开发中用到的主要平台其中一种就是AE,AE(全称ARCEngine)是基于Microsoft COM技术所构建的一系列COM组件集。
系统使用了AE中封装的属性和方法实现了系统对地物要素的处理功能。
ARCGIS提供了许多高层的开发控件,可以用来建立和扩展ARCGIS功能的应用,并且创建高质量的基于地图的用户接口。
这些控件包括:MapControl,PageLayoutControl,ToolbarControl,TOCControl(Table of Contents Control),SceneControl,GlobeControl,ReaderControl等。
系统用到了一些ARCGIS的高层开发控件(如map control)进行用户界面的开发。
4结束语
目前系统应用主要还是以地图显示和查询为主,图形编辑也较为简单;地理信息数据量大,数据传输速度慢,数据生产和建库采用不同的地理信息平台和格式,数据需要转换才能共享使用,不能直接读取和应用,还没有实现真正意义上的数据共享;地理信息分类及编码、数据交换格式等内容的标准和规范还极不完善等。
这些因素都影响了共享GIS的应用和发展,还有待于对以上问题及相关技术进一步深入研究。
同时网络GIS的出现,使传统的GIS应用从孤立、封闭走向开放和大众化,极大推动了GIS的发展,我相信随着计算机及其他相关技术的发展,网络GIS会不断成熟和功能强大,会满足社会各方面的需要。
此外,GIS和通讯技术的结合,基于GPS和移动定位技术的移动位置服务需求日益强烈,相关技术日趋成熟,GIS应用必将从互联网络向无线移动通讯网络延伸,从而使GIS真正走向平民化、大众化和全球共享。
参考文献:
[1]郭丽萍.基于ArcGIS Engine的三维地形可视化与分析系统设计[J].计算机系统应用,2007,(12).
[2]谢小蕙,向南平.基于ArcGIS Engine的开发原理和方法的探讨[J].城市勘测,2006,(02).
[3]肖海,武伟,刘洪斌.基于ArcGIS Engine的三维地物平台的建立——
—以重庆忠县果园管理为例[J].西南农业大学学报(自然科学版),2006,(01).
·196·
Value Engineering
文档的质量[6]。
1.2Alexa的网站排名算法Alexa的世界网站排名主要分两种:
①综合排名,也可以叫做绝对排名,即某个网站在所有350多亿全世界所有网站中的名次。
②分类排名,一是按主题分类,比如新闻、娱乐、购物等,Alexa给出某个特定网站在同一类网站中的名次[7]。
1.3PageRank算法PageRank算法的基本思想是如果一个页面被许多其他页面引用,则这个页面很可能是重要页面;一个页面尽管没有被多次引用,但被一个重要页面引用,那么这个页面很可能也是重要页面;一个页面的重要性被均分并传递到它所引用的页面。
PageRank技术基于整个Web的链接结构来计算各网页的重要性,它认为用户能够通过网页之间的超链接访问到整个网络[3]。
1.4Hits算法Hits算法的基本流程是:对于一个检索关键字通
过搜索引擎的查询返回一个根集;.对根集进行扩展,得到扩展集;对根集的内容做特征计算,与扩展集中网页的特征值比对,去除差别较大的网页;计算扩展集中网页的权威值和中心值,并据此排序输出[8]。
1.5HillTop算法HillTop算法的指导思想和PageRank的是一致的,都是通过网页被链接的数量和质量来确定搜索结果的排序权重。
但HillTop认为只计算来自具有相同主题的相关文档链接对于搜索者的价值会更大:即主题相关网页之间的链接对于权重计算的贡献比主题不相关的链接价值要更高。
对于两个具有同样主题而且PR相近的网页排序过程中,HillTop算法就显得非常的重要了。
HillTop同时也避免了许多想通过增加许多无效链接来提高网页PageRank值的作弊方法[9]。
2数据收集及处理
2.1数据收集对象及收集方法本文根据经典搜索引擎排序算法确定以下的可能相关因素,用于针对百度搜索引擎优化规律研究。
①由词频和位置加权算法可以推导出的可能相关因素有:关键词频率和关键词密度。
②由Alexa的网站排名算法可以推导出的可能相关因素有:Alexa排名。
③由PageRank算法可以推导出的可能相关因素有:外部链接数量、外部链接质量和PR值。
④由Hits算法可以推导出的可能相关因素有:出站链接数量、出站链接质量、外部链接数量和外部链接质量。
⑤由HillTop算法可以推导出的可能相关因素有:外部链接数量、外部链接质量、相关网页的链接数量和相关网页的链接质量。
综上所述,有经典搜索引擎排序算法可以推导出的可能相关因素有:关键词频率、关键词密度、Alexa排名、外部链接数量、外部链接质量、PR值、出站链接数量、出站链接质量、内容相关网页的外部链接数量和内容相关网页的外部链接质量。
因为一般网页的链接(包括出站链接和外部链接)的数量都比较多,甚至可能是成千上万个,所以要研究每一个链接的质量和所链接的网页的内容是否相关,从人力、物力和时间上都是比较难实现的,所以本论文中不对链接的质量(包括出站链接质量和外部链接质量)、内容相关网页的外部链接数量和内容相关网页的外部链接质量进行数据收集、研究和讨论。
最后确定本文的数据收集对象如下:
关键词频率、关键词密度、Alexa排名、外部链接数量、PR值、出站链接数量(说明:因为百度和Google的搜索引擎算法不同,对外部链接的定义不同,收集外部链接数时需要收集百度外部链接数和Google外部链接数)。
数据收集方法:先选择不同的关键字在百度和Google搜索引擎中进行搜索,得到排名靠前的网页的网址,再通过利用网站站长之家(/)上提供的站长工具来收集数据。
2.2数据收集(如图1)
2.3数据筛选及处理由于网络不稳定和少数网站正在维护的原因,导致无法对一些网页的数据进行收集,而且这种情况很少(大约占收集的数据的1%左右),对本课题的研究分析影响不大,所以需要过滤这些搜索结果。
因为一般的搜索引擎对该搜索引擎网站的附属网页特别友好,所以如果搜索结果中有该搜索引擎网站的附属网页,则跳过这些搜索结果,即不对这些网页进行数据收集。
由于现在的搜索引擎都会对一些较长的关键字进行拆分,虽然拆分关键字不会对搜索结果有影响,但是本论文的数据收集中有两项是关键字频率和关键字密度,拆分关键字会直接影响这两个数据项的结果,从而影响研究分析的准确性,所以把用长关键字进行搜索得到的结果数据过滤掉,以提高研究分析的准确性。
2.4数据分析过程和结果
2.4.1对关键字频率的分析把在百度中收集的数据的关键字频率按升序排列,其条形图如图2。
从图2中可以观察到大部分的搜索结果的关键字频率分布比较均匀,这样可以推断关键字频率与百度搜索排名的相关性不大的可能性较大,故不再进行深入的研究。
2.4.2对关键字密度的分析把在百度中收集的数据的关键字密度按升序排列,其条形图如图3、图4。
从图3中可以观察到在[0.7%,2.4%]这个区间上的分布占了样本中的大部分,而[0,0.7%]和[2.4%,1]两个区间上的分布只占样本中的少数,百度中的搜索结果的关键字密度很可能服从正态分布。
另画出百度中关键字密度的直方图(见图4)来检验它的正态性,故运用Q-Q图法(Q-Q图,即分位数图,以样本的分位数(Px)作为横坐标,以按照正态分布计算的相应分位数作为纵坐标,把样本表现为直角坐标系的散点。
)对其进行正态性检验,分析结果如图5和图6。
·197·
价值工程
Transform s :naturallog
从图5和图6中可以看出,数据点大致分布在对角线两侧,但波动的幅度较大,拟合程度不能令人满意,而且残差基本在Y=0上下分布也不是很均匀,说明关键字密度有一定的正态性。
当数据不服从正态分布或正态分布的拟合程度较差时,一种可
行的数据处理方法是进行数据转换。
从图5中可以观察到,关键字密度的频率曲线近似于卡方分布(Chi-square distribution ),卡方分布的概率密度函数中有e λx 一项,所以可以先做自然对数转换,再对其进行正态性检验。
使用SPSS 画出进行了自然对数转换得Q-Q 图。
得出的结果见图7和图8。
从图7和图8中可以看出,大部分数据点都紧紧围绕着对角线分布,而且残差除了少数几个点外,基本在Y=0上下均匀分布,说明关键字密度服从正态分布,正态性较好。
百度的搜索靠前的结果的关键字密度做自然对数转换后服从正态分布,对其进行探索分析,结果如图9。
从图9中我们可以看到,关于变量(关键字密度)的描述性统计量,前三行分别是总体均数的点估计值0.1061、标准误0.14125、总
体均数的99%置信区间为[-0.2764,0.4886],转换回关键字密度的均
数的置信区间是[1.155,
1.92]。
根据以上分析可得:在百度搜索中靠前的结果的网页的关键字密度做自然对数转换后服从正态分布,其置信区间为[1.155,1.92],所以建议进行百度搜索引擎优化工作时,建议把网页的关键字密度控制在1.155%到1.92%之间。
2.4.3对PR 值的分析把在百度中收集的数据的PR 值按升序排列,画出条形图,如图10。
从图10中可以看出,在百度中搜索靠前的网页的PR 值在4
以上的占了95%,主要集中在5、6、7这三个值中,而8、9在40个样
本中只有三个,这并不能说明PR 值等于8、
9对百度不友好,因为在数以亿计的网站中,
PR 能达到8、9这个程度的网站可以说是九牛一毛。
PR 值在4以下的样本只有两个,而且PR 值在4以下的网站不计其数,说明百度对PR 值在4以下的网站不太友好。
3结论
通过对搜索引擎的经典排序算法进行分析推导,可得出影响主流搜索引擎排序可能相关的因素,这些因素包括网页的关键词频
率、
关键词密度、Alexa 排名、外部链接数量、PR 值、出站链接数量;使用站长工具收集百度中结果靠前的网页的可能相关的因素的数据,通过筛选过滤后,利用的统计图来观察规律,再根据可能的规律来使用相应的方法(如Q-Q 图,探索分析等)来检验和线性拟合,通过研究找出在百度的靠前的搜索结果中,关键字频率与百度搜索排名的相关性不大的可能性较大,而网页的关键字密度和PageRank 则呈现出规律性。
参考文献:
[1]David Viney.Get to the Top on Google:Tips and Techniques to Get
Your Site to the Top of the Search Engine Rankings-and Stay There [M].机械
工业出版社,
2009:11.[2]土著游民.SEO 魔法书[M].人民邮电出版社,2010.
[3]张巍,
李志蜀.基于PageRank 算法的搜索引擎优化策略[J].计算机应用,2005,25(7):1711-1712.
[4]杨松,
杨文莲.基于关键字和链接的搜索引擎优化策略[J].渤海大学学报,2006,27(3):269-271.
[5]付真真,陆伟.基于关键词的搜索引擎优化策略及效果分析 [J ].现代图书情报技术,2009,(6):61-65.
[6]常璐,夏祖奇.搜索引擎的几种常用排序算法[J].图书情报工作,2003,(6).
[7]林元元.搜索引擎优化技术(SEO )的应用[J].软件导刊,2009,8(11):147-148.
[8]陈洁惠.搜索引擎排序算法的研究[D].河海大学,2007
.
·198·。