链接分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第2章网络链接分析理论
网络链接分析(Link Analysis),也称链接分析,或称链接分析法、超链分析,当前并没有一个准确的定义。
从字面上看,可广义理解为以Web中页面间的超链接为研究对象的分析活动。
而从网络信息计量学的角度,可将其定义如下:链接分析是以链接解析软件、统计分析软件等为工具,用统计学、拓扑学、情报学的方法对链接数量、类型、链接集中与离散规律、共链现象等进行分析,以用于Web中的信息挖掘及质量评价的一种方法[1]。
链接分析先于网络信息计量学诞生。
早在1996年,Larson就依照引文分析中共被引分析(Co-citation Analysis)做了共链分析(Co-link Analysis)。
但在网络信息计量学诞生后,链接分析便被纳入了其研究范围。
至今,链接分析已成为网络信息计量学备受关注的研究方向。
链接分析理论包括以下几个方面:链接理论、链接分析的研究视角、链接分析与引文分析之间的关系、链接分类与统计理论、链接分析指标。
2.1 网络链接概述
2.1.1 链接感性认识
Wood等人将Web的结构绘制成图2-1所示的可视化图。
图中,白色的大球表示网站主页,小球代表网站的二级及二级以下页面;绿线代表链接,将不同的网站、网页连结在一起形成网络。
该图有助于读者对链接形成感性认识。
图2-1 Web抽象结构图[2]
2.1.2 链接与超文本
1965年,Ted Nelson提出了术语―超文本(Hypertext)‖。
1978年,他在《Dream Machines》
中提到了―链接‖,并指出―链接‖将带来文件的连通性。
1981年,使用术语―超文本‖描述了这一想法:创建一个全球化的大文档,文档的各个部分分布在不同的服务器中,通过激活其中的―链接‖,例如研究论文里的参考文献,就可以跳转到所引用的论文[3]。
超文本是用超链接的方法,将不同空间的文字信息组织在一起的网状文本。
超文本更是一种用户界面范式,用以显示文本及与文本之间相关的内容。
当前,超文本普遍以电子文档方式存在,其中的文字包含可以链结到其他位置或者文档的链接,允许从当前阅读位置直接切换到超文本链接所指向的位置。
2.1.3 链接术语
链接,超链接(Link, hyperlink):两者都指网络链接。
在没必要区分入链与出链时,通常会用到这两个词,偶尔,在上下文语境清晰的时候,也会用这些词指代入链或出链,这仅仅是形式上的变化。
入链(Inlink):指向某页面的链接。
一般而言,这个链接应该来自某个特定集合以外的页面,例如,一个网站的入链就是其他网站里任何页面指向该网站里任何页面的链接。
类似的,一个网页的入链就是其他网页指向该网页的链接。
―入链‖与―反向链接‖同义;―接受入链‖与―被链接‖同义。
图2-2中,B有一个来自A的入链,A与B之间,A是链接来源,B是链接目标。
出链(Outlink):从某页面指出的链接,即该页面的导出链接。
一般而言,这个链接应该指向某个特定集合以外的页面,例如,一个网站的出链就是该网站里任何页面指向其他网站里任何页面的链接,类似的,一个网页的出链就是该网页指向其他页面的链接。
图2-2中,B 有一个指向C的出链,B是链接来源,C是链接目标。
自链(Selflink):从某页面指向该页面自身的链接,可能是同一页面的不同部分。
一般而言,这个链接应该指向某个特定集合内部的页面,例如,一个网站的自链就是该网站内任何页面指向该网站内其他页面的链接。
―网站自链‖与―站内链接‖同义,有时也与―内部链接‖同义。
图2-2中,B有一个自链。
互链(Interlink, reciprocal link):通常指两个不同网站之间的链接,也指站间链接。
这个词通常以-ing的形式出现,例如―interlinking(网站互链)‖表示网站之间的链接。
图2-2中,E 与F互链。
共入链(Co-linked):如果两个页面都含有来自第三个页面的入链,则这两个页面共入链。
图2-2中,C与D共入链。
共出链(Co-linking):如果两个页面都含有指向第三个页面的出链,则这两个页面共出链。
有时也可描述为耦合或文献计量中的耦合。
图2-2中,B与E共出链。
共链(Co-link):共入链与共出链统称为共链。
图2-2 链接关系图[4]
2.2 网络链接的分析视角
链接分析自诞生以来一直是多个学科的研究热点,M. Thelwall 根据不同学科的侧重点将链接分析研究划分为:情报学视角的链接分析(Information science link analysis approach, ISLAA )、计算机科学视角的链接分析(Computer science link analysis approach, CSLAA )和社会科学视角的链接分析(Social science link analysis approach, SSLAA )等[5]。
除此此外,还有统计物理学家、数据家等从其他视角研究链接分析。
不同的研究视角之间虽没有绝对的界线,但研究目标不同,理论基础也不同。
CSLAA 主要研究网络动力学(Web Dynamics)、链接与内容的关系、链接和信息检索、网络挖掘(Web Mining)、网络建模(Web Modeling)等。
SSLAA 主要研究网络空间分析(Web Sphere Analysis )、虚拟民族志(Virtual Ethnography)、超链接网络分析(Hyperlink Network Analysis )等。
而ISLAA 则以文献计量学中的引文分析为理论基础,核心观点为―链接代表引用‖[6]。
按照M. Thelwall 的定义,链接分析就是采用并改进现有的信息技术与方法,借助文档之间的相互关联,对文档自身的特征进行深入分析[7]。
根据链接分析的定义和情报学相关理论,我们将―情报学视角的链接分析‖定义为:
以引文分析为基础,采用并改进现有的信息技术与方法,借助文档之间的相互关联,对文档自身的特征进行深入分析[8]。
从概念上看,链接分析以文档为研究对象,这里所说的文档包括四个层面:页面、目录、域名、站点。
从本质上看,情报学视角的链接分析是一种新兴的研究方法,在情报学、计算机科学、社会科学等领域有广泛应用。
情报学视角的链接分析不同于网络中流传的―链接分析‖。
前者内容包括链接数量分析、链接类型分析、链接的集中与离散规律分析、共链分析等,主要用于提高网络信息检索效率、评价网络信息质量、发现网络社区等;而网络中流传的―链接分析‖主要指―链接流行度分析(Link Popularity Analysis )‖,其内容包括链接数量和质量的评估及分析,主要用于提高网站、网页在Google 检索结果中的排名等。
下文提到的链接分析均指情报学视角的链接分析。
郑曦等人用共词分析的方法,借助Pajek 可视化工具,绘制了链接分析的研究主题图[9],如图2-3所示。
图中节点代表主题词,连线粗细代表主题词之间的共词强度,与―Link Analysis‖这一节点的连线越粗,代表与该主题关联越紧密。
A
B C D
E F G
H I
图2-3 共词可视化图[10]
从图中可以看出,链接分析领域关注的主题包括:World Wide Web(万维网)、Information Retrieval(信息检索)、Ranking(评价/排名)、Search Engine(搜索引擎)、Web Mining(网络挖掘)、PageRank算法等。
2.3 链接分析与引文分析的关系
链接分析以引文分析理论为基础,但在动态、多变的网络环境中形成了引文分析理论所不具有的特性。
二者各自的特征及相互关联便成了链接分析研究中的一个热点。
引文分析主要对科学期刊、论文、著者等各种分析对象的引证与被引证现象进行分析,以揭示其数量特征和内在规律。
引文分析工具包括:美国《科学引文索引》(SCI)、美国《基本科学指标》(ESI)、美国《期刊引证报告》(JCR)、《中国科学引文数据库》(CSCD)、《中国科技论文与引文分析数据库》、《中文社会科学引文索引》(CSSCI)、《中国人文社会科学引文数据库》、《中国引文数据库》。
常用的引文分析指标包括:①引文数量与分布规律测度指标:引文数、平均引用数、自引数与自引率、被引用数与引用数的比值;②期刊质量测度指标:被引用数、影响因子、即年指标;③论文质量与著者学术水平测度指标:被引用数;④文献老化规律测度指标:衰减系数。
引文分析大半个世纪以来的发展轨迹可以用如下的―链‖来表示:Grace等人的核心期刊表(1927年)→Eugene Garfield的―Citation Indexes‖论文(1955年)→Brown对引文分析领域的拓展(1956年)→Kessler,M.M的―文献耦合(Bibliographic Coupling)‖(1963年)→Eugene Garfield的SCI印刷版(1964年)→Small提出―同被引技术(Co-citation)‖(1973年)→SCI
网络版(1997年)→……[11]。
当前的研究主要集中在:①方法适用性研究(引文分析的弊端等);②网络引文分析(Web Citation Analysis);③应用研究(引文应用于各类质量评价,专利引文分析,同引、耦合用于聚类分析,大学评价等)。
链接分析的发展只有10余年的时间,用―链‖表示为:McKiernan提出sitation(1996年)→Larson的共链分析(1996年)→Almind和Ingwersen的―Webmetrics‖(1997年)→Peter Ingwersen的―网络影响因子‖(1998年)→Sergey Brin和Lawrence Page提出―PageRank算法‖、J.Kleinberg提出―HITS算法‖(1998年)→……[12]。
当前的研究主要集中在:①链接分布规律研究(包含链接类型分布、链接数量分布等);②网络影响因子研究;③网络链接分析工具研究;④沿用引文分析和方法的可靠性研究;⑤链接分析应用研究(包括在网络信息检索中的应用、在网络社区发现中的应用、在Web拓扑结构建模中的应用、在信息挖掘中的应用——资源发现、竞争情报获取等)。
事实上,从―citation‖到―sitation‖,从―期刊影响因子‖到―网络影响因子‖,从―文献的同引与耦合‖到―共入链/共出链‖,都表明链接分析带上了引文分析的烙印。
引文分析理论虽被广泛应用,但仍有不足之处,被引次数、期刊影响因子等引文指标都视不同的引文的贡献为等值,然后简单的累加。
事实上,不同引文的贡献通常是不等值的。
对于贡献不等值的引文,应区分看待,链接分析中的PageRank算法则解决了这一问题。
2.4 链接分类与统计理论
为了深入了解链接特征,为了解决入链数、网络影响因子等指标―累加‖的缺陷,学者纷纷将链接分类并统计。
在链接分类研究中,分类体系是关键,分类体系的合理性将直接决定分类结果的合理性。
在链接统计过程中,需要借助各种方法排除异常链接,确保统计结果尽可能准确。
2.4.1 链接分类理论
A.G.Smith将链接分为两类:实质性链接(substantive links)和非实质性链接(non-substantive links)[13],实质性链接即符合“推荐、认可”假设前提的链接,而非实质性链接则不符合。
他通过统计分析得出:所有链接中,实质性链接的比例约20%,链接到大学网站的链接中,实质性链接的比例约27%。
李江以图书情报学的学术型博客为对象,统计出实质性链接的比例约17%[14],因研究对象为学术型网页,所以理论上可认为网络中实质性链接的比例的平均值应在17%以下。
Heting Chu将学术机构网站的入链分为4类(taxonomy):服务(Service)、主页(Home Page)、研究(Research)、教学(Teaching/Learning),其中前两类共占73%,后两类占27%,并且仅有教学类的入链才可用作学术机构的评估,这样看来,可用作评价的入链(即实质性链接)不足27%[15]。
不同的实验证明:可用于链接分析的有效链接仅占20%左右。
链接分类研究的意义在于:从链接总体中剔除不符合―推荐、认可‖的链接,以提高入链接、网络影响因子、PageRank算法等链接指标用于网页/网络重要性评价的效率。
表2-1 国外代表性的链接分类[16]
表2-2 国内代表性链接关系分类17
目前学者们在理论方法和实证分析过程中得出了很多有意义的结论,但是也存在如下几个问题:
(1)不难看出,上述分类可谓见仁见智,不同的学者根据不同的标准建立了不同的分类体系,这是不利于链接分析研究的。
(2)当前国内外的链接分类研究主要依赖于小样本的主观分类,而对于海量链接,主观分类不适用,所以,下一步的研究方向应是针对海量链接开发自动链接分类方法(即―链接识别‖)。
2.4.2 链接统计理论
链接统计研究常常依赖于一个未公开的假设——所有的链接是等价的,而实践中却并非如此。
链接统计的理论基础允许链接违背假设,这样的链接视为异常。
有两种方法处理异常:第一种是手工过滤,这种方法适合小型数据集;第二种是使用ADM(Alternative Document Model,选择性文档模型),这种方法是完全自动化的。
在某些情况下,使用ADM可以减少异常对其他数据的影响。
在统计链接数量之前需对链接进行分类,以便统计有效链接数量;其次还需要处理链接异常,因为异常将导致统计数量不准确。
常用的链接统计异常包括表2-3所示的几种。
表2-3 常见的链接统计异常
手工过滤是移除异常链接的一种方法。
搜索引擎最先采用这种方法,它们保存爬虫不应该访问的站点列表,因为这些网站可能包含链接舞弊(重复设置链接以便在搜索引擎返回结果列表中获得更高的排名),或包含文本舞弊(也是为了获得―不公平‖的优势),或包含不值得访问的内容,如蜘蛛陷阱、违法信息、色情信息或者庞大站点。
ADM是一种将网页聚合成概念文档的方法(启发法)。
ADM根据URL特征,将网页分配给文档,目的是通过将类似的网页分配到同一个文档,减少网络链接行为的异常,以便相似网页中相关的链接仅仅被统计一次。
有四种主要的ADM,分别在―网页‖、―目录‖、―域名‖和―站点‖层面上聚合网页18,如下所述:
(1)网页/文件:为了提取链接,每一个单独的文件都视为一个文档。
(截去URL中内部目标标志符―#‖之前的部分,以避免同一个网页不同部分间的多重引用,然后每一个唯一的链接URL都视为一个单独的文档)
(2)目录:同一个目录下的所有文件视为一个单独的文档。
(将URL地址从最后一条斜线外截去)
(3)域名:具有相同域名的所有文件视为一个单独的文档。
(URL中只保留域名)
(4)大学/站点:属于一所大学网站、或其他被定义站点的所有文件视为一个单独文档。
(URL地址中只保留所有网页共有部分)
为了说明统计过程,以(南京大学信息管理系)中网页A和B指向(武汉大学信息管理学院)上网页X和Y的链接为例。
域名ADM连线是粗线,站点ADM连线是细线,所有链接都是双向的。
按照标准网页统计模型,共有四个这样的链接:A到X和Y的链接,B到X和Y的链接,因此,从到,网页ADM链接总数是4,但是域名ADM则只有一个链接,因为这四个链接都是从域名到域名,这四个链接有相同的来源文档和目标文档,是重复链接。
图2-4 所有网页都互链的三所大学网站(未显示网页之间的链接)
表2-4 对图2-4中链接的统计
从表2-4中可以看出,使用不同的ADM统计方式,武汉大学的入链数不同。
这种方法可以有效解决重复链接或相关网页链接的异常。
假如在页面ADM层面,whu的入链中包含大量重复链接(即第一类异常),则“12”是不准确的,此时应采用域名ADM统计链接数,即“6”更准确;假如域名ADM层面whu的入链中也包含大量重复链接,则“6”也是不准确的,应采用大学ADM,即“2”更准确。
因此,基于ADM的链接统计将提高入链数,网络影响因子等指标的准确度。
2.5 链接分析指标
2.5.1 入链数
入链数源于引文分析中的被引次数,链接如同引用,代表一种推荐或认可,被链接的次数越多,则被认可的程度越高。
被引次数中通常包括自引,同样,入链数中包括自链和外部链接数。
Google、Alltheweb、Alltavista等搜索引擎都可用于统计入链数,并且,Alltheweb、Alltavista 都可用于统计外部入链数。
2.5.2 出链数
出链数是指一个网页的出链总数量,类似于文献计量中的―引文数‖。
出链数反映了网页指向能力的大小,是一个纯粹的数量型概念,出链数越大,则该网页的指向能力越强。
它可用于计算网络使用因子(WUF )、自动识别网络信息资源、反应网络信息资源开放程度、测定核心网络信息资源等。
2.5.3 网络影响因子
网络影响因子(Web Impact Factor ,WIF )是由Ingwerson 在1998年提出的、利用网站获得的链接数计量网站影响力的计量指标[19]。
他选择了包括七个国家域名、四个顶级域名和六个学术机构域名在内的网站,利用AltaVista 的高级检索功能得到了各自的网站总网页数和网页链接数,在此基础上计算了各个网站的网络影响因子。
网络影响因子的理论基础是链接与引文的相似性,它是文献计量学中的期刊影响因子(Journal Impact Factor ,JIF )在网络上的应用。
Ingwerson 将网络影响因子定义为:指定时间内,指向某一国家或网站的外部入链(external inlinks )和内部入链(internal inlinks )网页数的逻辑和与该国家或网站内部的网页数的比值。
最初,Ingwerson 提出的网络影响因子算法是: WIF=(某一国家或网站的)外部入链网页数+内部入链网页数(该国家或网站内部的)网页数
(2-1) 自网络影响因子被提出后,因其分母难以准确统计,又因语言、地域差异导致国家或网站网页数的客观差异,有些学者提出了网络影响因子的修正式,如2002年Thelwall [20]将WIF 算法修正为: WIF=S U U 属于指定但不属于的网页集合,包含至少一个指向的链接的网页数该大学全职科研人员数
(2-2) 式2-2中,S 指网络空间,U 指大学网站。
2006年,Noruzi 和Alireza [21]将WIF 算法归纳为: WIF=外部入链总数搜索引擎索引到的该网站内的网页总数
(2-3) WIF 测度了网站吸引链接的能力,是计量网站影响力的重要指标,可应用于评价网站和网页资源、网站建设和管理、评价电子核心期刊等方面。
2.5.4 网络使用因子
网络使用因子(Web Use Factor ,WUF )反映某一国家或网站的网页指向其他网页能力的分布情况,可以用来测度某一国家或网站的链接分布特征[22]。
某一国家或网站的出链数除以网页数、科研人员数或科研生产率便得到了网页平均出链数、科研人员平均出链数或科研生产率的平均出链数,即WUF 。
但如果一个国家的科研生产率数据很难获得,并且有理由相
信该国的大学在研究能力上相似,或者因为商业搜索引擎和专业网络爬行工具覆盖范围的问题导致难以计算一个网站的网页数,则科研人员数就成为WUF的分母;但若科研人员数无法获得,仍然要用网页数做分母。
可以用某一国家或网站的出链数作为分子,分别用该国家或网站的网页数、科研人员数和科研生产率作为分母,得出WUF的不同算法[23],即:
WUF=(某一国家或网站的)出链数
(2-4)
该国家或网站的网页数
(2-5)
或,WUF=(某一国家或网站的)出链数
科研人员数
或,WUF=(某一国家或网站的)出链数
(2-6)
科研生产率
从概念和算法上看,WUF反映了网站出链的平均量,得出网站链接的分布情况,通常WUF越高,说明网站利用其他网络信息资源的程度越高,相应的,该网站的信息数量和质量也就可能越高。
2.5.5 链接倾向
链接倾向(Link Propensity,LP)由Smith和Thelwall于2002年首次提出[24]。
Smith和Thelwall在研究澳大利亚大学网站的网络影响因子时,将其定义为某大学网站的外部入链数与来源网站和目标网站的全职科研人员乘积的比值。
LP有效地排除了来源网站和目标网站规模大小的影响,适于揭示两个网站之间相互链接的意愿,因而从理论上讲更具科学性。
Smith 和Thelwall的研究发现,从英国和澳大利亚到新西兰网站的链接倾向是这三个国家中最低的,因此新西兰在这三个国家的网络中处于相对孤立的地位。
可以用某大学网站的外部入链数作为分子,分别用该国家或网站的网页数、全职科研人员数和科研生产率作为分母,得出LP的不同算法[25],即:
LP=(某大学网站的)外部入链数
(2-7)
(该大学网站的)全职科研人员数
(2-8)
或,LP=(某大学网站的)外部入链数
(该大学网站的)内部网页数
或,LP=(某大学网站的)外部入链数
(2-9)
(该大学网站的)科研生产率
链接倾向可被看作WIF的一个特例,反映了网站被链接的情况,同时可以反映一个国家在网络利用中的地位,因而可以作为评价网站影响力的重要指标。
LP有效地排除了来源网站和目标网站规模大小的影响,适于揭示两个网站之间相互链接的意愿,因而从理论上将讲更具有科学性。
如2003年Thelwall等人使用―链接倾向‖研究西欧与语言相关的网络链接模式,发现英语是西欧网络上居主导地位的语言。
并且,与使用不同语言的国家相比,使用相同语言的国家之间更倾向于互链。
参考文献
[2] Wood, A., Drew, N., Beale, R., et al. HyperSpace: Web browsing with visualization[C]. Proceedings of WWW Conference, 1995.[2008-8-6].http://www.igd.fhg.de/archive/1995_www95/proceedings/posters/35/.
[3] 超文本(hypertext)发展史[EB/OL]. [2008-8-15].
/html/200502/2005020110274700004283.html.
[4] Björneborn, L. Small-world link structures across an academic web space: a library and information science approach[D]. Royal School of Library and Information Science, Copenhagen, Denmark,2004.
[5] Thelwall,M. Link Analysis: an information science approach[M].New York: Elsevier, 2004: 239
[6] 李江.论情报学视角的链接分析(ISLAA)[J].情报资料工作,2008(1):25-28
[7] Thelwall,M. Link Analysis: an information science approach[M].New York: Elsevier, 2004: 3
[8] 李江.论情报学视角的链接分析(ISLAA)[J].情报资料工作,2008(1):25-28
[9] 郑曦,邓中华. 1998-2007年链接分析研究论文的计量分析[J].中国科技资源导刊,2008(3).
[10] 郑曦,邓中华. 1998-2007年链接分析研究论文的计量分析[J].中国科技资源导刊,2008(3).
[11] 邱均平,李江.链接分析与引文分析的比较[J].中国图书馆学报,2008(1):60-64.
[12] 邱均平,李江.链接分析与引文分析的比较[J].中国图书馆学报,2008(1) :60-64.
[13] Smith A,G.Classifying links for substantive Web Impact Factors[C]. In: Proceedings of the 9th International Conference onScientometrics and Informetrics, Beijing, China, 2003:305-311.
[14] 李江.链接分析工具研究[D].湖北:武汉大学,2007:53.
[15] Chu, HT. Taxonomy of inlinked Web entities: What does it imply for webometric research?[J].Library & Information Science Research. 2005,27:8–27.
[16] 董珏,李江.国内外链接分类研究综述[J].中国科技资源导刊,2008(3).
[17] 董珏,李江.国内外链接分类研究综述[J].中国科技资源导刊,2008(3).
[18] Thelwall,M. Link Analysis: an information science approach[M].New York: Elsevier, 2004:28.
[19] Ingwersen,P. The calculation of web impact factors[J].Journal of Documentation.1998,54(2):236-243.
[20] Thelwall, M. A Comparison of Sources of Links for Academic Web Impact Factor Calculations[J]. Journal of Documentation ,2002 (1):66-78.
[21] Noruzi,A. The Web Impact Factor: a critical review[J]. The Electronic Library.2006,24(4):490-500.
[22] 邓中华,孙建军,李江.国外链接指标研究综述[J].情报科学,2008(7).
[23] Thelwall,M. Link Analysis: an information science approach[M].New York: Elsevier, 2004:231
[24] Smith, A.G., Thelwall, M. Web Impact Factors for Australasian universities[J].Scientometrics,2002,54(3), 363-380.
[25] Thelwall,M. Link Analysis: an information science approach[M].New York: Elsevier, 2004:231。