信息检索相关性
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
关键词:信息检索;相关性;共词分析
前言
相关性一直以来都是信息检索领域的核心研究内容之一,其概念的起源可以追溯到17世纪的早期图书馆用户认识到查找相关信息的问题。但由于客观原因,相关性只是作为一种朦胧意识停留在人们头脑中,直到20世纪20年代少数学者Lotka(1926)、Zipf(1949)、Urquhart(1959)、Price(1965)才陆续从各个领域开始了相关性的研究工作。在信息科学界Saracevic认为Bradford是最先使用相关性一词的学者。其在20世纪30年代发表的《文献的混沌状态》一文中首次提出“主题相关”的概念。而此后关于“相关性”的探讨并未引起学界更大范围的关注。直到1958年国际科学信息会议(ICSI)的召开,相关性(Relevance)才作为信息科学领域的一个重要概念被学术界认可。至此“相关性”逐渐成为信息科学尤其是信息检索领域经久不衰的研究课题,甚至知识交流学派的代表人物Saracevic认为信息科学之所以成为独立学科,而不再隶属于图书馆学或文献学的原因就在于它开展了相关性的研究也在于相关性能够解释科学交流中的诸多问题。足见“相关性”在信息科学中的重要地位。当前,各国学者已对信息检索的相关性问题展开了深入研究,本文将通过共词分析法,使用知识图谱对其进行可视化处理分析。
信息检索相关性
———————————————————————————————— 作者:
———————————————————————————————— 日期:
ﻩ
近十年我国信息检索相关性研究现状分析——基于共词分析的视角
摘要:相关性是信息检索领域的核心研究的内容之一,对其进行深入研究将有助于提高信息检索的效率,推动信息检索的研究。本文将通过共词分析的方法,利用知识图谱对其进行可视化分析研究。
-0.794
1.984
第2象限
评价
-0.234
-0.438
第3象限
本体
0.4
-0.145
第4象限
情报学
-0.018
1.信息检索相关性基本概念
对信息检索相关性基本概念方面的研究工作始于20世纪50年代末,各国学者借助数学工具及各种概念提取方法从各个角度对“相关性”的含义及内容进行了深入剖析。而相关性的基本概念研究以1976年为边界经历了前后两个阶段第一阶段1959-1976的主要成果有Maron和Kuhns利用概率论定义相关性的概念,提出相关性并非只是简单的是/非选择问题。Rees认为相关性受文档所包含的信息概念的影响,认为相关信息是对用户原来所具备的知识而言有用的信息Goffman和Newill把相关性当成连接有效性的一种测度,并试图用数学方法证明相关性(Relevance)与关联性(Relation)之间具有等价关系。Saracevic则建议从文档、词与文献引用等各种文献特征上来定义检索的相关性。Cooper利用数理逻辑给相关性做了一个明确的定义。Wilson则在Cooper研究的基础上对数理逻辑相关性描述做了进一步扩充,并将“情境相关性”的概念首次引入到相关性的研究中,这些成果成为第二阶段研究工作的基础。在第二阶段,1977年至今,由于相关性各领域研究成果的相继出现,使相关性的概念描述也呈现出许多新的时代特征。首先是从面向用户及认知方法的观点重新审视相关性,认为相关性是个多维的认知概念,在很大程度上依赖于用户个人对信息的理解以及信息需求的情境。相关性是一个动态的概念它依赖于信息与用户某一特定时间所需信息之间关系质量的评价,以用户的观点来看,相关性是个复杂的、系统的、可测度的概念。其次是一些学者试图给信息检索定义一个逻辑模型来理解相关性概念这项工作由Rijsbergen开创之后又吸引了众多学者的参与。
表1高频关键词及其频次统计
关键词
频次
关键词
频次
信息检索
59
信息系统成功模型
2
相关性
29
信息素养
2
搜索引擎
8
信息检索模型
2
用户相关性
5
相关性判据
2
情报学
4
模糊聚类
2
评价
4
模糊矩阵
2
检索模型
4
模糊方法
2
查准率
4
可视化
2
用户交互
3
检索系统2信ຫໍສະໝຸດ 检索系统3检索评价
2
相关性判断
3
关联理论
2
相关性反馈
3
个性化
2
图1共词矩阵效果图(部分)
2.3分析数据结果
本文利用社会网络分析软件Ucinet6.0版本和Netdraw2.0版本对获取的关键词数据进行分析并绘制出社会网络分析图谱。
2.3.1K-core分析
在本文中,首先使用Ucinet6.0软件建立共词矩阵的电子表格,然后采用Netdraw2.0软件绘制科学知识图谱,在此基础上,采用K-core分析法进行社会网络分析,建立不同连接度k核(最高为4)的共词网络图谱,经过处理后得到可视化结果,如图2所示,其中红色代表关联度为4的关键词,绿色为关联度为3的关键词,蓝色为关联度为2的关键词,黑色为关联度为1的关键词。
相关度
3
次序效应
2
系统相关性
3
词频矩阵
2
网络信息检索
3
查询扩展
2
数字图书馆
3
查全率
2
模型
3
测试集
2
跨语言信息检索
3
标准
2
检索
3
本体
2
用户需求
2
TEDS模型
2
用户行为
2
学术信息检索系统
2
2.2建立共词矩阵
在EXCEL表格中,删除低频关键词之后,对确定的42个关键词所在列进行两两配对,统计其在文献同时出现的频次,建立透视表,并通过Ucinet软件将42个关键词建立共词矩阵,图1为共词矩阵部分效果图。
2.信息检索相关性共词分析
2.1数据收集处理
本文研究的数据收集是以中国知网(cnki)中文数据库中的期刊文献为基础,期刊来源为SCI、EI、CSSCI,以“信息检索”并含“相关性”作为主题进行检索,检索年限为2004年至2013年,共检索文献95篇。对其关键词进行统计分析,共有关键词202个,对其进行词频统计,将词频超过2次的关键词作为高频关键词,共有高频关键词42个(表1),本文的数据分析将基于这些高频关键词。
图2 K-core分析效果图
2.3.2多维尺度分析
使用Ucinet6.0软件中的非量纲式多维尺度分析方法分析近十年我国信息检索相关性的关键词的数据结构,统计这些关键词坐标,统计结果如表2所示,并形成散点图,效果如图3所示。
表2关键词分布坐标
关键词
X坐标
Y坐标
所处象限
关键词
X坐标
Y坐标
所处象限
TEDS模型
前言
相关性一直以来都是信息检索领域的核心研究内容之一,其概念的起源可以追溯到17世纪的早期图书馆用户认识到查找相关信息的问题。但由于客观原因,相关性只是作为一种朦胧意识停留在人们头脑中,直到20世纪20年代少数学者Lotka(1926)、Zipf(1949)、Urquhart(1959)、Price(1965)才陆续从各个领域开始了相关性的研究工作。在信息科学界Saracevic认为Bradford是最先使用相关性一词的学者。其在20世纪30年代发表的《文献的混沌状态》一文中首次提出“主题相关”的概念。而此后关于“相关性”的探讨并未引起学界更大范围的关注。直到1958年国际科学信息会议(ICSI)的召开,相关性(Relevance)才作为信息科学领域的一个重要概念被学术界认可。至此“相关性”逐渐成为信息科学尤其是信息检索领域经久不衰的研究课题,甚至知识交流学派的代表人物Saracevic认为信息科学之所以成为独立学科,而不再隶属于图书馆学或文献学的原因就在于它开展了相关性的研究也在于相关性能够解释科学交流中的诸多问题。足见“相关性”在信息科学中的重要地位。当前,各国学者已对信息检索的相关性问题展开了深入研究,本文将通过共词分析法,使用知识图谱对其进行可视化处理分析。
信息检索相关性
———————————————————————————————— 作者:
———————————————————————————————— 日期:
ﻩ
近十年我国信息检索相关性研究现状分析——基于共词分析的视角
摘要:相关性是信息检索领域的核心研究的内容之一,对其进行深入研究将有助于提高信息检索的效率,推动信息检索的研究。本文将通过共词分析的方法,利用知识图谱对其进行可视化分析研究。
-0.794
1.984
第2象限
评价
-0.234
-0.438
第3象限
本体
0.4
-0.145
第4象限
情报学
-0.018
1.信息检索相关性基本概念
对信息检索相关性基本概念方面的研究工作始于20世纪50年代末,各国学者借助数学工具及各种概念提取方法从各个角度对“相关性”的含义及内容进行了深入剖析。而相关性的基本概念研究以1976年为边界经历了前后两个阶段第一阶段1959-1976的主要成果有Maron和Kuhns利用概率论定义相关性的概念,提出相关性并非只是简单的是/非选择问题。Rees认为相关性受文档所包含的信息概念的影响,认为相关信息是对用户原来所具备的知识而言有用的信息Goffman和Newill把相关性当成连接有效性的一种测度,并试图用数学方法证明相关性(Relevance)与关联性(Relation)之间具有等价关系。Saracevic则建议从文档、词与文献引用等各种文献特征上来定义检索的相关性。Cooper利用数理逻辑给相关性做了一个明确的定义。Wilson则在Cooper研究的基础上对数理逻辑相关性描述做了进一步扩充,并将“情境相关性”的概念首次引入到相关性的研究中,这些成果成为第二阶段研究工作的基础。在第二阶段,1977年至今,由于相关性各领域研究成果的相继出现,使相关性的概念描述也呈现出许多新的时代特征。首先是从面向用户及认知方法的观点重新审视相关性,认为相关性是个多维的认知概念,在很大程度上依赖于用户个人对信息的理解以及信息需求的情境。相关性是一个动态的概念它依赖于信息与用户某一特定时间所需信息之间关系质量的评价,以用户的观点来看,相关性是个复杂的、系统的、可测度的概念。其次是一些学者试图给信息检索定义一个逻辑模型来理解相关性概念这项工作由Rijsbergen开创之后又吸引了众多学者的参与。
表1高频关键词及其频次统计
关键词
频次
关键词
频次
信息检索
59
信息系统成功模型
2
相关性
29
信息素养
2
搜索引擎
8
信息检索模型
2
用户相关性
5
相关性判据
2
情报学
4
模糊聚类
2
评价
4
模糊矩阵
2
检索模型
4
模糊方法
2
查准率
4
可视化
2
用户交互
3
检索系统2信ຫໍສະໝຸດ 检索系统3检索评价
2
相关性判断
3
关联理论
2
相关性反馈
3
个性化
2
图1共词矩阵效果图(部分)
2.3分析数据结果
本文利用社会网络分析软件Ucinet6.0版本和Netdraw2.0版本对获取的关键词数据进行分析并绘制出社会网络分析图谱。
2.3.1K-core分析
在本文中,首先使用Ucinet6.0软件建立共词矩阵的电子表格,然后采用Netdraw2.0软件绘制科学知识图谱,在此基础上,采用K-core分析法进行社会网络分析,建立不同连接度k核(最高为4)的共词网络图谱,经过处理后得到可视化结果,如图2所示,其中红色代表关联度为4的关键词,绿色为关联度为3的关键词,蓝色为关联度为2的关键词,黑色为关联度为1的关键词。
相关度
3
次序效应
2
系统相关性
3
词频矩阵
2
网络信息检索
3
查询扩展
2
数字图书馆
3
查全率
2
模型
3
测试集
2
跨语言信息检索
3
标准
2
检索
3
本体
2
用户需求
2
TEDS模型
2
用户行为
2
学术信息检索系统
2
2.2建立共词矩阵
在EXCEL表格中,删除低频关键词之后,对确定的42个关键词所在列进行两两配对,统计其在文献同时出现的频次,建立透视表,并通过Ucinet软件将42个关键词建立共词矩阵,图1为共词矩阵部分效果图。
2.信息检索相关性共词分析
2.1数据收集处理
本文研究的数据收集是以中国知网(cnki)中文数据库中的期刊文献为基础,期刊来源为SCI、EI、CSSCI,以“信息检索”并含“相关性”作为主题进行检索,检索年限为2004年至2013年,共检索文献95篇。对其关键词进行统计分析,共有关键词202个,对其进行词频统计,将词频超过2次的关键词作为高频关键词,共有高频关键词42个(表1),本文的数据分析将基于这些高频关键词。
图2 K-core分析效果图
2.3.2多维尺度分析
使用Ucinet6.0软件中的非量纲式多维尺度分析方法分析近十年我国信息检索相关性的关键词的数据结构,统计这些关键词坐标,统计结果如表2所示,并形成散点图,效果如图3所示。
表2关键词分布坐标
关键词
X坐标
Y坐标
所处象限
关键词
X坐标
Y坐标
所处象限
TEDS模型