信息检索中“相关性”的概念、类型及其不确定性

合集下载

1-2信息检索的概念和类型

1-2信息检索的概念和类型
通过人-机、机-机或人-人等系统之间的交互联作,以期达 到启迪的认知结构动态的建构过程”。
2020/5/17
2
2020/5/17
Calvin N. Mooers,1919~1994
穆尔斯(Calvin N. Mooers, 1919~1994) 在1948
年提出此术语时,把它定义为一种“延时性通 讯
网络检索:利用E-mail、FTP、Telnet、Archie、WAIS、 Gopher、Veronica、WWW等检索工具,在Internet等网 络上进行信息存取的行为。
2020/5/17
7
3、按照存贮文献的时间进行的划分
3、1 Selective Dissemination of Information:它是预 先把用户需要的有关文献存贮在计算机的存贮器中,定 期按用户提问要求从存贮器中检索出用户所需要的最新 文献,发给用户,使用户能定期得到所需要的文献信息。
Mooers was an early advocate of the use of intellectual property
law, including copyright and patents, to protect computer
programming languages.
3
二、信检索的类型
1、按照存贮与检索的对象进行划分 2、按照存储的载体和查找的技术手段进行划分 3、按照存贮文献的时间进行的划分 4、按照检索系统的结构进行的划分
2020/5/17
4
1、按照存贮与检索的对象进行划分
1、1 Document retrieval:以文献为检索对象的信息检索, 是指将文献按一定的方式存贮起来,然后根据需要从中 查出有关课题或主题文献的过程。 书目检索:以文献线索为检索对象。换言之,检索系统 存贮的是书目、专题书目、索引和文摘等二次文献。 全文检索:以文献所含的全部信息作为检索内容,即检 索系统存贮的是整篇文章或整部图书。

信息检索相关性

信息检索相关性

信息检索相关性近十年我国信息检索相关性研究现状分析——基于共词分析的视角摘要:相关性是信息检索领域的核心研究的内容之一,对其进行深入研究将有助于提高信息检索的效率,推动信息检索的研究。

本文将通过共词分析的方法,利用知识图谱对其进行可视化分析研究。

关键词:信息检索;相关性;共词分析前言相关性一直以来都是信息检索领域的核心研究内容之一,其概念的起源可以追溯到17世纪的早期图书馆用户认识到查找相关信息的问题。

但由于客观原因,相关性只是作为一种朦胧意识停留在人们头脑中,直到20世纪20年代少数学者Lotka(1926)、Zipf(1949)、Urquhart(1959)、Price(1965)才陆续从各个领域开始了相关性的研究工作。

在信息科学界Saracevic认为Bradford是最先使用相关性一词的学者。

其在20世纪30年代发表的《文献的混沌状态》一文中首次提出“主题相关”的概念。

而此后关于“相关性”的探讨并未引起学界更大范围的关注。

直到1958年国际科学信息会议(ICSI)的召开,相关性(Relevance)才作为信息科学领域的一个重要概念被学术界认可。

至此“相关性”逐渐成为信息科学尤其是信息检索领域经久不衰的研究课题,甚至知识交流学派的代表人物Saracevic认为信息科学之所以成为独立学科,而不再隶属于图书馆学或文献学的原因就在于它开展了相关性的研究也在于相关性能够解释科学交流中的诸多问题。

足见“相关性”在信息科学中的重要地位。

当前,各国学者已对信息检索的相关性问题展开了深入研究,本文将通过共词分析法,使用知识图谱对其进行可视化处理分析。

1.信息检索相关性基本概念对信息检索相关性基本概念方面的研究工作始于20世纪50年代末,各国学者借助数学工具及各种概念提取方法从各个角度对“相关性”的含义及内容进行了深入剖析。

而相关性的基本概念研究以1976年为边界经历了前后两个阶段第一阶段1959-1976的主要成果有Maron和Kuhns利用概2学术信息检索系统2率论定义相关性的概念,提出相关性并非只是简单的是/非选择问题。

信息检索概念及分类

信息检索概念及分类

信息检索概念及分类
一、概念
信息检索(Information Retrieval)是用户进行信息查询和获取的主要方式,是查找信息的方法和手段。

狭义的信息检索仅指信息查询(Information Search)。

即用户根据需要,采用一定的方法,借助检索工具,从信息集合中找出所需要信息的查找过程。

广义的信息检索是信息按一定的方式进行加工、整理、组织并存储起来,再根据信息用户特定的需要将相关信息准确的查找出来的过程。

又称信息的存储与检索。

一般情况下,信息检索指的就是广义的信息检索。

二、分类
(一)按存储与检索对象划分,信息检索可以分为:
文献检索
数据检索
事实检索
以上三种信息检索类型的主要区别在于:数据检索和事实检索是要检索出包含在文献中的信息本身,而文献检索则检索出包含所需要信息的文献即可。

(二)按存储的载体和实现查找的技术手段为标准划分:
手工检索
机械检索
计算机检索
其中发展比较迅速的计算机检索是“网络信息检索”,
也即网络信息搜索,是指互联网用户在网络终端,通过特定的网络搜索工具或是通过浏览的方式,查找并获取信息的行为。

(三)按检索途径划分:
直接检索
间接检索。

第二节信息检索的概念、类型及其发展(精)

第二节信息检索的概念、类型及其发展(精)

第二节信息检索的概念、类型及其发展(精)第二节信息检索的概念、类型及其发展一、信息检索的含义1950年,莫尔斯(Calvin N. Mooers)首次提出信息检索(Information Retrieval)一词。

其后,随着信息检索理论和实践的更新发展,人们对信息检索的认识也在不断深入。

对于信息检索,主要存在时间性通讯、信息处理和文献查找三种角度的认识。

1.通讯角度的认识莫尔斯在1950年发表了《把信息检索看作是时间性的通讯》一文,不仅首次提出了信息检索这个概念,并认为“信息检索是一种时间性的通讯形式”。

换言之,通过信息检索得到了一些文献,从而使得著者与读者(信息检索的用户)之间建立起了一种通讯。

按照这种通讯角度的认识,莫尔斯强调了在通讯双方中,信息发送者必须尽可能发送一切信息,是时间性通讯的被动一方;而信息接受者是主动活跃的一方,正是接受者才决定什么时候接受以及接受什么信息。

因此,信息检索的问题就在于,如何把一个可能的用户指引向所存贮的信息。

这种认识突出了用户需求的重要性,对于如何做好信息检索服务工作,至今依然具有很强的理论和实践意义。

2.信息处理角度的认识从信息处理的角度来看,信息检索的基本问题,是如何处理信息和信息的结构。

这种认识偏重于信息管理,认为信息不仅限于文献的范围,图象、声音、数据等也都能反映信息,并把信息检索视为计算机科学技术的一个分支。

把信息检索看作是一种信息处理的认识,强调了如何构造以及利用什么形式来构造信息结构的问题。

在当今Internet迅速发展,网络信息浩如烟海的现实情况下,这种认识对于信息检索工具的设计和组建,仍然具有指导意义。

3.文献查找角度的认识简言之,从这种角度来看,信息检索就是查找出含有用户所需信息的文献的过程。

在信息检索领域,这是一种传统的主流观点,支持者众多。

例如:英国著名学者维克利(B. C. Vickery)认为,“信息检索是从汇集的文献中选出特定用户在特定时间所需信息的操作过程”;美国著名信息专家兰卡斯特(F. W. Lancaster)认为,“信息检索是查找某一文献库的过程,以便找出那些某一主题的文献”。

信息检索中的相关性

信息检索中的相关性
信息检索中的相关性第12期总110期情报探索信息检索中的相关性2006年l2武汉大学信息管理学院2005级研究生湖北430072摘要讨论了信息检索中的相关性概念通过分析美国学者mizzaro的相关性框架展示了信息检索过程中所包含的各种相关性以及它们之问的相互关系探讨了用户相关性判断的影响因素
维普资讯
干 预 。面 向用 户 的相 关 性 主 要 研 究 用 户 以 及用 户 或 者
相关 性尽管并 没有被人们广泛理解 ,它却 是文献 学、 情报 学和信息检索 中的一个基础概念 。自从情报学 开始作为独立 的学科 , 在它 的前 四五十年 , 相关 性就 已 经被认为是该学科 的一个基础 的 、 核心 的概念 。 大虽 的 信息检索文献对 相关性进行 了研 究。如果不理解相关 性 的含义 。 明 白相关性 对用户的意义 , 不 很难想象一个 信息检索系统怎样 为用 户检索 出相关信息 。 1 信息检索 中的 相关性 概念 信息检索 的主要 目的是检索 相关信息 ,正 如美 国 V nRj egn定义 的“ a ibre s 检索 出所 有的相关性文献 和尽 可能少 的不 相关文献 ” 。因此 , 相关性是信息检索 系统 的功能和评估 中的一个 基础概念和关注焦点 ,它也是 信息科学领域一个重要 的研究部分。 相关性 被认 为 是信 息检索 最基础 的 一个 概念 。 也 是信息检索 中最有争议 的一个概 念。 在早期 , 信息学家 们认为 , 相关性 概念是信 息系统设计 、 开发和评价 的一 个 总概念 。然而 , 于相 关性 的具体属性 , 对 以及其 在系 统中的可操作性 和可评价 性 , 没有达成一致 的看法 。 却 后来 , 许多专 家学者对相关性 进行 了深入研究 , 并 取得 了很大 的成 果 。例如 ,美 国学者 C ar uda和 K t r ae t 研 究证 明了 广泛 的相 关性 :美 国学者 R e e s和 Sh l cut z 在 提 高 对 相 关 性 的 理 解 方 面 做 出 了 贡 献 。 美 国 Srev aaei c的一篇 关于对相关性 的分析回顾是一篇有建 设 性的文章 ,他 主要研究 了如何 理解相关性 以及过 去 是如何应 用的。 在 19 9 0年期 间 ,相关 性讨 论进 一步加 强 。美 国 Esn egS hmbr S hm e 等学者 通过 引入情境 i br 、c a e 和 c a b r e 相关 的概念 而再 次 引起 了热烈的讨论 。Sh m e 等学 ca br 者 在对 历史文献 和各种各样 的相关性 观点分 析 回顾之 后 ,从相关性 的 自然属性和它在信息行 为中的作用两 方 面 , 出了三个 主要结论 : 得 () I相关性 是一个多维度的认知概念。 含义是相 其 关性 主要 取决于 用户对信息 的看法 和他们 的信息需求 情境 。 () 2 相关性是一个动态 的概念 。 它主要是指熠户在某 特定时间对检索结果与信息需求的匹配程度的判断。 () 3 相关性是一个复杂但系统 的、 可以衡量的概念。 目前 , 对相关性 的研究主要有两个分支。 其一是来 自计算机科学界 ,他们的研究主要是 围绕信 息检索 系 统展开 , 包括 系统 的分析 、 计 、 索算法 以及 性能评 设 检

信息检索

信息检索
信息检索
信息检索与信息组织 信息组织:描述信息资源或信息对象。 信息检索:发现适当的信息资源或信息对象。 互逆的过程:

存储、收藏-----标引
提取、利用-----检索
目录
1. 2. 3.
信息检索的沿革与发展 信息检索的职能与范围 信息检索的技术与方法
信 信 性信 信 息息 息息 检检 检检 索索 索索 的的 的的 模发 类涵 型展 型义 历 与 程 特
信息检索的沿革与发展:4.信息检索的模型

q = 病毒 AND (计算机 OR 电脑)AND NOT医
d1:
…据报道,计算机病毒近日猖獗… d2: …小王虽然是学医的,但对研究电脑病毒也很 感兴趣,最近发明了一种… d3: …计算机程序发现了爱滋病病毒的传播途径…

哪些文档会被检索出来?

进行抽象描述,用于信息检索过程。
用户提问 匹配? 信息集文档
信息检索的沿革与发展:4.信息检索的模型

信息检索模型决 定于:
从什么样的视角
去看待查询式和 文档 基于什么样的理 论去看待查询式 和文档的关系 如何计算查询式 和文档之间的相 似度
信息检索的沿革与发展:4.信息检索的模型




布尔逻辑检索模型:Boolean Retrieval Model, BRM 文档表示: 一个文档被表示为关键词的集合 查询式表示:查询式(Queries)被表示为关键词的布尔 组合 用“与或非”连接起来,并用括弧指示优先次序匹配
பைடு நூலகம்
与:AND,* 或:OR,+ 非:NOT,—,

一个文档当且仅当它能够满足布尔查询式时,才将其 检索出来

信息检索重要概念

信息检索重要概念

信息检索重要概念信息检索是指利用计算机技术和方法,从文本、图像、音容等信息资源中找到满足用户需求的信息,是一项十分复杂的工程,需要掌握一些重要的概念。

以下是关于信息检索中的重要概念:1. 信息需求:用户的信息需求指的是用户在获取信息之前的目的、问题、兴趣和需求等。

信息需求是信息检索的出发点,对于信息检索的成功与否起着十分重要的作用,因为它决定了用户将会得到什么样的信息。

2. 检索式:指用户在信息检索系统中输入的查询条件。

它是由关键词、布尔运算符、特定符号和通配符等组成的,用户可以通过检索式来明确自己的信息需求,并找到符合自己需求的文档。

3. 关键词:是用户用来表达查询需求的词语或词组,也是信息检索系统进行文档匹配的重要依据。

关键词应该选取能够准确反映用户需求的词语,避免使用含糊或不确定的词汇。

4. 布尔运算符:包括AND、OR和NOT三种。

它们用来连接关键词,在检索式中发挥非常重要的作用。

AND表示交集,OR表示并集,NOT表示排除。

5. 特定符号:用来表达用户的特定查询需求,如“”表示精确查询,即使查询字符串中的所有单词按照该顺序出现在文档或记录中,才能匹配;“*”表示通配符,可以代替任意字符串。

6. 相关性:指文档与用户输入的查询的关系,是评价信息检索系统度量性的重要指标。

相关性是指文档与查询之间的匹配程度,如果匹配程度越高,就认为文档越相关。

7. 检索精度:是评价信息检索系统指标的重要参数。

检索精度用来衡量信息检索系统返回的结果与用户的实际需求之间的相似程度,它是一个能够衡量信息检索系统性能优劣的重要指标。

8. 检索效率:是评价信息检索系统性能的指标。

检索效率指的是信息检索系统在给定时间内处理查询的能力,包括响应时间、查询时间、索引速度等方面。

9. 评价指标:用于评价信息检索效果的标准,包括准确率、召回率、F值等。

采用多个评价指标综合评价信息检索效果能够更全面、客观地衡量信息检索系统的性能。

信息检索和信息科学的相关性分析与探讨

信息检索和信息科学的相关性分析与探讨

信息检索和信息科学的相关性分析与探讨引言:在当今信息爆炸的时代,信息检索与信息科学成为了人们不可或缺的重要工具。

信息检索是指通过使用计算机技术来筛选和获取所需信息的过程。

信息科学则是一门研究信息的产生、流动、处理和应用的学科。

本文将分析信息检索与信息科学之间的相关性,并探讨它们在当代社会中的作用和挑战。

信息检索的定义和发展:信息检索是指通过关键词、查询语言等方式,从庞大的信息资源中筛选和获取用户所需的信息。

这项技术从20世纪50年代开始发展,随着互联网的出现,信息检索变得更加便捷和高效。

信息检索技术的应用领域涵盖了各个行业,包括教育、医疗、商业等。

通过信息检索,人们可以方便地获取所需的知识和资讯。

信息科学的定义和范畴:信息科学是一门多学科交叉融合的学科,包括计算机科学、数学、统计学、图书情报学等。

其研究对象是信息的产生、流动、处理和应用。

信息科学的发展与技术革新密切相关,如人工智能、大数据、机器学习等。

信息科学的产出是以信息为核心的技术和模型,为实现信息检索、数据挖掘、信息可视化等提供理论基础和方法。

信息检索与信息科学的关联:信息检索是信息科学的重要分支之一,它依赖信息科学的模型、技术和方法来实现。

在信息检索中,信息科学的模型被用于构建文档索引、查询优化和检索精度评估等方面。

同时,信息检索与信息科学也相互促进和丰富。

信息检索提供了大量的实际数据和应用场景,为信息科学研究提供丰富的素材和实验对象。

而信息科学的发展又推动了信息检索技术的不断创新和进步。

信息检索与信息科学的应用:信息检索和信息科学的应用广泛涵盖了各个领域。

在教育领域,通过信息检索技术,学生可以方便地获取到各种学术资源和教学资料,提高学习效果。

在医疗领域,医生可以通过信息检索系统来查阅临床指南、疾病诊断和治疗方案,提高诊断准确性和治疗效果。

在商业领域,企业可以利用信息检索和信息科学技术来进行市场分析、用户画像和推荐系统,提升产品竞争力。

信息检索

信息检索

信息检索1.信息检索的概念。

狭义信息检索是指用户找出有关信息的过程。

广义信息检索是将信息按照一定的方式组织和存储起来,并根据用户的需求找出有关信息的过程。

2. 信息检索的类型(1)按照检索对象的不同划分早期分为:文献检索、事实检索、数据检索。

当前三分方法:文本检索、音频与视频检索、数值检索。

(2)按检索手段划分:手工检索、机器检索3.简述信息检索的基本原理信息检索的基本原理:对信息集合与需求集合的匹配与选择。

实现信息检索,主要涉及三个关键要素:信息集合、用户信息需求、匹配选择。

一、信息集合:信息集合是指有关某一领域的,经采集、加工的信息集合体。

二、需求集合:用户的信息需求是在社会实践活动中产生的。

当人们在完成某一任务或工作时,经常觉得缺少某些知识,这就产生了信息需求。

三、选择与匹配:要在信息集合中快速获取用户所需信息,需要信息检索提供一种匹配机制,能够把需求集合与信息集合依据某种相似性标准进行比较与判断,进而选择出符合用户需要的信息。

匹配机制至少包括两个要素:第一是匹配标准,即相似性标准;第二是执行匹配的动因。

4.计算机信息检索经历了脱机检索阶段、联机检索阶段、光盘检索阶段、网络检索阶段。

5.信息检索领域的主要研究问题有哪些?⑴信息检索理论:检索语言、检索模型、标引理论、相关性理论、知识组织与表示理论⑵信息检索工具/系统:信息检索系统的结构、功能、设计开发、管理运营、应用评价等⑶信息资源及其收集、加工:信息存储、数据库⑷检索技术与方法:文本检索技术、数值检索技术、音频与视频检索技术、网络搜索技术⑸用户研究与检索策略:用户的查询心理、检索需求及其类型、用户查询信息的行为特征等、用户信息需求分析、检索式构造、相关反馈方法、检索过程调整与控制等⑹其他密切相关的自动化处理技术:自动聚类与分类、自动摘要、信息可视化、信息过滤、信息提取、机器翻译、人机交互等。

信息检索的两种研究方式:以计算机为中心和以用户为中心,以计算机为中心的IR问题是主流。

相关性研究

相关性研究

相关性研究一、概述相关性研究是信息检索和数据分析领域的重要课题,它旨在判断不同文档或数据之间的相关程度。

通过相关性研究,我们可以更好地理解数据之间的联系,帮助我们更快速、准确地获取所需信息。

二、相关性的定义相关性是指两个或多个事物之间的关联程度。

在信息检索领域中,相关性通常指用户查询与检索到的文档之间的关联程度。

相关性评价的好坏对于信息检索系统的效果具有重要影响。

三、相关性研究的应用1.信息检索系统:在搜索引擎中,相关性研究用于判断搜索结果与用户查询的匹配度,从而呈现给用户最相关的信息。

2.推荐系统:相关性研究被广泛应用于推荐系统中,帮助系统更好地推荐用户感兴趣的内容。

3.数据分析:在数据挖掘和机器学习领域,相关性研究可用于分析数据之间的关系,从而为决策提供支持。

四、相关性研究的方法1.基于统计学方法:通过统计学方法来计算文档之间的相关性得分,如TF-IDF、余弦相似度等。

2.基于机器学习方法:利用机器学习算法训练模型来预测文档之间的相关性,如支持向量机(SVM)、随机森林等。

3.基于深度学习方法:近年来,深度学习在相关性研究中也取得了显著进展,如使用神经网络模型。

五、相关性研究的挑战1.数据稀疏:在大规模数据中,相关性研究可能受到数据稀疏性的影响,导致难以准确判断相关性。

2.语义理解:相关性研究除了考虑词语的匹配,还需要考虑语义的理解,这对算法提出了更高要求。

3.信息噪声:在真实数据中,会存在大量的信息噪声,这会干扰相关性研究的结果。

六、结论相关性研究在信息检索和数据分析领域具有重要意义,它可以帮助我们更好地理解数据之间的联系,并为决策提供支持。

随着技术的不断发展,相关性研究将继续成为学术和工业界的热门领域,为我们的生活带来更多便利。

科技信息检索基础知识[1] 第一章

科技信息检索基础知识[1]  第一章

(4)索书号 索书号是由分类号和同类书区分号共同 组成.表示的是某种具体的图书文献在 书库,书架上的具体位置. 同类书区分号的种类:著者号,种次号.
如X22/M368 人类文明与可持续发展/毛志锋 著;TU71/L321=2-1 建筑施工组织与管理/李建华等

四,主题语言
分类语言是以学科体系为基础,借助号 码表示各种概念. 主题语言是建立在学科内容基础上,用 规范化的语词表达各种概念,按语词字 顺编排的一种检索语言. 如<建筑设计基础>一书,分类标识为TU2, 主题标识为"建筑设计"或者"建 筑""设计".
5,《中图法》 是目前我国最具有影响的大型综合性文 献分类法. (1)主表体系结构 体系分类法的主表是由基本部类,基本 大类,简表,祥表逐级展开而形成的. 类分为5大部类,22个大类.
五大部类:
马克思主义,列宁主义,毛泽东思想,邓小平理论
哲学(哲学,宗教) 社会科学 自然科学 综合性图书
C D E F G H I J K
文献内容 主题分析 主题概念 文献描述 检索需要 主题分析 主题概念 文献描述
检索语言
检索标识 检索工具 结果 提问标识
二,信息检索的类型 1,信息检索根据检索(查找)对象的不同, 可以分为: 文献检索 事实或数据检索. 文献检索:是以文献为检索对象,从已 存储的文献库中查找到的是关于文献的 信息或文献全文. 事实或数据检索:是以事实或数据为检 索对象的检索.例如,查喜马拉雅山有 多高?世界上最长的桥有多长?某同类 产品中,哪种牌号的销量最大?
社会科学总论 政治,法律 军事 经济 文化,教育,科学,体育 语言,文字 文学 艺术 历史,地理
N 自然科学总论 O 数理科学和化学 P 天文学,地球科学 Q 生物科学 R 医药,卫生 S 农业科学 T 工业技术 U 交通运输 V 航天,航空 X 环境科学

搜索引擎如何判定网站文章内容的相关性

搜索引擎如何判定网站文章内容的相关性

搜索引擎如何判定网站文章内容的相关性1、什么是网站的相关性?相关性简单的来说就是指标题和内容的匹配和相关程度,简单来说,如果说标题里面有的关键词,而页面内容里面没有,这样就是属于不相关,仅仅是要求标题关键词页面内容里面也含有是不够的,这样并不能说明就是相关的,还需要标题含有的关键词在内容里面占有主要位置。

通俗来讲,就是实事求是,标题是页面的主题中心,页面内容是围绕标题而展开的,在这里还有一个前提就是符合用户需求,这就是我们说的相关性。

2、文章内容是不是客户需要的东西?做网站优化的,客户经常会关心网站的优化进度,最直接的就是关键词排名,搜索网站的关键词,就能看到网站的优化进度或者效果状况。

还有就是搜索公司的网址,看看与网站相关的文章到底有多少,文章的质量度怎样,有没有达到相传网站和公司的效果,这些都是很重要的东西,说得直接一点就是文章的相关性。

3、关键词出现频率或密度做seo的都应该知道关键词密度,为什么会有这个密度?一个网站里面出现某个关键词的次数越多,就表示这个网站与这个关键词相关性越强,关键词出现的频率越高相关性越大,所以之前在搜索引擎算法不完善的时候,通过关键词的堆积就能够获取不错的排名。

另外,关键词出现在标题中和出现在内容中,效果是完全不同的,所以为了提高相关性,我们会利用H标签,利用Strong标签等,让搜索引擎认为我们与某个关键词相关。

4、标题出现关键词一个网站或者网页的标题,可以说就是这个网站或网页的主题、中心思想,如果一篇文章中出现了关键词,搜索引擎会认为这个页面与关键词肯定是非常相关的,这也是为什么网站、网页的'标题如此重要的原因。

5、通过大量的数据辨别网页内容前几天看到一个例子,说的是香蕉和橘子同样是水果,但是他们的形状完全不一样,搜索引擎怎么认知他们的形状呢?通过大量的数据,搜索引擎程序了解到圆形和橘子经常同时出现,而香蕉没有,所以搜索引擎得知橘子是圆的,而香蕉不是,这个例子用来讲相关度也是合适的,比如搜索引擎怎么知道空调是家用电器的?同样的道理。

信息检索相关性

信息检索相关性
关键词:信息检索;相关性;共词分析
前言
相关性一直以来都是信息检索领域的核心研究内容之一,其概念的起源可以追溯到17世纪的早期图书馆用户认识到查找相关信息的问题。但由于客观原因,相关性只是作为一种朦胧意识停留在人们头脑中,直到20世纪20年代少数学者Lotka(1926)、Zipf(1949)、Urquhart(1959)、Price(1965)才陆续从各个领域开始了相关性的研究工作。在信息科学界Saracevic认为Bradford是最先使用相关性一词的学者。其在20世纪30年代发表的《文献的混沌状态》一文中首次提出“主题相关”的概念。而此后关于“相关性”的探讨并未引起学界更大范围的关注。直到1958年国际科学信息会议(ICSI)的召开,相关性(Relevance)才作为信息科学领域的一个重要概念被学术界认可。至此“相关性”逐渐成为信息科学尤其是信息检索领域经久不衰的研究课题,甚至知识交流学派的代表人物Saracevic认为信息科学之所以成为独立学科,而不再隶属于图书馆学或文献学的原因就在于它开展了相关性的研究也在于相关性能够解释科学交流中的诸多问题。足见“相关性”在信息科学中的重要地位。当前,各国学者已对信息检索的相关性问题展开了深入研究,本文将通过共词分析法,使用知识图谱对其进行可视化处理分析。
信息检索相关性
———————————————————————————————— 作者:
———————————————————————————————— 日期:

近十年我国信息检索相关性研究现状分析——基于共词分析的视角
摘要:相关性是信息检索领域的核心研究的内容之一,对其进行深入研究将有助于提高信息检索的效率,推动信息检索的研究。本文将通过共词分析的方法,利用知识图谱对其进行可视化分析研究。

相关性

相关性
Байду номын сангаас


信息检索相关性已经越来越引起人们的重视, 甚至有不少专家认为由于查全率和查准率的局限 性,相关性判断必将取而代之。 用户是信息检索的中心。在情报检索系统评价 中进一步加强对用户的研究是非常必要的。随着检 索系统的个性化、智能化的发展。检索结果更切合用 户需求或使用户做相关性判断时更容易。智能以及 相关反馈的检索系统的实现将是提高检索相关性的 解决方案.也是检索系统的发展方向。随着网络上多 媒体信息的日渐增多,对多媒体检索相关性的研究, 将是一个热点与难点。 总之,相关性的发展已经取得了一定的成效,但 还只处在理论研究阶段,其技术还不成熟;且理论研 究与技术研究两个领域目前还未实现很好的沟通。 理论研究过于理想化,技术研究缺乏指导。因此,必 须以相关性理论为指导,制定出科学合理的相关性 实验策略,进行实践性的研究,才能成功改善人们的 信息需求与实际查询结果之间的矛盾。

信息检索相关性的类型
由于相关性具有多重属性,国内外学者从不同 的角度给予相关性不同的类型划分。按相关层次理 解有:完全相关、比较相关、勉强相关19];根据相关性 的外在属性,将相关性分为系统相关、主题性相关、 认知相关、情境相关、动机/情绪相关[叫;从信息检索 的结果与查询的匹配关系来看.相关性分为形式相 关性和内容相关性【I:1;从信息检索的主体因素来看。 相关性分为用户相关性和系统相关性:从情报检索 相关性转移的角度来阐述,相关性分为语用相关、语 义相关和形式相关3个方面【81:从相关定义的发展 历程来看,相关性分为主题相关、逻辑相关、情境相 关和认知相关【Ⅲ。学术界已经普遍认同将信息检索 中的相关性研究分为两个学派。即面向系统与面向 用户的相关性研究。 3.1 系统相关性 面向系统的相关性研究主要来源于计算机科学 界,研究的是检索系统的内部机制。但这是建立在所 有检索出的文档都是用户相关的.同时主题阋在表 示内容或者意义方面必须精确且一致的假设之上 的。因此,这是固定的相关性,具有片面性,但易于操 作。因此是长久以来信息检索系统的主流。 孙建军等认为。系统相关性主要有以下几点来 展开研究的:基于词汇选择相似性的相关性、基于语 法结构相似性的相关性、基于词频的相关性、基于概 率的相关性。而从这个角度出发的相关一般有两种 比较方式:一是在文档本身固有的特征信息与用户 提交的查询表达式中固有的特征信息之间进行比 较:二是在从文档中抽取的“主题”与用户查询表达 式中体现的“主题”之间做比较【-Ⅻ】。

信息检索中“相关性”的探究

信息检索中“相关性”的探究

更 显得复 杂 , 因为 多媒体 的语义 特征 , 图像 的颜 色 、 如 纹 理、 形状等 , 增加 了标引的难度和 一致性 , 而也 干扰 了 从
“ 关性 ” 相 的判断。
2 2 检 索系统 .
图 l 用户 的信息需求表达
从图 1 我们可 以看 到 , 用户从 客观 需求 ( 即真正 的
效。 1 “ 相关性” 的内涵 态 的过程 , 因此我们 就不 能仅 仅从 静 态形 式给 予定 义。
下面笔者不 是给 “ 关性 ” 相 下一 个 定 义 , 而是 试 着从 多
“ 相关性 ” 是信 息 检 索 乃 至情 报 学 中 的一 个 重 要 方面分析 它的内涵 : 的、 关键 的概念 , 这在 中外 的有关研 究者 中已经得 到 了 共识。然而 , 与这种 观念 的重要 性相 反 的是 , 目前 为 到
主题、 键 词 集 , 者 姓 名 等 结 构 化 的 信 息 ; 息 “ 关 作 信 相关性 ” 断 的一 致 性就 越 好 ; 业 者 比非专 业 者 的 判 专
相关性 ” 判断好 , 成人 l J 童亦是如此。 ; L l  ̄ ( fr t n , 用户在 阅读 已经被检索 出的文档 时所 “ i omai ) 即 n o
2 影响“ 相关性 ” 的因子
用户个体差异性 是 影响信 息检 索中 “ 关性 ” 常 相 非
年龄 、 业等 自身 职 因“ 关性 ” 一 个 多维 的动 态 的概念 , 响 它的 重要 的一个原 因。用户本 身 的专业 , 相 是 影 相 不确定 的因素 。比如 用户 A和 用 因素也是 多维 的。下文 笔者 将从信 息 检 索的要 素 加 以 的特征都是 “ 关性 ”
特定 文档 相 对与某 一 查询 来说 , 有可 能 档 的“ 相关性 ” 而 目前 大 多数 系统 都 只提 供 词 形 相关 的判 断。因而 , , 但在 的判 断 , 义相 关 的判断还 不 完善 , 用相 关则 只为 少 在某个 时刻是 相关 的 , 另外某一时 刻又可能是 不相 语 语 相 判 数 检索系统 所 用。特 别 地 , 形 相 关对 中文 信 息检 索 关 的。 它是影 响用户 因子进 行 “ 关性 ” 断的一个 外 词 用户 的需 求会 随 时 间变 化 而导致 “ 相 “ 关性 ” 相 干扰特 别 大 , 检索 系统会 把 “ 物 流产 ” 如 药 的 在 因素 。一方 面 ,
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

而可将 19 97年之 后 的相关 性研 究作 为第 四个 阶段 。 本 文从相 关性 研究 的各 个 阶段 人 手 , 理 相 关 性 研 梳 究 中最具 代表 性 的研 究 成 果 , 总结 已有 研 究 中相 关
性 的类 型及 其不 确 定 性 表 现 , 相关 性 的进 一 步研 为
Ce e o l r n及 其 同事指 出 , vd 相关 性评 价 中最 难 的是 对
信息检索系统的评价 , 解决这一问题 的第一步应该
自上世纪 5 0年代 M or、 ab 和 Pr oe Tu e s ey等将 r 计算机技 术应 用 于信 息 检索 之后 , 相关 性 ( e — Rl e vne 就成 了该领 域 的核心 研究 内容 J ac ) 。这 三 位学
时期 围绕相关 性 评价 标 准 的实证 研 究 也 颇 丰 , 例
性 的定 义如 下 : 个 存 储 的句 子 ( 论 是 存 储 在 系 一 无 统 内或用 户 的记忆 中 ) 逻辑 上 与 用户 的信 息需 求 在 是 相关 的 , 当且仅 当它 ( 个存 储 的句 子 ) 在于 构 这 存
各 前提 是最 小前 提 的 先辈 。换 言 之 , 果构 成 信 息 如 需 求 的最小前 提集 合 存 在 于某 一 文 献 中 , 可判 断 则
该 文献 为相关 。但 对 于最 终推 论 出所 需结 果 的最小
前 提集 合 , 须 保 证其 任 一先 辈 ( 提 ) 存 在 , 必 前 都 否
过 。19 9 7年 , z r Mi ao将相 关 性 的研 究 历史 划分 为 三 z
的角 度考 虑相 关 性 的 。在 该 定 义 中 , 关 性 被认 为 相 是系统 的属性 , 与用户基本无关 。可 以说 , 这是相关 性 研究 初见 成 效 的 开始 。然 而 , 关 性 概 念得 到普 相
第 13期 2
山 东 图 书 馆 学 刊
2 1 年 2月 01
概 念 的界 定 中 , 他们 谈论 了一 个 “ 息需 求 表 述 ” 信 和

注 意 的是 用户 的 内部 概念 体系 与外部 世界 的相互作
用 以及 内部 知 识 与 相 关 性 判 断 的 关 系 。在 这 一 时
述 的基础 上提 出 了一个 相关 性 的 比较成 功 的形式化
求 和表 出 的信 息 需 求 之 间 的 区别 。可 以说 , opr Coe 将研 究重 心放 在 了满 足用 户 真 正 的信 息 需 求 上 , 并
试 图采用 逻辑 方法 解决这 一 问题 。 ( ) 境 相 关 性 。1 7 3情 9 3年 , l n发 表 了一 篇 Wi o s 颇 有影 响力 的文 章 , 在该 文 中 , 在 C o e 提 出 他 opr 的逻辑 相关性 的定 义 基 础上 , 入 了情 境相 关 性 这 引
期 , 相关 性概 念 的理 论 探 讨 不多 。9 对 O年 代 , 延
篇文 章之 间 的一致 性 。在 此 , 们 使 用 了另 一 种 他
二 元性 , 文献 相关性 ( ou n rl a c ) 用户 相关 d cmet ee n e / v
性, 而不 是表 出相 关 性/ 用户 相 关 性 , 他们 用 一 种 与 克 兰菲尔 德实 验不 同 的策 略来 表示相 关性 的不 同复

的理论 框 架—— 四维 模 型 ( 息 源 、 息 需 求 的表 信 信 示、 时间 和构建 )1 。在 实证分 析方 法方 面 , 关性 7 1 相
研究 已深入 到各 个领 域 , 中 , 关性判 断研 究尤为 其 相
突 出 。19 98年 ,pn Sik等通 过 四组 实 验 对 相 关 性 判 断进 行 了研 究 , 相 关 性 判 断 的 二 元 等 级 ( iay 将 bnr
杂性 。
续 了认 知 相 关性 的 观 点 , 比较 有 代 表 性 的是 H t ar e
的《 心理相关 性 号 情报 学 》 。他认 为 , 期 的检 索系 早
统设计 将 相关性 局 限在“ 主题 相关 性 ” 对相 关性 概 ,
() 2 逻辑 相 关 性 。C oe 在 其 17 op r 9 1年 的文 章 中批 判 了包 括 C a r uda和 K t r 出 的相 关 性 的 许 at 提 e
在此基础上 , 从信息检索过程 出发 , 具体分析 了各相关性 ( 系统观的相关性 、 信息观的相关性和情境观的相关性) 的不确定性 表现。最后 。 预测相关性研究将朝着系统 、 信息和用户并重的方向发展。
[ 关键词] 相关性
信息检索
不确定性
[ 文献标识码 ] A
[ 中图分类 号] G 5 . 249
则 就无法 用逻 辑推 理得 出所需 结论 。C oe 还 区分 op r 了不 同类 型 的信息 需 求 , 重要 的是 现 实 的信 息 需 最
类别 、 相关 性模 型等基 础性 的研究 都 有所进 展 , 大 但
多数 是根 据 以往 的研 究 展 开 的 。在 基 础 性研 究 方面, z r Mi ao在对信 息检 索领 域 相关 性 研究 全 面综 z
可 由具有 该学 科 领域 合理 知识 的任 何 人来决 定 。继
Ceedn之 后 ,uda和 K t r 成 了相 关 性 判 断 lvro C ar ae 完 t 的一 系列 实验 研 究 , 出 了相 关 性 的一 般定 义 。在 提


系统如何判断检索词与文献索引词之间的一致程度
】・
成 表述 需 求 的 最小 前 提 集 合 ( nm l rmi e) Mii a Pe s S t e 中 ; 于所有 的需 求 表 述 , 由许 多 前 提集 合 组 成 ; 对 它
如 ,9 1年 ,ca br 认 知 的角 度 在 一 个 多媒 体 19 Shm e 从 专业 的工作 环境 中(天气 预报 )研 究 了在 一个 真实 的信 息查 询及信 息利 用活 动过程 中所采 用 的相关性
者还从 检索 的角 度 将 相关 性 定 义 为 “ 索词 与 文献 检 索引词之 间的吻合 程度” 。显然 , J 他们是从检 索
是将相关性 概念 分成两种 类型 : 用户 相关性 ( s ue r rl ac) 表 出相 关 性 (te eeac) 其 中 , ee ne 和 v s tdrl n e 。 a v 用户 相关 性 只能 由提 问者 自己决 定 , 而表 出相 关 性
f e o d ] R lvne I om t nR tea U cr i y yw rs eeac n r a o e ivl net n K f i r at
Sr ei指出, a cv a c 信息检索提 出的更大 的问题是
情报 学 的核 心 … 。他 所 指 的 “ 大 的 问 题 ” 是 相 更 就 关性 。毋 庸置 疑 , 观 信息 检索 发展 史 , 纵 相关 性是 一 个核 心概 念 , 报学 界 对 相 关 性 的研 究 也 从 未停 止 情
到挑 战 。 1 2 第二 阶段 ( 9 9—17 . 15 9 6年 )
该 阶段 是相关 性 研究 的 高潮 , 着相 关 性 研 究 随 的进 一步 深化 , 者 们 从 各 个 角度 阐述 了对 相 关 性 学 概念 的不 同理 解 。 ( ) 关 性 的 二 元 策 略 。“ 统 观 ” 到 挑 战 1相 系 受
[ btat r i p prr i stefu tgso e vnersa h u m r e evr u pso l ac , A s c] I s ae e e h rs e fr eac eer ,sm ai st a ost e f e vne r 1 h vw o a l c z h i y re
究 提供借 鉴 。
1 相 关 性研 究 回顾 1 1 第一阶段 ( 9 8年之 前 ) . 15
后, 研究人员开始倾 向于使用二元策略 , 认为相关性 只有 两种 类 型 。持 这 种 观 点 的有 Cee o , uda l r n C ar vd 和 K t r 1 。例如 , 第 二次 克 兰菲 尔德 实验 中 , at 一 e 0 3 在
评 价标 准 ;9 4年 , ar 察 了学 者们 面对 真 实信 19 Br y考 息需 求 时 , 检 索 过程 中对 印刷 型 文 献 的评 价 , 在 发 现 了 2 相关 性 的判 定标 准等 。 3条 1 4 第四阶段 ( 0世 纪 9 . 2 0年代 中期 至今 ) 近年 来 , 于相关 性 的基本定 义 、 关 相关性 的属性
a d c a sf s te s r lv n e o y tm — oi n e ,i fr t n —o e td a d sta in —o e td n ls i e h m a ee a c f s se i r t d no mai e o i r ne n i t u o i r n e .T e ,sa t h n trs fo t e p o e so fr ain rt e a ,t i a e n y e h n et it fv ro s tp s o e e a c n d ti. r m h rc s fi o n m t er v l h sp p r a a s s te u c ran y o a iu y e rl v e i ea l o i l f n F n l ,p e it h tt e r lv n e r s a c i a t n in t y tm ,i fr ain a d u e a es me t . i a y r d cs ta h ee a c e e r h w l p y at t o s se l l e o no m t n s l tt a i o  ̄ h me
学 术 论 坛
相关文档
最新文档