信息检索中的相关性研究_马芳
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
88888888888888888888888888888888888888888
科技情报开发与经济
SCI -TECH INFORMATION DEVELOPMENT &ECONOMY 2009年第19卷第14期
Considerations about the Sustainable Development of Local Literature Work
HE Wei-bing
ABSTRACT :This paper expounds the concepts and connotations of the sustainable development and the local literature ,
points out some shortages existing in the current local literature work ,and puts forward some assumptions of realizing the sustainable development of the local literature work .
KEY WORDS :library ;local literature work ;sustainable development
[3]熊焰.地(市)县公共图书馆地方文献资源建设和利用研究[J ]
.中国图书馆学报,2002(6):81.[4]黄桂凤.图书馆的地方文献资源开发利用[J ].图书馆杂志,2007(4):25.
[5]贾立菲.谈地方文献的开发与利用[J ].中国图书馆学报,2006(6):104.
[6]潘志强.区县图书馆地方文献工作探讨[J ].图书馆杂志,2007(8):46.(责任编辑:王永胜)────────────────
第一作者简介:贺卫兵,男,1966年12月生,1988年毕业于江西大学(现为南昌大学)历史系,馆员,现任萍乡市图书馆副馆长,江西省萍乡市安源区昭萍西路2号,337000.
当数据检索的精确性被信息检索的不确定性所代替后,用
户的查询与检出文档的关系也就由匹配关系变为相关关系,因此相关性这一概念就突显出来,成了信息检索中的核心领域。相关性是信息检索乃至情报学中的一个重要的、关键的概念,这在中外的有关研究者中已经得到了共识。
1“相关性”的概说
信息检索本身就是一种相关性检索,而不是确定性检索,它不直接回答用户所提问题本身,而只是提供与解决问题有关的文献信息。在信息检索中,相关性主要是指检索系统针对用户的信息需求从文档集合中检出的文档与用户需求之间的一种匹配关系。检索相关性问题远比定义复杂得多,人们在决策过程中产生了信息需求,其中一部分是对数据的需求,而更多的是对某个主题文献的需求,而后者所对应的是一种相关性检索而非前者的确定性检索。
信息检索中相关性的研究主要有两个分支:一是以Mooers ,Taube ,Perry ,Salton 等为代表的来自计算机科学界,他们的研究主要围绕信息检索系统展开,包括系统的分析、设计、检索算法以及性能评估等,尤其是表征用户信息需求的查询表达式与文档的匹配算法和模型是核心的研究内容,他们被称为系统中心
学派。另一个是来自图书情报界,
他们的研究重点是用户或者检索中介在检索过程中的认知、交互以及情境等层面,被称为用户中心学派。因此,相关性概念也可以从这两个研究分支来划分:面向系统的相关性和面向用户的相关性。
(1)系统相关性学派。面向系统的相关性也称系统观的相关性,它包括两个方面:一是用户提交的查询与信息检索系统对该查询分析理解后形成的系统执行的检索表达式之间的匹配关系;二是检索出的文档与系统执行的检索表达式之间的匹配关系。
面向系统的相关性是查询表达式与文档内容的一致性匹配,是文档所涵盖的内容对查询表达式的适合程度,它的着眼点
主要是信息检索交互模型中的文档库、
检索表达式、匹配过程和检索输出。这种相关性明确定义了信息检索以及信息检索系统研究与发展的目标,简单明了,易于操作。
(2)用户相关性学派。面向用户的相关性主要研究用户以及用户或者检索中介与系统之间的关系,这种相关性是主观的、模
糊的。一方面,
人们对检索系统检索出的结果与用户的特定查询可以有多种“相关”方式;另一方面,不同的用户对同一检索结果的相关性判断存在差异。不同的用户对同一真实信息需求的感觉会有差异;同一用户就同一真实信息需求向不同信息检索系统所发出的查询会有一定程度的差异。
2相关性的影响因素
检索系统的工作过程包含存储和检索两个互逆的过程。检
索是存储的逆过程,对检索过程的分析,可以发现影响检索相关性的因素主要有:
文章编号:1005-6033(2009)14-0089-02
收稿日期:2009-03-10
信息检索中的相关性研究
马芳
(中山大学资讯管理系,广东广州,510275)
摘要:在信息检索中,相关性是一个关键性的概念。从相关性的动态、多维的内涵出
发,介绍了在信息检索中相关性的学派、影响因素及评价,总结了提高信息检索相关性的措施。关键词:信息检索;系统相关性;用户相关性中图分类号:G354文献标识码:A
89
2.1信息源
信息检索系统的开发人员对原始信息源进行加工,提取出标题、关键词、文摘等信息,我们比较题名、题录、文摘和全文对相关性判断的不同影响,发现文献的主题内容是影响判断的最重要因素。文献内容越是具体越有利于相关性判断。
(1)系统文献数据库。文献数据库的规模、学科属性、收录范围等是检索到多少相关文献的前提。
(2)系统检索语言。在传统的检索工具和系统中采用人工语言进行标引和检索,检索相关性较高。在目前海量信息环境下使用自然语言,而自然语言缺乏控制使检索相关度较低。如何转换和控制自然语言,使模糊的查询表达能够逐渐明确,是提高检索相关性的关键。
2.2信息需求的表达
检索者不一定意识到自己实际上想查询什么信息,他所表达出来的需求即请求也可能与真正的需求或感觉到的需求有一段距离。古希腊哲学家柏拉图有句名言:“人们要询问的既不是他知道的,又不是他不知道的。如果他知道,则没有必要再问;如果他不知道,则他也不知如何去问”。
2.3时间与环境
特定文档相对于某一查询来说,有可能在某个时刻是相关的,但在另外某一时刻又可能是不相关的,因此对文档相关性的判断不是恒定不变的。实验条件的变化可能导致判断的变化,不同的检索行为在主题、任务和情景方面呈现出差异。用户在判断时的知识状态等也会影响判断结果。
2.4用户的特性
用户的认知过程与信息需求的用户角度相关。系统要达到“领会”用户要提交的查询所表达的需求,很大程度上取决于判断者的教育程度。一般认为用户的专业知识越高深,相关性判断的一致性就越好;专业知识越少,相关性判断就越宽大。
3提高信息检索相关性的策略
研究相关性的目的是为了促进信息检索效率的提高,根据各种因素,从系统和用户两方面入手来提高检索的性能。
3.1从系统的角度提高检索系统相关性的措施
(1)以用户为中心的设计思想。相关性判断最终是由用户所决定的,相关性的不确定因素主要也是由用户引起的,因而我们应该建立以用户为中心的思想,减少其不确定性因素。从人性化服务的理念设计系统,帮助用户发现问题、认识问题、提出问题、修正问题及寻求解决途径等。
(2)相关算法的优化。相关度的算法影响检索结果文档的排序。一般系统检索结果的相关度排序主要采用词频和位置加权算法,但这种算法在自然检索语言环境下不准确。链接分析法应用了引文检索语言的原理,在关键词文本匹配的基础上,利用Web超链结构,对一个网页与其他网页的链接关系进行分析,以此确定该网页在检索结果中的排列顺序级。Google和百度正是根据这一技术思路开发并使用了独特的排序算法。
(3)提供信息引导功能。为应对当代信息环境下检索用户的资源迷向问题,智能检索系统提供了信息引导功能,帮助用户确定自己需要的信息所在领域,为用户提供详细、科学的信息分类知识。当用户输入关键词后,系统可推断关键词信息所在的领域,并将这些领域信息告知用户,让用户确定。对于不同的用户,系统将学习用户提交的关键词和领域信息,并记录在其用户模型中;当用户下次提交查询任务时,自动让用户确认相关信息,避免用户重复操作。
(4)相关反馈技术。传统检索系统不关心用户对检索结果的相关性判断,若同一用户反复进行同一查询,其结果没有任何改进。因此我们采用相关反馈技术,可使用户对系统返回的初步查询结果表明满意程度,系统根据用户的反馈对其查询意图预测,进而改进检索结果,提高检索的相关性。
3.2从用户角度提高检索系统相关性的措施
(1)提高用户对信息需求的表达能力。表达较明确的需求会导致对文献较一致的相关性判断,但判为不相关的比率较大;而表达较含混的需求会使人们对文献的相关性判断分歧较大,但判为相关的文献较多。信息需求的表达语句与相关的文献中的语句相呼应,需要用户不但要对自己的需求有确切的认识,还要将这种认识明确地表达出来,而且要符合一般该类文献的用词特点。
(2)提高用户对检索系统的选择能力。用户在信息检索之前必须选择能够满足自己需求的信息检索系统,这是用户获得相关文档的前提。用户对系统的正确选择依赖于用户对信息需求的正确认知,即首先要分析自己的信息需求属于哪一领域或哪一学科,再考察各系统中所包含文献的范畴、来源、质量等,针对信息需求选择合适的信息检索系统。
(3)提高用户对知识的理解能力。针对同样的信息检索结果,知识水平较高的人在进行相关性判断时表现得较为严格,判断出的相关文献较少;而随着知识水平的降低,对相关性的判断也会越来越松。当用户亲自进行信息检索时,可以结合自己已掌握的知识和已拥有的材料判断文献的相关性。
4结语
相关性是一个不断发展的概念,随着信息检索从传统的实验室信息检索发展到用户导向的信息检索和认知导向的信息检索,使得人们对相关性的理解和认识也不断深化,相关性概念的内涵和外延都得到了进一步的扩展和深化。事实上,它已经从静态的、二元论的系统观点扩展到动态的、多维的认知观点,并将信息检索系统和认知行动者这两个最重要的要素有机地联系在一起,覆盖了从信息检索、信息查寻到信息活动和知识管理等多个领域。希望通过上述从系统和用户的观点对相关性类型及改善策略所做的讨论能对信息检索的理论研究及检索系统的开发工作提供必要的相关信息,相信这些必将推动情报学理论和实践的进一步发展。
参考文献
[1]夏咏梅.浅析信息检索评价中“相关性”问题的内涵[J].情报检索,2003(6):25-26.
[2]莫祖英.信息检索中的相关性[J].情报探索,2006(12):117-118.
[3]黄丽红.信息检索中“相关性”的探究[J].图书馆学研究,2006(2):66-67.
[4]赵荣,宋慧敏.检索相关性及其提高路径[J].科技导报,2005,23(11):63-65.
[5]成全,司辉.信息检索相关性评价及其改善策略研究[J].情报杂志,2008(2):131-133.
(实习编辑:薛艳)────────────────
第一作者简介:马芳,女,1985年8月生,2008年毕业于东北师范大学,现为中山大学资讯管理系情报学专业2008级在读硕士研究生,广东省广州市新港西路135号,510275.
(下转第97页)
马芳信息检索中的相关性研究本刊E-mail:bjb@sxinfo.net信息工作研究90