信息检索作业1
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
三、国内外信息检索的研究热点
(1)从知网上学术发展趋势来看国内信息检索的研究热点
图1 有关“信息检索”的学术关注度
表1 与“信息检索”主题相关的被引前5的论文序
号文献名称作者文献来源发表时间
被引
频次
1 Ontology研究综述邓志鸿,唐世渭,张铭,
杨冬青,陈捷
北京大学学报(自
然科学版)
2002-09-20 2063
2 Web文本挖掘技术研究王继成,潘金贵,张福炎计算机研究与发
展
2000-05-15 723
3 本体论研究综述李善平,尹奇韡,胡玉
杰,郭鸣,付相君
计算机研究与发
展
2004-07-16 705
4 基于机器学习的文本分类
技术研究进展
苏金树;张博锋;徐昕; 软件学报2006-09-30 567
5 信息抽取研究综述李保利,陈玉忠,俞士汶计算机工程与应
用
2003-04-01 510
从图1和表1来看,国内学者大体上对信息检索的关注度是呈逐年上升趋势的,归纳与信息检索的有关的热点有:
1.语义网,主要研究语义网三个基本组成部分——元数据(Metadata)、资源描
述框架(RDF,Resource Description Framework)和本体(Ontology)中的本体,及语义网的基本技术——关联数据;
2.文本挖掘及分类技术;
3.信息抽取等
(2)查看相关文献可得国内外研究热点
国内研究热点:
1.文本聚类,搜索引擎与用户行为分析
2.自然语言处理和问答系统
3.多媒体检索
4.信息检索的模型、算法
5.文本分类、文本表示和信息安全
国外研究热点:
1.网络信息检索;
2.用户信息检索行为研究,集中在:信息检索行为理论研究、特殊群体信息
检索行为、信息检索行为的影响因素研究等方面;
3.信息检索模型研究,主要集中在:信息检索建模、传统模型的改进、语义
检索模型(如基于本体的检索模型)、模型的评估与应用等;
4.信息检索系统研究,该主题的研究集中在:信息检索系统的开发方法、发
展改进、评估、系统与用户的关系及系统应用实例研究等方面,涉及最
典型的系统类型就是语义检索系统,诸如基于本体的检索系统、多词标
注的云信息检索系统等;
5.信息检索相关性与分类研究;
6.信息检索技术研究,集中在:语义技术、基于内容的信息检索技术、多智
能体技术、自然语言技术、基于网络的技术、问答技术、结构化文档检
索(Structured Document Retrieval, SDR)技术、移动代理技术(mobile agent technology)、跨语言检索技术、数据融合(Data Fusion)、模糊
信息检索技术等方面。
四、6个词的含义与区别
(1)含义
信息检索:是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术,狭义的信息检索就是信息检索过程的后半部分,即从信息集合中找出所需要的信息的过程;
信息过滤:依据用户的兴趣和对信息的需求,对信息进行筛选,去掉用户不需要的、无用的信息,得到符合用户兴趣的信息,这个过程就叫做信息过滤;
信息分类:即根据既定原则对已有的信息进行分类;
信息抽取:就是根据一个事先定义好的、描述所需信息规格的模板,从非结构化的文本中抽取相关信息的过程。这个模板通常说明了某些事件、实体或关系的类型;
信息浏览:信息检索后,用户对信息选择之前的过程,其主体为用户;
信息推荐:根据用户以往的信息需求,自动向用户推荐相似的信息,其主体为计算机系统,对象为用户。
(2)区别
信息过滤和信息检索的区别在于,信息检索根据用户的需求,从大量信息中查找信息的过程,在这个过程中发生了筛选行为,因此可以说信息检索中发生了信息过滤行为。但是有了信息过滤行为并不一定有信息检索行为,比如某些信息提供机构主动屏蔽一些有害的信息。
信息分类是信息检索的前提,它是对信息的整理和排序,以便人们更加方便的使用。信息分类可以说是信息的重组,并没有丢失信息,而信息过滤则是丢失了一部分信息。
信息检索从文档库中检索相关的文档,而信息抽取是从文档中取出相关信息点。这两种技术因此是互补的。若结合起来可以为文本处理提供强大的工具。信息检索和信息抽取不单在目的上不同,而且使用的技术路线也不同。部分原因是因为其目的差异,另外还因为它们的发展历史不同。多数信息抽取的研究是从以规则为基础的计算语言学和自然语言处理技术发源的。而信息检索则更多地受到信息理论、概率理论和统计学的影响
信息抽取可以帮助人们快速找到和浏览文本中的有用信息。在这个过程中没有发生选择的行为,它是一种直达目标的行为,而信息过滤则要分析什么信息该保留、什么信息该过滤。