基于 Web 的信息检索技术综述
如何综合利用各种检索系统做文献综述
案例演示一
万方数据 知识脉络分析 看“应急物流”的发展趋势
案例演示二
Web of Knowledge(引文报告) 查看“Emergency Logistics”的发展趋势
如何选择检索系统做文献综述 第二步,选择检索系统
资源:81个外文、31个中文检索平台,共约300多个数据库子库; 原则:充分考虑文献类型、时间和学科范围、检索和输出功能等因素。
如何选择检索系统做文献综述 第二步,选择检索系统
其次,选择Ei(工程索引), 涵盖所有的工程领域;22%的会议文献,90%的英文;1992年开始收 录中国期刊。 再次,考虑SciFinder、 Springer、 IEEE/IEE等专业数据库,前者是 全世界最大、最全的化学科学信息数据库;后两者是计算机方面专 业库。 也可以 Elsevier、Wiley、EBSCO等综合性全文数据库作为补充。
相关概念 三、文献综述的特点
涉及范围较小,专题性强,具有一定的深度和时间性。 综合性:综述文献要“纵横交错”,既要以某一专题的发展为主线, 反映其发展历史和当前的进展(时间-纵深);又要从本单位、本省、 国内到国外,进行横向比较(空间-横向)。 评述性:综述中会比较专门地、全面地、深入地、系统地论述某一 方面的问题,对所综述的内容进行综合、分析、评价,反映作者的 观点和见解,并与综述的内容构成整体。 参考性:综述能反映出某一专题的历史背景、前人工作、争论焦点、 研究现状和发展前景等内容,具有较高的情报学价值;引文多。
资源全面(文献类型、时间、学科范围);检索平台好用(检索、分析和输出 等功能都强大)
如何选择检索系统做文献综述 第二步,选择检索系统
检索国内文献 其次选择: 万方数据(/?): 期刊、学位论文(1980-)、会议、专利、标准、成果、法规等(全 文)。学位论文更全。 维普中文期刊全文数据库 : 包含中文期刊 12000 余种,全文 2300 余万篇,引文 3000 余万条。 期刊比较全。 读秀(/): 228万种中文图书,给出各种可能的获取途径。图书比较全。
医学文献检索试题(含答案)
医学文献检索试题(含答案)医学文献检索试题(A)《医学信息检索》试题一、名词解释(共 5 题,每题 3 分,共 15 分) 1. 信息素养 2. 引文检索 3. 索引 4. 书目数据库 5. 元搜索引擎二、单项选择题(共 15 题,每题 2 分,共 30 分) 1. 关于信息的说法错误的是( B)。
A.信息是客观事物的运动状态和特征的反映B.信息是客观的C.信息是无形的,不断变化发展的 D.信息的存储形式有多种 2. 以下属于二次文献的是( C )。
A.述评B.研究报告C.索引D.专著 3. 检索文献数据库时,下列哪种方法不能扩大检索范围( A )。
A. 主题词加权 B. 用OR C. 用主题词扩展 D. 采用截词 4. 哪个途径是从文献的内部特征进行检索的( A )。
A. 分类途径B. 号码途径C. 作者途径D. 刊名途径 5. 下列说法中错误的是(D )。
A. 综述是有关研究某一问题或某些问题的文章B. 综述是从一定时间内的大量的文献中摘取的情报 C.综述是对特定的问题利用有关的情报进行的综合性叙述 D.综述的目的是建立新知识6. 计算机文献检索中,每一种文献特征对应于计算机数据库中的( C )。
A. 一条记录 B. 一篇文献 C. 一个字段 D.一个文档 7. 下面哪个检索式的作用与短语检索\camera\等价:( A )。
A. digiatal (W) camera B. digiatal (N) camera C. digiatal AND camera D. digiatal OR camera8. Medline光盘数据库的内容涵盖三种重要的纸本医学文献检索工具,它们是( D )。
A. BA、IM、EMB. BA、EM、International Nursing IndexC. BA、Index to Dental Literature、International Nursing IndexD. IM、Index to Dental Literature、International Nursing Index 9. 检索工具的功能主要体现在( C )。
Web of Science(检索与利用)共35页文档
举例:
检索课题:流媒体
如果结果不满意,可二次检索 ★refine——快速获得高影响力的综述
检索结果排序 ★快速锁定高影响力论文
强大的分析功能 可对100000条记录进行多层次分析
★强大的分析功能 - 能够处理10
万条记录
8个字段的深入分析: 出版年 著者 研究机构 来源期刊 学科领域
Web of Science的两种入口
Web of science 检索界面
Web of Science 检索方式
1.常规检索——
检索特定的研究主题,检索某个作者发表的论文、检索某个研究机构 发表的文献,检索特定期刊特定年代发表的文献。
通过结果分析:
– 追踪溯源:检索某个课题的综述文献 – 快速锁定本课题相关的高影响力的论文 – 快速找到该研究领域的学术专家 – 分析研究发展趋势 – 了解某特定课题在不同学科的研究情况 – 了解与自己研究方向有关的机构 – 密切关注该研究领域顶尖研究小组所发表的论文
Web of Science 检索与利用
(一)认识 Web of Science
Web of Science(简称WOS)是美国情报研究所 (ISI)2019年出版的一个基于Web的引文数据库。通 过它可以访问ISI的五大引文数据库SCI、SSCI、 A&HCI、CPCI-S、CPCI-SSH
★当您浏览这些共被引的参考文献时,您
会 发现一组核心论文经常会同时被多篇文章 所引。这些核心论文往往可能是您所从事 的研究领域的最为重要的文章。
从一篇已知文献出发, 了解课题的最新进 展及其应用, 拓展研究的思路
Related Records 越查越深
引文数据库的功能
快速和全面的搜集某个主题、领域的文献信息 探索一个想法、概念由最初提出至今的发展及应用 跟踪某研究领域/某课题的最新进展(文章、学者、
基于Web的网络管理平台研究综述
也 已经 有 一些 产 品 问世 , 些有 代 表 性 的 活动 目标 过 高 而 构成 网络 学 习 障 碍 。 一 ( ) 一 国内外 关于网络管理平 台的研 研 究如下: V l s系统 、 金海 航新数字 ( ) 三 研究趋势 “ ca ” s “ 究现 状 。 网络 管 理平 台是 高 校 数字 化 校 园 学 校 ”“ 正 校 园 解 决 方 案 ”“ C 、方 、T L开 放 1辅 助 日常 教 学 的研 究 。 、 由于 网络 管 、Βιβλιοθήκη 研 究综 述 与 分 析
建设 的一项重要 内容 。目前 , 网络管理平 教育 平 台 ” 。
台 的 发展 经 历 了 几个 阶 段 : 最初 的 网络 管
理平 台能够满 足教师教 学及 管理 的各种
国 内开 发 出 的产 品各 具 特 色 , 些 较 需 求 ,具 有 符 合 新 课 程 理念 的 教 学 环境 , 有
信息检索与利用综述
二、利用超星数字图书馆查找本课题相关的图书。
(1)检索工具:超星数字图书馆三、利用一站式读秀学术搜索查找本课题相关的图书。
(1)检索工具:一站式读秀学术3.2 中文数据库检索3.2.1中国期刊全文数据库(CNKI)在高级检索的单片机课程设计字段所得结果的基础上,选用"作者单位" = 重庆大学,得到 2 篇文献。
任选2篇文献改写成标准参考文献格式:参考文献格式:《System-on-Chip Design and Implementation》作者:Brackenbury, L. E. M.; Plana, L. A.; Pepper, J.ISSN:0018-9359页数:102)高级检索截图:3)在检索结果中选择1篇改写为标准参考文献格式:[3-channels data acquisition system based on single-chip-microcomputer used in the measurement of coronary sinus blood flow].2、利用石河子大学整合检索查找自选课题文献。
3.5 互联网信息资源检索和文献传递系统利用1、任选Google或百度,利用逻辑算符和以下字段算符构建策略,2、利用新疆兵团NSTL服务站点查找自选课题文献。
http://202.201.163.19 ,检索结果(截图,包括注册用户名和传递2篇文献的文献订购号、文4、综述(1000字以上)单片机(Microcontrollers)是一种集成电路芯片,是采用超大规模集成电路技术把具有数据处理能力的中央处理器CPU、随机存储器RAM、只读存储器ROM、多种I/O口和中断系统、定时器/计数。
信息检索文献综述
信息检索文献综述前言:关于信息检索技术的文献综述,一、信息检索技术现状,信息检索技术综述,信息检索技术实现了把信息检索从基于关键词层面提高到知识层面,从传统的基于关键词的检索到吸引广大研究者眼球的语义检索,传统的基于关键词信息检索,语义检索是把信息检索与人工智能技术、自然语言处理技术相结合的检索技术,它从语义理解的角度分析信息对象和检索者的检索请求,提高了检索性能,语义检索技术将有一个长期深入研究的过程。
关于信息检索技术的文献综述一、信息检索技术现状【1】梁鸿雁,信息检索技术综述,2010(9),软件导刊,35~37,在现有研究的基础上,信息检索技术实现了把信息检索从基于关键词层面提高到知识层面。
从传统的基于关键词的检索到吸引广大研究者眼球的语义检索。
实现了把信息检索从基于关键词层面提高到知识层面。
传统的基于关键词信息检索,已取得了很大的成功,但是它不能从根本上表达用户的查询请求。
语义检索是把信息检索与人工智能技术、自然语言处理技术相结合的检索技术,它从语义理解的角度分析信息对象和检索者的检索请求,提高了检索性能。
但由于自然语言理解和人工智能等领域的局限,语义检索技术将有一个长期深入研究的过程。
二、信息检索技术类型及方法【1】赵阳,浅谈信息检索技术,2012年11月,科技创新与应用,45,介绍了当今比较热门的两种信息检索技术:第一,智能检索或知识检索传统的全文检索技术基于关键词匹配进行检索,智能检索利用分词词典、同义词典,同音词典等改善检索效果,还可在知识层面或者概念层面上辅助查询,通过主题词典、上下位词典、相关同级词典,形成一个知识体系或概念网络,给予用户智能知识提示,最终帮助用户获得最佳的检索效果。
第二,知识挖掘,目前主要指文本挖掘技术的发展,目的是帮助人们更好的发现、组织、表示信息、提取知识,以满足信息检索的高层次需要。
【2】孙广维,多媒体信息检索技术的研究,2012,6 ,吉林建筑工程学院学报,79~81,作者提出传统的多媒体检索方法处理比较简单,有的仅通过多媒体的外部属性和简单的文字描述进行检索,还脱离不了文本、数值和关键词的检索范畴,对图像、音频、视频信息则只有浏览或查看功能,缺乏多媒体本质特征的描述,在多媒体数据库中集成了图像、视频、音频等非文本信息,这样我们就可以用图像、音频、视频信息方便的进行检索。
搜索引擎技术、现状、以及未来发展趋势的文献综述(可编辑优质文档)
搜索引擎技术、现状、以及未来发展趋势的文献综述(可编辑优质文档)(可以直接使用,可编辑完整版资料,欢迎下载)搜索引擎技术、现状、以及未来发展趋势的文献综述[摘要]随着最近10年中国互联网的快速发展,互联网已经彻底改变了人们的生活方式,而在互联网的发展过程中,搜索引擎发挥了巨大的推动作用。
本文对搜索引擎的发展历史,采用的技术,发展现状,出现的问题以及未来发展方向进行了综述,让读者对搜索引擎有个宏观的了解。
[关键词]搜索引擎,汉语分词,调查报告[正文]一、搜索引擎概述搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,并将处理后的信息显示给用户,是为用户提供检索服务的系统。
从使用者的角度看,搜索引擎提供一个包含搜索框的页面,在搜索框输入词语,通过浏览器提交给搜索引擎后,搜索引擎就会返回跟用户输入的内容相关的信息列表。
二、搜索引擎的重要发展历程1. 1990年,Montreal的McGill University三名学生(Alan Emtage、Peter Deutsch、Bill Wheelan)发明Archie(Archie FAQ),成为所有搜索引擎的祖先。
2. 1993年,MIT Matthew Gray的World wide Web Wanderer,是世界上第一个Spider 程序。
3.1994年4月,杨致远和David Filo共同创办了Yahoo!。
4.1995年,一种新的搜索引擎形式出现了——元搜索引擎(Meta Search Engine),即Washington大学硕士生 Eric Selberg 和 Oren Etzioni 发明的 Metacrawler。
5.1996年8月,sohu公司成立。
6.1998年,Google成立。
7. 2000年1月,两位北大校友,超链分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇(加州伯克利分校博士后)在北京中关村创立了百度(Baidu)公司。
信息检索技术
两个最常用的相关性指标是:精确度和 召回率
一、信息检索技术综述
3、信息检索系统的评价
精确度:是检索获取的相关数据记录个数 与检索获得的所有数据记录个数的比值。 它反映了系统能够返回与用户查询相关数 据记录的能力。
召回率:是检索获取的与用户查询相关的 数据记录个数与数据全集中所有与用户查 询相关的数据记录个数的比值。反映了系 统能够找到全部相关数据记录的能力。
插入内容:倒排索引
aaa 1 bbb 1,2 ccc 1 ddd 1,2 yyy 2 当建好了上面所示的倒排索引后,一旦我们要 查找哪些文章中含有某个关键字时,只需取出 该关键词所对应的文章号就行了。 比如我们查找aaa,返回1.查找ddd,返回1,2
一、信息检索技术综述
2、信息检索系统
数据库管理模块:将文档以数据库的格 式存储、管理和访问,
二、信息检索的统计模型
(1)词频与倒文档频度法 该方法将一个索引词在单个文档中的重要性和在 整个数据全集中的重要性结合起来,成为一个统 一度量。 一个词在文档中出现的频度是该词重要性的标志 之一,wi,j=TFi,j=freqi,j(索引词Ki在文档dj中的频度)
一个索引词的权重还应该与该词所在的文档总数
信息检索技术
一、信息检索技术综述 二、信息检索的统计模型 三、信息检索中的自然语言处理方法
一、信息检索技术综述
1、信息检索系统的定义与术语 2、信息检索系统 3、信息检索系统的评价 4、信息检索简史
一、信息检索技术综述
1、信息检索系统的定义与术语
信息检索,最早是1952年由Calvin N.Mooers提出 的,其原义包括海量信息的存储和查找两个方面的内 容。
Web of Science数据库的特点及其检索方法
会议摘要 新闻 再版 综述
软件评论
Web of Science的基本概念: (二)收录文献的参考文献并建立索引
Cited Work 被引用的各种文献类型:
• • • • •
期刊文献
学术著作
专 会议文献 技术报告 利
文献的相互引证----学术研究之间的交流与 联系:
•
学科上的相关性
• •
理论与方法:借鉴与利用 技术与手段:应用与发展 实验或方法:互相参照与借鉴 结果与讨论:比较与应用
ISI Web of Knowledge
•
ISI Web of Knowledge是一个基于互联网(WWW)所建立的新 一代学术信息资源整合体系,如图3.1所示。它将各种高质量的 信息资源整合在同一系统内,为不同层次、不同学科领域的学 术研究人员提供信息服务,兼具知识的检索、提取、管理、分 析和评价等多项功能。网址:
Title: RESIDUAL EFFICACY OF TYPHULA PHACORRHIZA AS A BIOCONTROL AGENT ON GREY SNOW MOLD ON CREEPING BENTGRASS
检索词必须出现在同一句子中(这里所说的一句是指两个句号之间 的字符串),检索词在句子中的顺序是任意的。 Topic: (greenhouse or green house) same emission* Address: Houston sent Texaco
•
•
Web of Science 由3 个独立的数据库组成,可独立也可单独检索
Science Citation Index Expanded科学引文索引
收录的期刊6,199 ,每周新增的记录19,200,每周新增的引文数 423,000
WEB OF SCIENCE检索
个性化服务
检索界面
语种切换
注册及其他信息
功能条
检索界面
年份限制及子库选择
Web of Science的检索功能 Search 检索 主题、题名、作者、团体作者、出版物 名 称、出版年、地址、语种、文献类型 Cited ReferencSearch 被引参考文献检索 被引作者、被引文献、被引年代 Structure Search 化学结构检索(绘图) 适用于同时开通ISI Chemistry的用户 Advanced Search 高级检索
6.Zoological Record(1978-至今)
• 世界领先的分类参考文献和历史最悠久 的动物学数据库。 的动物学数据库。 • 确定动物名称的首次出现、记录分类变 确定动物名称的首次出现、 及时了解新生及濒危物种。 化、及时了解新生及濒危物种。
7.Journal Citation Reports
5.如何得知某篇文章提出的理论是 怎样发展和被应用的?
通过Web of Science提供的独特的引文检 索途径,您可以以一篇文章、一个作者 、一个期刊、一篇会议文献或者一本书 作为检索词,进行被引文献的检索,从而 , 了解某一理论有没有得到进一步的证实 ?是否已经应用到了新的领域?某项研究 的最新进展及其延伸如何等。
Web of Science的检索功能
• Search 检索 主题、题名、作者、团 体作者、出版物名称、出版年、地址、 语种、文献类型 • Cited ReferencSearch 被引参考文献检索 被引作者、被引文献、被引年代
Cited Ref Search被引参考文献检索
统一搜索、检索系统概要
统一搜索门户综合搜索功能架构
客户 业务运营 人员
搜索平台管理
搜索应用配置 搜索应用视图管理 搜索应用监控维护
展 门户搜索 现 搜索框 层 搜 索 引 擎 子 系 统
基础检索
搜索首页
搜索结果页
高级搜索页面
统一搜索综述
定义
定位 特点 发展
• 统一搜索产品是基于开源框架,针对网页内容,商品、多媒体以及应用的搜索产品,包括爬虫引擎, 索引引擎、检索引擎、智能推荐引擎、框计算接口平台、运营支撑平台等子系统和应用组件。有核心 的搜索引擎算法和专业的技术架构做有力的支撑。
• 面向搜索用户,提供信息检索的入口和渠道,完成从接受搜索词到返回搜索结果的关键流程,同时还 要完成对搜索内容的采集与分析、建立索引的工作。
索引分发
直达管理 推荐管理 搜索结果管分类 数据去重 数据输出
词库管理
工单管理
一级门户
各省门户
移动商城
一级WAP
客户端
统计分析
统一搜索门户综合搜索系统架构
统一搜索采用总部一点建设,包括搜索引擎子系统和运营管理子系统两部分。 搜索引擎子系统包括:搜索门户、数据处理、索引维护、信息采集、基础检索 运营管理子系统包括:管理门户、业务运营管理、平台运营管理、系统运营管理 客户
相关度排序
高级搜索 多媒体搜索 搜索直达 商品直达 与或非搜索 site指令
热门搜索词
广告 一键办理功能
向移动端方向发展
实现方式:统一搜索以嵌入的方式,为总部和省公司提供搜索服务能力,将统一搜索已经在PC端实现的 一键办理等特色业务扩展到移动端;
信息检索技术(讲授版)
3.常规法
所谓常规法就是利用常规检索工具查找有关文献的方法,是信 息时代应掌握的最基本的信息查找方法。现在对文献的书目控制手 段已日趋完善,各种印刷版、缩微版、光盘版和网络版的检索工具 层出不穷,有很大的挑选余地。用户应根据自己的检索知识和条件 选用一种或几种检索工具。常规法可分为顺查法、逆查法和抽查法。
分类检索的步骤:
1。分析待检课题,确定其学科,并厘清学科间的各种关系。 2。查出待检课题的分类号(工具简单时可以省略) 3。选择适当的检索工具 4。进入检索系统后选择分类号途径,并在对话框内输入分类号,开 始检索。 5。对比题目,阅览相关信息,选出所需信息,并下载相关信息
6。原文的索取
《中图法》结构
二级类目
三级类目
四级类目
五级类目
…
中图法8种复分表
4/18
《中图法》五大部类
马克思主义、列宁主义、毛泽东思想
哲学 宗教
社会科学 自然科学
综合性图书
5/18
《中图法》结构
1)类目结构
F 经济
一 级 类 目
6/18
F、经济类 F0 经济学 F1 世界各国经济概况、经济史、经济地理
4.排除、限定和合取法
这实际上是将信息加工的方法融入检索中去。思维中使用排除这一 概念,是指对查找对象的产生和存在的状态在时间和空间上加以外在 否定。把这一方法移植到检索中,就是在时间或空间上极大地收缩检
索范围。限定法是相对于排除法而言的,指对查找对象在时间和空间
上加以内在的肯定。排除的结果必然是限定,反之亦然。
16/18
图书馆图书标识:索书号
图书馆同一分类号的文献数量很多,为了区别相同类号的文献,在 分类号的基础上,又给了一个区分符号,这个符号称之为书次号。书 次号与分类号一起共同构成索书号。浙江传媒学院图书馆的文献就是 按照索书号的顺序排架管理的,书次号使用的是著者号,同样以字母+ 数字标明。。 中文书索书号如:
Web-of-Science简介与文献检索
32
文Electrochemical performance of Li 2 FeSiO 4 as a new Li-battery cathode material
选择文献来源,通常选择全文数据 库如艾斯维尔;但是researchgate 有时会提供全文免费下载 33
31
文Electrochemical performance of Li 2 FeSiO 4 as a new Li-battery cathode material
1
输入搜索题目或 者条件
2
选择来源
文Electrochemical performance of Li 2 FeSiO 4 as a new Li-battery cathode material
找到目标文献 可以下载
34
文献检索的其他方法
全球科研人员的网站,很多人上传了自己的作品,可以搜索,免费下载,也 可以跟原作者索要文献。
36
参考文献
张丹丹: Web of Science数据库知识用法 张 帆: Web of Science数据库的功能与作用
37
谢谢参与!
38
遇到上述情况,就需要根据自己已知的一些信息来查询,如文章作者 、题目、期刊的名称、年份、卷、期、页码或者D按照期刊、卷、期等信息进行查询。
20
典型数据库检索举例
常见的数据库: 艾斯维尔:/ Wiley : / ACS : / RCS : / 学位论文 : /(英文)中国知网 (中文)
/full_record.do?product=WOS&search_mode=GeneralSear ch&qid=3&SID=4FRpDGUw3vxe3dzuiCp&page=1&doc=1 (求助文献时,最好不要提供这 样的网址 )
Web of Science数据库的特点及其检索方法
•
•
横向上的对应性
• •
纵向上的继承性
• • •
ห้องสมุดไป่ตู้
课题的基础与起源
发展与进步 反引:学术争鸣
检索中适用的连接符(一)
NOT
检索中适用的连接符(二)
默认为词组 检索 输入两个或 多个单词默 认为词组 邻近算符 Same
输入词组检索时,检索到的记录中,出现的是同样的词组,词的顺序与 检索式相同。 Topic: biocontrol agent
会议摘要 新闻 再版 综述
软件评论
Web of Science的基本概念: (二)收录文献的参考文献并建立索引
Cited Work 被引用的各种文献类型:
• • • • •
期刊文献
学术著作
专 会议文献 技术报告 利
文献的相互引证----学术研究之间的交流与 联系:
•
学科上的相关性
• •
理论与方法:借鉴与利用 技术与手段:应用与发展 实验或方法:互相参照与借鉴 结果与讨论:比较与应用
Web of Science数据库的 特点及其检索方法
万跃华
E-MAIL:info@
基于ISI Web of Knowledge平台
网址:
参考数据库
•
参考数据库,指包含各种数据、信息或知识的原始领域和属性的数据 库。数据库中的记录是通过对数据、信息或知识的再加工和过滤,如 编目、索引、摘要、分类等,然后形成的。一般来说,参考数据库主 要是针对印刷型出版物而开发的。 参考数据库主要包括:书目数据库、文摘数据库、索引数据库。参考 数据库最重要的用途是用于搜集文献线索,快速和全面地查询某个学 科、领域或主题的文献。 参考数据库另一个主要用途是用于个性化的用户定制服务,如最新目 次报道、定题服务和回溯检索。 参考数据库还可以用来进行各类统计和评估工作,如统计期刊、个人 或机构等的发文量、统计文章被转载和引证的情况,评估期刊的影响 力等。
WebGIS发展综述
WebGIS发展综述一. WebGIS的概念地理信息系统 (GIS,GeographicInformationSystem)是采集、存储、管理、检索、分析和描述整个或部分地球表面与空间地理分布数据的空间信息系统。
21世纪互联网络(Internet)的迅速崛起和在全球范围内的飞速发展,使万维网(World Wide Web简称WWW或Web)成为高效的全球性信息发布渠道。
随着Internet技术的不断发展和人们对地理信息系统(GIS)的需求,利用Internet 在Web上发布和出版空间数据,为用户提供空间数据浏览、查询和分析的功能,已经成为GIS发展的必然趋势。
万维网地理信息系统是在Internet或Intranet网络环境下的一种兼容、存储、处理、分析和显示与应用地理信息的计算机信息系统。
WebGIS,就是利用Web技术来扩展和完善地理信息系统的一项新技术。
随着近年来计算机技术的发展,GIS在组成结构和应用技术等方面已与传统的GIS技术有了很大的不同,而基于Internet/Intranet的WebGIS则是GIS技术发展的新趋势。
具体地讲,WebGIS的应用可以分为以下几个层面:1.空间数据发布由于能够以图形方式显示空间数据,较之于单纯的FTP方式,WebGIS使用户更容易找到需要的数据;2.空间查询检索利用浏览器提供的交互能力,进行图形及属性数据库的查询检索;3.空间模型服务在服务器端提供各种空间模型的实现方法,接收用户通过浏览器输入的模型参数后,将计算结果返回。
换言之,利用Web不仅可以发布空间数据,也可以发布空间模型服务,形成浏览器/服务器结构(Browser/Server,B/S)。
4.Web资源的组织在Web上,存在着大量的信息,这些信息多数具有空间分布特征,如分销商数据往往有其所在位置属性,利用地图对这些信息进行组织和管理,并为用户提供基于空间的检索服务,无疑也可以通过WebGIS实现。
文献检索Web of Science
4.列出检索词,实施检索策略
关键词的选择—— 应以课题提供的关键词为参考 选定的关键词应符合主题;确认关键词是否为规范词;并应列 出常用中外文同义词、缩写词, 以及核心关键词的上下位类词。 应充分利用词表、辞海、术语标准、词典等工具书,以及从已 检出的文献中,复核、筛选、补充、精炼检索用词。
关键词的选择应注意—— (1) 应覆盖检索主题 (2) 寻找常用同义词 (3) 词的全称、简称及缩写 (4) 必要时应向上下位类词扩检 (5) 合理使用词组或短语 (6) 规范词的利用
Derwent innovations index 《生物学文摘》BA, BIOSIS 《科学文摘》 SA、 INSPEC MEDLINE® (1950-至今)
3.确定检索途径
• 合理选择检索字段 • 一般选择:“主题”、“摘要”、“关键词”等字段
• 检索密切相关文献时,可在“标题”字段检索 • 命中结果过少时,可选择“全文”字段检索
• (earthquak* or tembl* or seism* or earthshock* or earthdin*) and (tsunami* or "seismic sea wave" or "ground sea" or megatsunami or "tidal wave*")
Tips:
*
$
?
只代表一个字符 en?oblast entoblast, endoblast
Exact Search 精确检索
词组检索 如果希望精确地检索某个短语,应将其放置在引号内。 范例: “stem cell” • Topic: electromagnetic field • Title: • Mathematical model of electromagnetic elimination in tubule with high frequency magnetic field • Topic: ―electromagnetic field‖ • Title: • Reproduction of lightning electromagnetic field waveforms by engineering model of return stroke
Web检索查询意图分类技术综述
一
・ 用户 对 自 己的 信息 需 求 进 行 概 括 。 因为 各
种 用 户 所 具 有 的 不 同 的 背 景 , 致 不 同 的 用 户 可 能 导
收 稿 日期 :2 0 9 1 定 稿 日期 :2 0 一 l2 0 70—6 0 7l一3
基 金 项 目 :国 家 自然 科 学 基 金 资 助 项 目 ( 0 0 0 4 ; 家 9 3课 题 资 助 项 目( 0 4 B 1 1 9 6 639)国 7 20C 380 )
作者 简 介 :张 森 (9 3 ) 男 , 士 生 , 1 8一 , 硕 主要 研 究 方 向 为 文 本 信 息 检 索 ; 斌 ( 9 2 ) 男 , 士 , 研 究 员 , 王 1 7一 , 博 副 主要 研 究 方 向 为信 息检 索 和 自然 语 言 处 理 。
维普资讯
第 2 2卷 第 4期 20 0 8年 7月
中文 信 息学报
J OURNAL OF CHI NES NFORM ATI EI ON PROCES I S NG
Vo | 2 l 2,No 4 .
J l,2 0 u_ 0 8
Hale Waihona Puke 文 章 编 号 :1 0 — 0 7 2 0 ) 40 7 — 8 0 30 7 ( 0 8 0 —0 50
关 键 词 : 算机 应 用 ; 计 中文 信 息 处 理 ; 自动 查 询 分 类 ; 询 意 图分 类 ; 类 方 法 ; 据 集 ; 征 提 取 ; 器 学 习 查 分 数 特 机
中 图 分 类 号 :TP 9 3l 文 献 标 识 码 :A
基于WEB的毕业设计管理系统设计与实现文献综述
基于W E B的毕业设计管理系统设计与实现文献综述Pleasure Group Office【T985AB-B866SYT-B182C-BS682T-STT18】基于 WEB的网上书城Array系统设计与开发文献综述专业班级:姓名:学号:2017年12月[摘要]经过详细的调查,目前我国各类高等学校中有相当一部分单位图书资料管理还在使用传统的人工管理方式,这种方式效率低、保密性差、出错率高且较为繁琐。
另外,随着图书资料数量的增加,其工作量也将大大增加,这必将浪费许多人力和物力,给图书资料信息的查找、更新和维护都带来了很多困难。
随着计算机技术的飞速发展和广泛普及,业务处理信息化已经渗透到各行各业的工作当中,在图书管理领域,图书管理系统成为目前图书馆建设的根本目标,它的建设对于图书馆的管理员和使用者来说都至关重要。
使用计算机对图书信息进行管理,有着“检索迅速”、“查找方便”、“可靠性高”、“存储量大”、“保密性好”、“寿命长”、“成本低”、“便于打印”等诸多优势,这些优势能够极大地提高图书管理的效率。
也是图书馆的科学化、正规化管理,与世界接轨的重要条件。
因此,开发一套图书管理系统是非常必要的事情。
[关键词]图书管理;计算机系统;javaweb2.管理系统的系统分析和系统设计.系统分析本系统使用JSP进行网页界面的设计,使用MVC设计模式,采用JAVAWEB进行开发。
后端的数据库采用Mysql,通过JDBC驱动和数据库进行无缝连接。
系统实现了用户注册、用户登录、图书管理、图书借阅管理等功能模块。
用户注册模块实现了学生在系统中注册用户的功能;用户登录模块实现用户的登录和权限判定;图书管理模块实现了对图书的添加、删除、修改、查询等功能;图书借阅管理模块实现了学生对图书的借阅、还书的查看等功能。
本系统以学校的图书馆为开发背景,利用开发工具的强大功能,本系统从图书的录入到查询浏览,读者的借阅到归还,都形成了一个自动化的管理模式,改善了图书的管理,也提高了工作效率。
WEB信息检索综述
张 培 宾
( 州航 空 工业 管理 学院 图书馆 , 南 郑 州 4 0 1 ) 郑 河 5 05 摘 要: 本文对 目前 比较 常用的几种 We 信 息检 索工具及 其功能进行 了 绍 , b 从检 索工具 、 索技 巧和发晨, 检 劳荨兄个另回进行 了 分 析 , 对 We 息 检 索 的发 展 趋 势 进 行 了分析 和 预 测 。 并 b信 关键 词 : }信 息检 索 ; 索 工具 ; 索技 巧 we 】 检 检 2 b信息 检 索 的一 些 关键 技 术 。2 .基 于 内容 的 检索 技 术 。 . We 2 .1 2 1概述 因特网上丰富多彩的 We b信息资源给人们带来 _巨大的便利, r 每 We b是一个分布式的、 全球性 的数字图书馆模型 , 它的 U L相当于地 R 常因 U L会变动而导致搜索的返 回结果 R 天上网浏览新闻, 收发邮件 , 检索相关资料等几乎成 了人们每 日必需的 址的文件标识器。而现实中 , 道:作餐 。不论是哪种类型的网络信息, I : 一般 情况下 , 我们不知道其 变得无用。另一种代替 U L来定位搜索 目标 的方法是基于内容的方 R 它是一个包含关键词的表, 可作为检索 目标 网页的查询条件。这种 在网上存储的地址, 也尢法记住那么多内容的地址 。另外 , 其他一些媒 法 , 体如图像 、 音频和视频也大量存在。We b是一个非常大的 、 非结构化且 查询 称 为基 于 内容 的 寻址 , 要查 询 。它 的优点 是 , 或概 当一个 目标 网页 基于内容的寻址定位也不会改变 , 从而仍然可以得出正确的检 无处不在的数据库, 这就需要有效的T具来管理 、 检索和从数据库 中筛 移动时 , 互联网上存在着多种格式的文档 , 除了文本之外还 选信息。为了有效地查询和利用网上信息 , 人们开发 了各种 We b信息 索结果。另~方面, 音频、 视频。 『 人f使用搜索引擎式基本上都是进行文本搜索, 1 对 检 索 系统 , 索 引擎 (erhE g e ) 是 一类 能 自动 搜索 , 织 有图像 、 即搜 Sac n i s。它 n 组 We 信息 资源 , 供检 索服 务的信 息服 务系统 。 b 并提 多媒体内容 的检索技术 尚不成熟 。就此问题 目前提 出了基于内容的图 We b信息检索的基本形式有三种。 第一种搜索引擎 , 它标引一部分 像检索技术 ,其1 作原理是 ,由机器 自动提取包含图像 内容的可视特 二 网络 文献作 为 一个 全 文数 据库 ; 二 种 是 We 第 b目录 , 按 主题 来 对所 征 : 它 颜色 、 纹理 、 形状 、 对象的位置和相互关系等。对数据库中的对象和 检索与样本相似的图像。2 . .2 2 选的 We, t文献进行分类 ; 三种还没有完全成熟 , 第 却利用超链接结构 查询样本图像在特征空间进行相似匹配 , 自 然语言处理技术。 自然语言处理长期以来一直是人工智能的一个核 来检 索 网络 。 人 1 实现 We . 1 b信息检索的条件 。实现 We 信息检索必须具备 包 心研 究 领域 。比较 基础 的技 术有 自动分 词 、 名和机 构名 的 自动 识别技 b 资源, 信息处理干信息传输这j大条件。 u 其中, 信息资源指对各种信息进 术 、 自动标引技术等, 其它像信息抽取 、 自动文摘 、 文档 自动分类 、 中文 行分类 , ,l , , 汇总 力1 组织 按照客观事物的相互关联建立起来 的有序结 概念词的 自动发现以及概念词之间的语义关系的确定等复杂技术也都 工 构 ; 处理 指利 用计算 机信 息 进行 的~ 系列筛 选 , 信息 反馈 , 匹配 , 算 等 必不可少。 计 应用了这些技术的搜索引擎我们称之为智能搜索引擎。 实现 语义理解 、 知识管理和知识检索 。 其中, 加]操作 ; 息传输指人和计算机借助通信 网络进行的信息传递和交 智能搜索的过程主要分三部分 : : 瞧 流。 因此, 信息经济学专家提出: “ 信息网络是现代通信 网, 算 机网和信 知识库是实现智能搜索的基础和核心。.3 l } 1 2 .集成搜索引擎技术。 2 这种技 息资源网的综合 , 现代通信 , 电子计算机 , 信息资源( 息内容 ) 信 三者互相 术是将搜索引擎系统建立在多个现有的搜索引擎之上,提供对这些引 渗透 , 连接 , 合而形 成的全方 位的服 务网络 。 联 这 种网络按 不 同途 径发 擎进行统一访 问的服务 。 集成搜索引擎 自己并不维护所有文件的索引。 但是 , 了提供 更好 的服 务 , 个 复杂 的集成 搜索 引 擎通 常会维 护一 些 为 一 展, 往信息资源开发 , 利用和共享这个方向下趋向三网合一” 。 1 面 临的主要 难题 。主要 有两类 : 本 身 的问题 和用 户及其 检 关于底层搜索引擎内容 的信息。当向集成搜索引擎提 【查询以后 , . 2 数据 叶 I 它能 索系统交互的问题。 数据的分布. 数据分布在许多计算机和平台上。 将该 查询分 送 到适 当 的底层 搜索 引擎 ,再搜 集 和整 理底 层引擎 返 回的 a I 生: 网络 互联 的有 效带 宽及其 可靠 I经 常发生变 化 。. 定数据 的大 量存 结果 。 多个 搜索 引擎组 合在 一起 , 查询 的 网络 覆盖 面将 比任何单 个 生 b 不稳 将 可 在 : B资源经 常更 新 , 致要 处理 大量 空链接 和重 新 定位 的 问题 。C 搜索引擎都要大很多。由一个建立在多个专题搜索引擎基础之上的集 WE 导 . 非结构和冗余数据: 由于网络的共享性, 许多网络资非常相似或有大量 成搜索引擎代替综合引擎 ,可以解决存 We 上搜索的可扩展性 问题。 b 的镜像存存。不同的资源有着不同的概念模型 , 缺乏一致 } . 生。d 异构数 此外 ,集成搜索引擎还可以方便对多个引擎的查询 ,提高检索的有效 据: 全球文献 巾有各种语种 , 如扣丁语系和汉语等 , 而且不能简单地通 性。 .4 2 .数据挖掘技术与检索技术的结合 。 2 数据挖掘技术也称数据库知 识发现技术, 被广泛 的应用于数据仓库 、 并行分布式数据库 中, 以发现 过 软件来解 决 。 2We 信 息资 源检 索方法 与搜 索技术 b 数据 中隐含的规律和趋势 , 用来分析经验 、 解释原因、 制定决策 、 指导改 使数据库具有知S, Yg的詹陛。 I 数据挖掘技术涉及许多学 2 We 信息资源检索方法 。 .1 . } I , 2 .直接访问信息源搜索的途径。通 进和预测趋势 , 1 常 的做法 足通 过 I P地址 直接 打 开 网站或 网页 , 般 是在 已知 所查 询 的 科的技术 , 一 包括数据库技术 、 统计学 、 机器学习 、 模式识别技术以及信息 b挖掘技 术 , 实现对 We 它 b存取 信 息在某 一具体 的网站或 网 页时使 用 ,不过 这种 方法需 要 记忆 大量 的 检 索技术 。现在有 一种 新技术 称为 We 域名, 网址。一种更简便的方法是安装网络实名插件 , 可在浏览器的地 模 式 、 b We 结构 和规 则 , 动态 的 We 以及 b内容的查 找 。 b We 挖掘技 术最 址 栏或搜 索引擎 网站 中 , 输入 中英文 网站名 称 , ,7 1 直接 如 32 网络实 名 , 大的特 | 是从 大量 数据 巾发 现有 用 的知识 ,因此发 展面 向互联 网的 就 州 入网站 , 输 企事业 单位 , 商标, 产品等炎键词的中英文名称 , 就能直达 知识挖掘技术 , 并将其与灵活使H 的信息检索技术无缝的结合起来 , j 将 方便的、 内容空前丰富的学)知识和问题的 J 对应的网站或网页。 .2 21 利用网络检索 具。 . 可使刚综合 眭搜索引擎 , 会向人们提供一户 网站 , 查 询过 程 一 求 解途 径 。 G ol e 在 般提供分类查询和关键词查询。 有些网站还提供 很多网址的链接, 根 3搜索引擎及其技术 据 需要 点击 , 可直接 进 入 网站 当需 要检 索某 些专 业性 或特 定信 息 时 , 可 31 .搜索引擎构成。搜索引擎是一种最为常见的 We h信息检索系 使 J 々题搜 索 引擎 .例如 专业 地 图搜 索 的T具 有 图吧 (t: w p 统 , l I j . hp / wma— t, w 主要 由 四部分 组成 :网络 机器 人 : 个 功能 很强 的程 序 , 会 定 a 是一 它 hlOl, aCl)矧行天下m p w , p o ) .3 -l { / , ¨ 2 . i。21 构造检索提问式的要 期 根据 预先 设定 的地 址去查 看 对应 的 网页 ,如 网页发 生变 化就重 新 获 Ⅲ cn . 点。 存检 索 中 , 两个最 为关键 的步 骤 , 是慨括 检索 提问 , 择精确 的 取该 网页 , 则根据 该 网页 中的链接 继续 去访 问 。 有 一 选 否 网络机 器人访 问贞 面 检 索词 ; 二是正�
基于信息检索的需求跟踪方法综述
基于信息检索的需求跟踪方法综述胡成海;彭蓉;王帮超【摘要】Requirement tracking,as an important part of software process management,plays an important role in ensuring system quality and responding to requirement ing requirement tracking,software engineers can find dependencies among products,assessing demand coverage,and calculating the impact of changes in requirements.With the increasing complexity of software projects and the increase in the number of software products,the automatic recovery and maintenance of tracking relations has attracted more and more attention.In recent years,people have done a lot of research on requirement tracking automation technology based on information retrieval.We summarize the requirement tracking technology based on information retrieval,and carry out in-depth analysis from three aspects:technical improvement,support tools and metrics.On this basis,we look forward to its development trend and further research.%需求跟踪作为软件过程管理中的一个重要环节,在保障系统质量、应对需求变更方面发挥着重要作用.利用需求跟踪,软件工程师可以发现制品之间的依赖关系、评估需求覆盖率和计算需求变更的影响.随着软件项目的日益复杂和软件制品数量的增加,跟踪关系的自动恢复和维护日益受到业界关注.近年来,人们对于基于信息检索的需求跟踪自动化技术做了大量研究.针对基于信息检索的需求跟踪技术进行综述,从技术改进、支撑工具和度量指标三个方面进行了深入分析.在此基础上,对其发展趋势和有待深入的研究点进行了展望.【期刊名称】《计算机应用与软件》【年(卷),期】2017(034)010【总页数】9页(P20-28)【关键词】需求跟踪;信息检索;系统文献综述;研究趋势【作者】胡成海;彭蓉;王帮超【作者单位】武汉大学计算机学院软件工程国家重点实验室湖北武汉430072;武汉大学计算机学院软件工程国家重点实验室湖北武汉430072;武汉大学计算机学院软件工程国家重点实验室湖北武汉430072【正文语种】中文【中图分类】TP311在系统开发的整个生命周期中,遗失或没有实现的需求常常被遗忘、需求变更的影响常常被忽略,这些细微的疏漏很可能严重影响了整个软件开发的成败[1]。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
互独立的,但在实际环境中很难得到满足。因此,为了考虑
词与词之间的相关性,处理自然语言的语义模糊性,从而产
生了潜在语义分析的思想。潜在语义分析(Latent Semantic Analysis, LSA)[3]是一种通过分析大量的文本集自动生成关
键字-概念(语义)之间映射规则的方法。LSA 认为词语在文
1 传统的信息检索模型
传统的信息检索的目的是根据用户的查询即关键词从大 量的文本中找到满足用户要求的相关文本,其中心问题是判 别相关文本和无关文本。检索模型即是判断文本是否与查询 相关和对相关文本进行排序的数学模型。根据相关度判别方 法的不同,发展出了不同的信息检索模型,传统的信息检索 模型大体可以分为 3 类:布尔模型,向量空间模型和概率推 断模型。
蒋 凯,武港山
(南京大学计算机软件新技术国家重点实验室,南京大学计算机科学与技术系,南京 210093)
摘 要:随着信息技术的发展,特别是 Web 的不断普及和应用,Web 上的信息飞速增长,形成了巨大的信息资源。因此,如何从巨量的 信息中快速有效地提取出所需的信息,成为迫切需要解决的问题。文章分别介绍了几种传统的信息检索模型和基于潜在语义分析的信息检 索模型,以及自动问答系统,并在多方面对它们进行比较,最后展望了问答系统的应用前景。 关键词:信息检索;潜在语义分析;自动问答
个最大的奇异值及其对应的奇异矢量构成新矩阵来近似表示
—8—
原文本集的词条-文本矩阵。从某种意义上来说,LSA/SVD 是一种用于发掘一组相互无关的索引变量(因素)的技术, 从而使每个词-文本都可以利用左-右奇异值向量,表现为单 个 k 维空间向量,并可以消弱噪音、词语使用多样性等对信 息检索的影响。直观地说,因 k 值比文本集中词条 m 小得多, 词义上地细微区别被忽略了。以下是具体做法:
k
A (AK)
词语向量
≈
UK
U
m*n k
k
ΣK
m*r 文本向量
k VTK
VT Σ
1.1 布尔检索模型 布尔(Boolean)模型[1]是最典型的一种集合模型,是信
息检索系统提供的基本功能,在传统的信息检索中有着广泛 的应用。它将文本表示成布尔表达式,然后再通过与用户的 查询表达式进行逻辑比较来检索相关文本。
标准布尔逻辑模型是二元逻辑。在布尔模型中,首先要 针对文本定义一系列的二元特征变量,这些特征变量一般是 从文本中提取出来的文本索引关键词,有时也包括一些更为 复杂的特征变量,如数据、短语、私人签名和手工加入的描 述词等。其次,使用这些特征变量的集合来表示文本 Di= (dil,di2,…,din),其中,n 是特征项的个数;dik 为 True 或 False, 如果特征项 k 在文本 Di 内容中出现,就赋予 True 值,反之 置为 False。
一般有两种方法来确定权值 wik,一种方法是由专家或者 用户根据自己的经验与所掌握的领域知识人为的赋予权值, 这种方法随意性很大,而且效率也很低,很难适用于大规模 文本集的处理;另一种方法是运用统计学的知识,也就是用 文本的统计信息(如词频、词之间的同现频率等)来计算项 的权重,大部分的统计方法都基于香农信息学理论:(1)如果 特征项在所有文本中出现的频率越高,那么它所包含的信息 熵也就越少;(2)如果特征项只在少量文本中有较高的出现频 率,那么该特征项就会拥有较高的信息熵。
在布尔模型中,用户可以根据检索关键词在文本中的布
尔逻辑关系,用“∧”(AND)、“∨”(OR)、“ ¬ ”(NOT)
等逻辑运算符将多个关键词连接成为一个逻辑表达式来递交 查询。匹配函数由布尔逻辑的基本法则确定,通过对文本表 达式与用户查询表达式的逻辑比较进行检索,所检索出的文 本或者与查询相关,或者与查询无关。
【Abstract】With the development of information technology, especially the widespread use of Web, information on Web increases rapidly and becomes a huge information resource. In the meanwhile, such abundant information makes it an urgent problem: how to extract useful content rapidly and efficiently from information resources. This paper introduces several traditional information retrieval models and latent semantic analysis technique, and then gives a brief description of the question-answering system. Further more, this paper compares these models from some certain aspects, and analyzes possible applications of question-answering system in the future. 【Key words】Information retrieval; Latent semantic analysis; Question-answering
首先要构造一个训练集 m ⋅ n 词条-文本矩阵 A=[aij],其
中 aij=L(i,j)*G(i),L(i,j)是单词 i 在文本 j 中的局部权重,G(i) 是单词 I 在文本集中的全局权重,m 为提取单词数,n 为文本 数。对 A 进行截取-SVD 分解,(设 m>n,rank(A)=r,存在 K,K<r 且 K<<min(m,n)),则在 2-范数意义下,A 的秩-K 近似矩阵 Ak 为:A≈Ak =Uk∑kVkT。其中,Uk 和 Vk 的列向量均为正交 向量,UkTUk=VkTVk=Ik, Uk 和 Vk 的列分别被称为矩阵 Ak 的左 右奇异向量,∑k 是对角矩阵,对角元素被称为矩阵 Ak 的奇 异值。将 SVD 应用到 LSI 方法中(如图 1 所示),分解后各 参数可作如下的解释:Ak:最接近词条-文本矩阵 A 的 K 秩 矩阵;U:词语向量集;Uk :K 维语义空间中词语向量集; m:词条数;V:文本向量集;Vk:K 维语义空间中文本向量 集;n:文本数;∑k:奇异值矩阵;K:降维因子;r:词语-文本 矩阵 A 的秩。Ak 是对 A 的一个近似,且在某种意义上保持 了 A 中反映的词条和文本之间联系的内在结构(潜在语义), 但又去掉了因用词习惯或语言的多义性等带来的“噪声”。
Overview of Information Retrieval Technology for Web
JIANG Kai, WU Gangshan
(State Key Laboratory for Novel Software Technology, Nanjing University, Department of Computer Science and Technology, Nanjing University, Nanjing 210093)
基金项目:国家自然科学基金资助项目(60073030);国家“863”计 划基金资助项目(2002AA117010-10) 作者简介:蒋 凯(1981—),男,硕士生,主研方向:Web 信息检 索;武港山,副教授、博士 收稿日期:2004-12-02 E-mail:jiangkai@
—7—
W ik
=
f ik
⎛ × l o g ⎜⎜⎝
N ni
⎞ ⎟⎟⎠
其中,fik 表示特征项 tk 在文本 Di 中出现的次数,N 表示全部
文本数,ni 表示文本集中出现 tk 的文本数。
文本之间或者文本用户查询之间的(内容)相关程度
(Degree of Relevance)通常用它们之间的相似度 Sim(Di,Dj) 来度量。当文本和查询均被表示为向量空间模型时,可以借
在的一些不确定性而发展起来的,以数学理论中的概率论为
原理的一种检索模型。
在此模型中,文本和用户查询的表示与布尔模型相同。
同时,根据用户反馈,将文本分成相关的和无关的两类,然
后根据每个特征变量(词)在相关文本集合和无关文本集合
的分布情况来计算它们的相关概率,并将它表示成几率:
O(R) = P(R) /(1− P(R))(R 表示“文本是相关的”, ¬ R 表示
1.2 向量空间模型 向量空间模型(Vector Space Model, VSM)克服了使用布
尔模型中二元权值的缺点,采用非二元权值来表示特征项在 文本和用户查询中的权重,提出了允许部分匹配的模型结构。
在向量空间模型中,文本是使用特征项构成的加权向量 来表示的:文本向量 Di=(t1,wil;t2wi2;…; tn, win)。其中,n 是特 征项的个数;特征项 tk 与布尔模型中类似;wik 为特征项 tk 在文本 i 中的权重。
第 31 卷 第 24 期 Vol.31 № 24
计算机工程 Computer Engineering
·发展趋势/热点技术·
文章编号:1000—3428(2005)24—0007—03 文献标识码:A
基于 Web 的信息检索技术综述
2005 年 12 月 December 2005
中图分类号:TP391
本中的使用模式内隐含存在着潜在的语义结构,同义词之间
应该具有基本相同的语义结构,多义词的使用必定具有多种
不同的语义结构。LSA 就是通过统计方法,提取并量化这些
潜在的语义结构,进而消除同义词、多义词的影响,提高文
本表示的准确性。
2.2 LSA/SVD 为了实现 LSA 思想,需要通过数学方法建立潜在语义索