信息检索

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

截词符

按截断的位置来分有





后截断 前截断 中截断 History Histories Historical History-related Histor?
截词符

edit?

edit edition editor editorial editing editorialist editorialize editress editorship editorially

数据检索 事实检索
文献信息检索

索引
信息检索数据库(P .22)

文档——顺排,倒排
信息检索数据库

记录
对某一实体 的全部 属性进行 描述的结果

信息检索数据库(P .22)

字段

对实体具体属性的描述结果, 题名(TI) 作者(AU) 文摘(AB) 作者单位(AF) 期刊名称(ST) 语种(LA) 关键词(KW)
日本人巧妙搜集信息

思考问题:
(1)日本人采集信息对我们有什么启示? (2)信息采集与信息利用是否有关联?
第二章 信息检索原理
信息检索与信息检索系统 文献信息数据库文档,记录,字段的概 念 信息检索的五个步骤 课题分类号和主题词的确定方法 逻辑,词组,位置,截词和优先算符的概 念

学号姓名--周次-实验报告 学号姓名-课题名称
联系方式


陈娟 文商楼516 69980028*55161 chenjuan82@shu.edu.cn
问题1

信息这个词从何时出现?
信息的词源由来

观点1:

唐代诗人李中(937-975)《暮云集· 暮春怀故人》中 的诗句:“梦断美人沉信息,目穿长路倚楼台。”
企业档案 AND 企业人 事档案
档案 AND (人事 OR企 业)
概念扩展方法

同一概念的检索词扩展

同一事物的学名或俗名

儿歌 童谣 上海 沪 安全 风险

同一事物的简称,全程,音译,意译


同一事物的反义词

概念扩展方法

基于内容分析上扩展

上位概念扩展;下位概念扩展
概念扩展方法

隐含概念扩展
现代计算机检索技术
上海大学悉尼工商学院 陈娟
教学安排
周 1 授课内容/上机内容 信息信息检索基本原理及信息检索技术概述(第2章) 自学 文献信息概论(第1章)
2
事实与数据检索原理(第3章) 普通文献检索原理 特种文献检索原理(专利文献, 博硕士学位论文,会议,标 (第4章) 准文献,科技报告)
国内网络数据库的主要类型、搜索引擎的信息检索、中文维 普咨讯数据库、万方数据资源系统、国研网等专业信息的 检索策略及检索演示。 利用中文数据库—中国期刊网、国研网、维普数据库、万方 数据库等检索本专业的有关文献信息。 利用国外著名的检索工具《WEB OF SCIENCE SCI 》、 《EI》、EBCSO数据库、DIALOG 国际联机检索系统等 检索工具检索本专业的有关文献信息。 课题研究: 确定研究问题的主题 实验报告:中国期刊 全文数据库 课题研究: 查询中文的文献,总 结国内的发展状况
3
4 5
教学安排
周 6 7 授课内容/上机内容 EBSCO、ELSEVIER SCIENCE 全文电子期刊、IEEE数据库、 KLUWER电子期刊的检索方法及检索策略的实习。 网络信息利用原理(网上信息资源, 网络信息检索工具 , 网上学术资源及其查找方法 学术网站资源的评价方法) (第五章) 综合性WEB检索工具的基本使用方法、检索语言,了解网络 信息咨询的特点、咨询主体及相关性的服务,网站信息检 索和评价实习 本专业学术论文的设计与撰写的特点、资料的收集与整理的 方法、课题资料的检索步骤与检索策略,并进行检索策略 的评价。(第六章) 自学 实验报告:EBSC O全文数据库 课题研究: 查询英文的文献,总 结国外的发展状况 实验报告:网站信息 检索和评价 课题研究: 查询网上的文献,总 结目前的问题的难 点和热点
情报
文献
文献是由载体 承载着的知识
问题4

信息有什么用?
日本人巧妙搜集信息

第二次世界大战后,日本经济高速发展,一个重要原 因就是重视信息的采集、开发、利用。
●日本的信息传递、查询非常迅速。 5~10分钟搜集到世界各地金融市场的行情;3~5 分钟查询并调用日本国内1万多重点公司、企业经营数 据;5分钟模拟出国际国内经济因素变化可能给宏观经 济带来的变动图和曲线;5~10分钟可查询或调用政府 的法律、法令和国会记录。这种现代化的信息处理技 术,大大提高了行政效率 。

信息检索
信息检索全称是检索存储与检索,是将 无序的信息按照一定的标准和规范有序 化形成信息集合,并根据需要从文献集 合中查找出特定信息的过程。 我们通常所说的信息检索,是指采用一 定的方法和策略从信息集合(可以是数 据库、某个搜索引擎中)查找所需信息 的过程。

信息源 内容分析 主题概念
学科、关键词
有趣的回文现象
回文对联:
客上天然居 居然天上客
回文句:
江苏宜兴 丁蜀镇 环刻在 紫砂茶壶上
也 心 清 可 以
DNA 的 三维空间序列
脱氧核苷酸长链 脱氧核苷酸长链
基因是 负责一项遗传任务的 一段DNA分子 ▲就是 由于不同的空间序列 导致世界上 成千上万的不同物种
碱基A
碱基G
碱基T 碱基C
DNA 脱氧核糖核酸结构图
检索提问 内容分析 主题概念 学科、关键词 检索词表(分类法、主题法)
标引词 信息标识 组 织 信息集合 输出 所需信息 检 索
检索词 检索表识
信息存储
信息检索
信息检索系统

文献检索
目录检索----“本”或”件”,书(刊)名,卷 (期)数,作者,出版年月,出版地,收藏 情况等 题录检索----“篇”,篇名,作者,来源出处 文摘检索--- 全文检索---

逻辑与(AND)运算符


逻辑非(NOT)运算符

布尔逻辑算符

优先算符



逻辑算符如果混合使用,其运算顺序通常为 NOT,AND,OR. 当需要改变这种运算顺序时,必须使用优先算符( ) 例如有计算机,电脑,文献,信息四个检索词:

S1 计算机 OR 电脑 S2 文献 OR 信息 S3 S1 AND S2 (计算机 OR 电脑)AND (文献 OR 信息)

观点2:

《三国志》(陈寿(233-297),西晋):“诸葛恪 围合肥新城,城中遣士刘整出围传消息。王子俭期 叔 曰: “正数欲来, 信息甚大。 ”
《二程外书》 程颐和程颖 (南宋)
问题2

信息是什么?
信息的含义

控制论的创始人维纳的定义

信息是人和外界相互作用的过程中互相交换的 内容的名称 信息是“用来消除不确定性的东西”

普通家庭收入预测方法研究

各种可能的方法名称: 指数方法,统计方法

基于检索结果的概念扩展


股票预测 模糊神经网络 小波 BP神经网络 EMD方法
波浪理论对中国股票市场的解读及预测 基于伊藤过程对股票价格的模拟和预测
检索语言

分类语言 主题语言
分类语言
《中图法》结构—基本大类
日本人巧妙搜集信息
1966年10月,日本人又从《人民中国》找到了 王进喜的先进事迹,从事迹介绍分析得知“最早 钻井地点是在北安东北部的马家窑”。日本人又 从伪满州地图上查到“马家窑是黑龙江省海伦县 东面的一个小村”。这就找到了大庆油田的准确 地理位置。 1966年7月,从《中国画报》上的一张大庆炼油 厂反映塔的照片上,日本人根据反映塔上的扶手 栏杆和反映塔的直径,推算出大庆炼油厂的规模, 其年产量为1 000 000 KL。根据这个油田的出油 能力和炼油厂规模,日本人得出结论:中国将在 最近几年出现炼油设备不足,买日本的轻油裂解 设备是完全可能的。于是就按他们估计的大庆油 田要求进行产品设计。最后等待中国人去购买。
截词符

后截断检索技术主要使用在下列4个方面:

词语切分方法:
去掉课题中的虚词和泛指的词语,然 后按照概念单元分成不能再拆分的词 语 股票价格预测方法研究 神经网络在股票价格预测中的研究 基于变维分形的股票指数预测模型

检索概念切分比较
概念切分不彻底的检索 策略 修改后的正确策略
古代小说 OR 古代诗歌 古代 AND (小说 OR 诗 歌) 历史 AND (中国古代历 历史 AND 古代 AND 史 OR 世界古代历史) (中国OR 世界)
日本人巧妙搜集信息
●日本人善于从平淡的信息报道中分离 出重要的信息内容。
例如,日本人在二十世纪六十年代,根据中 国的媒体公开报道,分析判断出大庆油田开发 的重要信息,从而与中国谈成了产品设计买卖。 日本人对大庆油田早有耳闻,但始终得不到 准确信息。1964年4月《人民日报》写到“大 庆精神大庆人”,于是判断“中国确有大庆油 田”。 1966年7月《中国画报》封面有一张照片, 铁人王进喜身穿大棉袄、头顶鹅毛大雪,猜测 到“大庆油田在冬季零下30度的东北地区”。
文献检索一般步骤

分析研究课题,明确检索要求

需要分析出课题的研究范围,课题性质及将要达到的目的。确定检 索词,明确需要的文献类型。
选择检索工具的原则:目的原则;信息需求的内容,专业范围原则;数 据库记录的文献来源原则。

选择检索工具或检索系统



确定检索途径 分类途径 主题途径 著者途径 序号途径 记录和阅读文献线索 索取原始文献



A B C D E F G H I J K
马、列、毛、邓 哲学、宗教 社会科学总论 政治、法律 军事 经济 文化,科学,教育,体育 语言、文字 文学 艺术 历史、地理



N O P Q R S T U V X Z
自然科学总论 数理科学和化学 天文学、地球科学 生物科学 医药、卫生 农业科学 工业技术 交通运输 航空、航天 环境科学、安全科学 综合性图书
8
9
10 课题研究整理成文
ቤተ መጻሕፍቲ ባይዱ
评价方式


出勤.............. 10% 自学 .............. 8% 检索报告 ..............32%,每份报告8分 课题研究................50%
课题研究

每周根据课堂布置的要求,按进度完成工作. 实验课下课前上交检索报告电子版 下周上课前上交课题研究电子版 课题研究和检索报告的文件名格式必须为:
主题词

按照是否经过人工规范化可以分为

叙词语言 关键词语言
叙词语言

经过人工规范化的语言,常以规范词表的 形式出现。 等同关系、属分关系和相关关系

例如:经济规律 D 经济法则 特殊经济规律 等同关系 一般经济规律 F 货币流通规律 价值规律 属分关系 基本经济规律 C 生产力与生产关系 相关关系

信息论的奠基人申农的定义:

信息的含义
判断1:A1和A2是不完全相同的 判断2:A1和A2是完全不相同的
信息是按照一定的方式排列起来的信号序列所揭 示的内容。
所谓“信号”,就是能够引起其他事物感知的各 种客观存在的“刺激”。当这些 “刺激” 按照可以 揭示某种内容所特有的方式排成序列时就成为信息。
关键词语言

是没有经过规范化的,直接选自文 献的题目或者文章中的自然语言。 例如:
脚踏车 单车

检索算符


布尔逻辑组算符 截词 词位限制 检域限制
布尔逻辑算符

逻辑或(OR)运算符

Enterprise OR Company Chinese and culture Culture NOT Chinese
如何找到课题的主题概念?

股票预测
课题分析要点
课题属于哪个学科? 课题性质是什么?

探索型 调查型 应用性


课题的背景是什么?

股票预测

股票预测
概念的切分方法

词语是信息表达的最小单位 在检索时,必须对汉语表示的课题进行词语 切分,才能查出更多的文献。
汉语词语切分方法
问题3

信息、知识、情报与文献有什么区别?
信息、知识、情报与文献的比较
信息是按照一定 的方式排列起来 的信号序列所揭 示的内容 英文: Information
情报是对于用户 有用、经过传递 到达用户的知识 英文词: Intelligence
信息 知识
知识是人类已经认 识的、具有一定的 系统性的信息
相关文档
最新文档