信息采集技术之信息采集的途径与方法

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

的同位词,B1、B2是B的同
义词,F、G是B的相关词或
•B2
•B1
•B
•E
近义词
路漫漫其悠远
•F
•G
•例:
•与信息产业相关之词
•词间联系的参照符号:
路漫漫其悠远
三、现代信息间谍采集方法
路漫漫其悠远
现代信息间谍采集方法
• 概念-现代信息间谍采集方法,是间谍机 构通过派遣间谍,运用现代化手段,以合 法或非法的方式,采集本国或本单位所急 需的、竞争对手中有极大价值的信息的方 法
立一个索引,指明该词在文章中出现的次数和位置。当用户查询时 根据建立的索引查找,类似于通过字典的检索字表查字的过程。全 文检索系统是按照全文检索理论建立起来的用于提供全文检索服务 的软件系统。 • 功能上全文检索系统需要具有建立索引,处理查询返回结果集,增 加索引,优化索引结构等功能。结构上具有索引引擎,查询引擎, 文本分析引擎和对外接口等。
路漫漫其悠远
光盘检索的特点
优点: (1)运行速度快 光盘数据库采用单机检索,不受检索线路是否拥挤的影响,即使连接
在校园网上,由于传输距离较近,其运行速度也比较快。 (2)成本低,检索效果好 一般而言,CD-ROM数据库的检索费用比联机检索费用低得多,并具
有很好的检索效果。购买CD-ROM数据库后,在一年内可以任意使用,利 用率愈高,分摊的成本愈低,且在整个检索过程中不涉及远程通信网络问 题,也不需要使用专线电话之类的通信线路,并考虑机时费与流通量的问 题,没有联机检索按时间收费的紧张感,可为用户提供良好的检索条件和 环境气氛。
1.分析研究课题,明确查找要求 明确所需信息及文献内容、性质、水平等情况;在分析课题的 基础上形成主题概念;根据检索主题概念的学科性质,确定检索的 学科范围。 2.选择检索数据库 由于当前数据库的种类繁多,各数据库的内容相差很大,从国 内外出版的数据库来看,一般从数据库的学科范围、数据库的文献 范围、数据库的国别或语种范围三个方面来确定数据库的内容。
3.英国《科学文摘》光盘数据库
英国《科学文摘》光盘数据库(INSPEC Ondisc)由英国IEE学会出版,是书本型Science Abstract(《科学文摘》 )的机读版。其信息来源于世界范围内已出版了的计算机、电子学、物理学方面的文献,涉及期刊4200余种,会 议、图书、技术报告和学位论文1000余种,每年提供25万条信息。INSPEC数据库中每条记录的著录项目有:论文 题目、作者姓名、作者单位、期刊、会议、图书、报告、学位论文的信息、文摘、分类、叙词、自由词等主要项 目,同时提供了分类号、主题词、自由词、数值索引、化学索引等27项检索入口。
收后转换成电信号,计算机二进制信息“0”或“1”,经计算机解码后,成为原
纪录的数字化信息。
(3)计算机及相应软件
光盘本身是一种机读文献,需在计算机上读取。目前使用的光盘检索
系统都以计算机为基础设备,在普通的计算机上加载光盘驱动器的驱动软
件和数据库的检索软件,即可成为光盘检索系统。
路漫漫其悠远
光盘检索系统
(3)下载方便 用户可以方便地将光盘上的部分所需数据拷贝到软盘或其他计算机系 统里,从而形成本部门或个人的局部数据库,以便随时查询。 (4)安全性能高 对于光盘数据库来讲,它是只读光盘,具有不可擦除性,更不会因病 毒而造成文献丢失。
路漫漫其悠远
光盘检索的特点
• 缺点: (1)使用范围有限 目前光盘数据库的规模和容量有限,一般都以某一领域学科为主,不
全文数据库的结构与特点
• 结构:
• 包括两个部分
• 顺序文档结构 • 倒排文档结构
• 特点:
• 文本客观性/语言自然性/后控词表性/检索彻底 性/较大稳定性
路漫漫其悠远
全文检索系统的模式
• 单汉字无标引全文检索系统
• 此系统是为了让原文每一个字都具有可检性,便通过计算机替原 文的各个字都建立倒排档,以便信息人员或用户以各个单字检索 入口进行检索的过程。
路漫漫其悠远
光盘检索的基本流程
3.确定检索词 所谓检索词,就是将检索要求概括成的简洁词语。检索词的选
择必须符合两个要求,一是能准确反映课题的检索要求,二是必须 符合数据库对输入词的要求。 4.编写检索式
一个课题往往需要用多个检索词来描述其含义,这些检索词又 往往需要用一定的语法规则来规定,才能完整描述检索要求,这就 要编写检索式。检索式是将检索词之间的关系用布尔逻辑算符和位 置算符来描述的式子。 5.检索结果显示及判断
根据显示文献信息的内容和篇数,可以判断检索结果是否符合 要求,如果不符合要求,则调整检索词和检索式再次进行检索。
路漫漫其悠远
常用的光盘数据库
1.《中文科技期刊数据库》光盘
《中文科技期刊数据库》光盘由中国科技信息研究所重庆分所于1992年6月开发成功。1993年面世,其前身为中文 科技期刊篇名数据库软盘版。“中刊库”是目前国内最大的综合性文献数据库,收录了自1989年以来的中文科技期 刊文献200多万条,引用期刊达5400余种,年报道量26万条,该库每季更新一次。
路漫漫其悠远
光盘检索采集的模式
• 模式:
• 单用户的光盘数据库信息采集模式 • 点对点光盘数据库信息采集模式 • 以局域网为依托的光盘数据库信息采集模式
• 文件服务器模式/对等模式
• 以广域网为基础的光盘数据库信息采集模式 • 在虚拟网络基础上的光盘数据库信息采集模式
• E-mail,FTP、传真、程控电话等
路漫漫其悠远
光盘检索采集的途径与方法
• 途径与方法
• 运用规范化的语言检索采集 • 运用非规范化的语言检索采集 • 运用规范化与非规范化语言相结合的检索采集 • 运用文献的外形特征检索采集 • 运用连续出版物的国际标准号码检索
路漫漫其悠远
二、全文检索采集方法
路漫漫其悠远
全文检索
• 一种将文件中所有文本与检索项匹配的文字资料检索方法。 • 全文检索是计算机程序通过扫描文章中的每一个词,对每一个词建
路漫漫其悠远
光盘检索提供的服务
(1)追溯检索服务 目前引进的CD-ROM数据库一般存储近5~10年的文献,对科研项目的
研究提供追溯检索的服务。 (2)定题服务
定题服务是为了跟踪某课题的最新动态,按用户事先预定的检索内容 ,主动连续地从新到的文献库中检出有关信息,提供给用户。CD-ROM数 据库检索系统还具备保留和重新执行检索策略的功能,可以对检索策略进 行任意修改和补充,因此实施定题服务是比较方便易行的。 (3)专题追溯检索服务
教育技术研究者在开始一项新课题研究时,需要系统全面地了解这一 课题的进展情况,需查找过去若干年中前人有关此课题的文献资料。由于 CD-ROM数据库的使用几乎不受时间限制,因此可以为特定用户制定的专 题提供专题追溯检索服务。由于受机时和费用的限制,联机检索系统一般 不提供这类服务。
路漫漫其悠远
光盘检索系统
路漫漫其悠远
现代间谍采集信息的方式方法
• 秘密方式:
• 高空拍摄/窃取机密/行贿拉拢/美人利诱/安插 内线/威胁恐吓/破译密码/假而实之
• 公开方式
• 卫星侦察/参观考察/分析文献/会议交流/留学 搜集/无偿馈赠/发表论文/外交活动
路漫漫其悠远
四、社会调查采集信息的方法
路漫漫其悠远
• 社会调查采集信息的方法是针对用户的需 要,向各种社会活动了解其活动情况、数 据与资料的方法
路漫漫其悠远
社会调查的方法
• 普遍调查(普查):对采集对象的运动状 况、特征与趋向等进行全面采集与分析的 方法,是统计调查的一种重要方式。
• 全文检索系统在主文档中包括题名、著者、正文等字段;在倒排 档中,包括字与地址集合,其中地址集合由三元组成,即文献记 录号、增加字段标识与字的起始位置。
• 特点:
• 容易实现,维护方便,检索速度慢,浪费存储空间,查全率与查 准率不高
路漫漫其悠远
wenku.baidu.com
•例:
路漫漫其悠远
•为有效检索主文档中的信息,依据主文档抽取一些字建立的倒排档:
路漫漫其悠远
路漫漫其悠远
•检索过程
全文后控检索系统
• 是为了在词与词之间建立一种指引关系,而运用后控词给予控制的 体系。词与词之间有从属关系、等同关系、相关关系等。
• 后控词表是由专家编制的一种辅助表,并由专家定期检查、更新与 完善。
• 系统特点:提高了查全和查准率;易产生歧义,量大时长;
•A
•A是B与E的上位词,E是B
路漫漫其悠远
全文检索
• 西文全文检索数据库的索引机制是心自然 语言的单词为基本单元的,词与词之前有 自然界限(以空格为标志)
• 汉语的词则是以单音节为基础层层组合构 成的,常用方法有“词典匹配法”、“词频统 计法”、“联想词群法”、“设立标志法”、“ 知识与规则法”、“人工智能法”等等
路漫漫其悠远
2.《中国专利文献》光盘数据库
中国专利文献光盘数据库(CNPAT)由中国专利信息中心出版,该数据库1992年开发成功,收录了自1985年至今 在中国专利局申请并公开的全部专利信息约43万件,内容有题录、文摘和主权项,提供了关键词、发明名称、国 际专利分类号、范畴分类号、申请号、发明人、公告号、优先权项、国别省市代码、申请日、公告日、申请人地 址、代理机构代码共14个检索入口,其中申请人、发明人、发明名称为全文检索。
可能囊括所有学科,而且受到所购置光盘专业种类的限制,有时会影响查 全率。
(2)更新周期长 一般的光盘数据库更新需要3个月,最快也需要1个月。 (3)检索系统不兼容 不同出版商制作的光盘数据库不能在一个系统中兼容,使用上有很多 不便。 (4)需要不断换盘 一个大型数据库,一般都是几张光盘,特别是全文数据库,例如中国 学术期刊全文光盘数据库,每年都有一百多张光盘,检索时需要不断更换 光盘。

1.光盘检索系统的组成
光盘检索系统由光盘、光驱、计算机和相应软件组成。
(1)光盘
数据存储单元,一般由数据库供应商提供,数据在制作过程中固定在
其物理介质上,不能抹掉也无法修改,称为CD-ROM。
(2)CD-ROM驱动器或光盘塔
光盘读取的专用设备,其发射的激光束聚焦在光盘的信息轨道上,在
有小孔或无小孔处形成不同的光反射,这两种不同的光反射经光学系统接
• 2.光盘检索网络系统 光盘检索网络系统是90年代发展起来的计算机文献检索系统。
随着光盘数据库的大量涌现,单机光盘检索需频繁换盘,给用户带 来不便。而且在同一时刻只能有一个读者使用,无法充分发挥昂贵 的光盘数据库的效益。在计算机网络的硬件和软件环境的支持下, 产生了光盘网络检索系统。目前建成的光盘网络检索系统都是以计 算机的局域网为基础,有多种模式,其共同特点是拥有能同时运行 几十张光盘的光盘塔驱动器,它可供上百个用户同时检索同一张光 盘。
• 现代信息间谍活动现状
路漫漫其悠远
现代信息间谍盛行的原因
• 是两军决用的秘密武器 • 是搞跨竞争对手的法宝 • 是取得奇效的上等秘诀
路漫漫其悠远
现代信息间谍活动的特点
• 间谍与工具结合 • 公开与隐蔽并施 • 盟国与友军不存 • 企业与企业较量 • 专家与学者出动 • 政府与民间携手 • 生态间谍游荡
信息采集技术之信息采 集的途径与方法
路漫漫其悠远
2020/3/25
一、光盘检索采集方法
路漫漫其悠远
光盘检索简介
光盘检索: 光盘的使用起始于70年代,最初主要用于制作激光唱片。80年代以来,随
着计算机技术和数字化计算机的发展,光盘才开始应用于文献信息领域。 光盘在文献信息领域的应用对信息的存储介质(纸、磁介质、缩微胶片等 )带来了革命性的影响,并强烈地冲击着联机产业。由于以CD-ROM为代 表的光盘技术具有易用、存储容量大等独特的特点,因而受到了人们的普 遍欢迎,并很快发展成为一种新的检索系统——光盘检索系统。90年代初 期,光盘数据库检索系统以它存储数据量大、操作简单、检索效率高、成 本低廉、运行环境要求简单等特性,在高校图书馆中的到了广泛的应用, 达到了它的顶峰时期。近两年来随着Internet的普及使得光盘数据库检索系 统逐渐发展为光盘网络检索系统,但是目前光盘数据库的独特的优点使它 仍然成为利用现代化手段进行文献检索的主要方式之一。
光盘数据库网络的组成包括光盘塔和各种光盘组网软件以及光 盘塔服务器等。
路漫漫其悠远
光盘检索的基本流程
光盘检索的基本流程为根据检索的课题选择合适的数据库,并 确定检索词,根据检索要求编写检索式,开始检索,检索完毕后, 分析判断检索结果,如不合适需修改检索词和检索式进行二次检索 ,最终得到满意的检索结果。
相关文档
最新文档