信息资源的采集

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

• 劳动耗费率
指信息系统搜集到得单位信息所耗费的最低劳 动量,用搜集过程所有环节的劳动消耗总数计算, 用公式表示为: n
L li
i 1
L表示搜集信息的总的劳动耗费量,li(i=1,2,…n) 表示单位信息在第i个环节的劳动耗费量,n表示总 的环节数。 劳动耗费率取决于信息资源采集过程中的难度、 条件、效率等因素,实践中依照采集过程每道工序 的劳动耗费定额来确定劳动耗费率和工作量。
信息资源 的采集
案例一
海湾战争爆发前期,投资商纷纷撤离当地市场, 由战争所导致的社会动荡成为扼杀市场的怪物。国 内商人除了关注美伊的军事力量以外,对商业关注 者寥寥无几。但长虹集团的老板倪瑞峰却从不停播 放的战讯中看出了倪端。10天后,伊拉克电台报道, 由于战争即将爆发,石油及附属产品价格跌入谷底, 聚苯乙烯的价格也不例外。于是,长虹集团董事会 立即制定采购500万吨聚苯乙烯的计划,用做电视机 外壳材料。后来,经过成功调运,长虹电视机外壳 成本是国内同类产品成本的45%,在利润分成中,长 虹依靠这一商业信息决策而获得5000万元的相对收 益。

3.2 传统信息资源的采集方法
3.2.1基于人工的信息资源采集主要有以下9种:
直接观察法 • 阅读法 • 访问法 • 问卷调查法:设计问卷、选取样本和实施调查 • 采购 • 交换 • 索取 • 检索 • 复制

案例二
美国的尼尔逊公司在全美国的1250个家庭的电 视机中装上了电子监视器,每隔90秒钟扫描一次。 每个家庭只要收看3分钟以上的电视节目,就会被记 录下来。通过与电子计算机系统实现联网,就可以 采集该公司想要获得的商业信息。

4.2 文本挖掘技术
文本挖掘技术是指从大量文本数据中发现和提 取隐含模式和知识,它涵盖了文本分析、模式识别、 统计学、数据库技术、数据可视化、机器学习、人 工智能等多领域技术。是数据挖掘领域的一个分支。 数据挖掘的对象以数据库中的结构化数据为主, 并利用关系表等存储结构来发现知识,处理过程如 图示:
使用关联规则挖掘技术,对交易资料库中的纪 录进行资料挖掘,首先必须要设定最小支持度与最 小信赖度两个门槛值,假设最小支持度 min_support=5% 且最小信赖度min_confidence=70%。 若Support(尿布,啤酒)>=5%且Confidence(尿布, 啤酒)>=70%,将可接受「尿布,啤酒」的关联规则。 Support(尿布,啤酒)>=5%:在所有的交易纪录资 料中,至少有5%的交易呈现尿布与啤酒这两项商品 被同时购买的交易行为。 Confidence(尿布,啤酒)>=70%:在所有包含尿布的 交易纪录资料中,至少有70%的交易会同时购买啤 酒。
T ti
T表示总时间,ti(i=1,2,…n)表示第i个环 节所花费的时间,n表示总的环节数。 • 费用率 衡量信息资源采集的资金效率,即信息库中单 位信息的费用的最低能力。取决于采集过程的组织、 各环节的技术装备及其它因素,用公式表示为:
i 1
n
F C G
C表示单位信息的费用率,F表示年度采集信息 的总花费,G表示年度搜集信息总量。

2.2 信息源的选择与评价 2.2.1 信息源
信息源是获取信息的来源,联合国教科文组织 在其出版的《文献术语》中,将其定义为:“个人 为满足信息需要而获得信息的来源。”
2.2.2 信息源的分类
• 按照组织边界划分
分为内部信息源和外部信息源 • 按信息的数字化形式划分 分为数字化信息源和非数字化信息源 研究数据显示:对于组织中不同层次的管理人员 对数字化信息和非数字化信息的依赖程度不同 • 按信息的载体形式划分 分为印刷型信息源、缩微型信息源、电子型信息 源、实物信息源和声像信息源 • 按信息的运动方式划分 分为静态信息源和动态信息源
r P R
P表示采全率,r表示系统中切题的信息,R 表示当时系统内、外全部切题的信息。
• 采准率
衡量信息搜集的针对性,指某一信息系统所 取决于用户的信息能 含有的全部切题信息在当时该系统所有信息中所 力和知识水平、信息 搜集者的业务水平 占的比例,用公式表示为: r E Q
E表示采准率,r表示该系统中切题的信息, Q表示系统内所有的信息。 • 及时率 衡量信息搜集的速度,由搜集过程的每一环 节(从信息的产生到其被输入到信息库)所花费的 总时间来计算,公式为:
数字化信息源Baidu Nhomakorabea
非数字化信息源
10%~15 % 15%~20 % 25%~45 %
15%~20 % 30%~40 %
高层管理人员
中层管理人员 基层管理人员 操作层(生产职责)
55%~75 %

2.2.2 信息源的评价
对各种信息的性能、质量进行评价是有效选取 和利用信息源的前提。 从两个方面评价信息源:信息源本身所能提供的 信息价值;从信息收集的角度看信息能否快捷、方 便、经济。 具体有八个指标:信息量、可靠性、新颖性、及 时性、系统性、全面性、易获取性、经济性。

案例三 20世纪30年代中期,英国作家雅各布发表了一 本172页的小册子,上面记载了希特勒军队的组织编 制、各军区概况、参谋部人员以及160多名指挥官的 姓名、简历,甚至连刚成立不久的装甲师的步兵小 队都被披露无疑。为此,希特勒勃然大怒,下令将 雅各布抓到盖世太保总部审讯,要他供出窃取德军 军事机密的“罪行”。雅各布坦然说:“我都是用 卡片摘录下来的,连××将军婚礼的报道也不放 过。”雅各布利用德国公开报纸的点滴资料,经过 分析、综合处理,最后汇集成这本小册子。因此, 他理直气壮地说:“我不是间谍!”
信息资源存储
信息资源检索
信 息 资 源 分 析
用户 信源/信宿
信 息 资 源 开 信息资源开发 发 利 用
信息资源传递反馈 信息需求分析 信息资源反馈 信息资源传递 信息资源利用
信息资源过程管理示意图
一、信息资源采集的原则
信息资源采集的原则有: 主动性原则 针对性原则 连续性原则 经济性原则 科学性原则 可靠性原则 系统性原则
采集活动开始 需求分析
选择信息源
采集策略确定 采集实施 反馈意见 采集效果评价 和解释 效果满意 采集结束
信 息 资 源 采 集 过 程
高层管理人员
中层管理人员 基层管理人员 操作层(生产职责)
管理和专业层
操作层:为信息系统输入信息或从事分析处理工作, 仓库保管员、销售员、秘书、打字员等。 基层:监督操作层人员的工作,能够熟悉操作层的各 项工作,以便沟通解决生产和人事问题。 中层:专业技术人员 工程师、会计师、律师等。 部门管理管理工作的人员 主任、部门经理等。 高层:决策企业等发展的管理人员 总经理、校长等。 专业技术人员的信息需求:取决于工作性质 管理人员的信息需求共性:围绕组织目标,着眼整个 组织的发展。
动画和视频
利用人眼的视觉暂留原理,将一系列顺序排列 的静态画面连续播放,从而产生动态效果,其中的 每个画面就是视频文件的一帧。 Flash是美国Macromedia公司出品的矢量图 形编辑和动画创作的专业软件,主要应用于网页设 计和多媒体创作。其文件扩展名为:.fla .swf等。 视频文件是通过视频采集卡把模拟电视信号进 行采样、量化、转换而成的数字图像文件。常用的 视频格式有DVD、Quicktime、AVI等。 音频 音频质量主要体现在音调、音强、音色上,常 用格式有WAV、MP3、MP4、WMA、MIDI等。
四、信息资源采集的技术

4.1 信息获取技术
现代的信息不单是文字、数值、符号、图像、 声音等,而是各种形式的媒体。 文本生成 文本输入到计算机分为人工和自动两种输入方法 光学字符识别技术(OCR) 图形图像 图形即矢量图,描述点、线、面等几何图形 的大小、形状、位置及其他属性的指令集合。常 用的格式有DXF、PIF、SLD、DRW等。 图像在计算机中用数字描述像素点、强度和 颜色。常用格式为BMP、GIF、JPEG、JPG等。
二、信息资源采集的程序

2.1 需求分析
信息需求是用户为了满足何种目的需要什么信息,表现 在5个方面:
2.1.1目标用户的确定 根据信息用户类型的不同,可以将信息需求分为个人信 息需求和组织信息需求。 • 个人信息需求 个人信息需求又分为生活信息需求和职业信息 需求等。 • 组织信息需求 由团体用户产生、为实现其目标和宗旨而形成 的一系列信息需求。
案例四 沃尔玛拥有世界上最大的数据仓库系统,为了 能够准确了解顾客在其门店的购买习惯,沃尔玛对 其顾客的购物行为进行购物篮分析,想知道顾客经 常一起购买的商品有哪些。沃尔玛数据仓库里集中 了其各门店的详细原始交易数据。在这些原始交易 数据的基础上,沃尔玛利用数据挖掘方法对这些数 据进行分析和挖掘。 一个意外的发现是:"跟尿布一起购买最多的商 品竟是啤酒!经过大量实际调查和分析,揭示了一 个隐藏在"尿布与啤酒"背后的美国人的一种行为模 式:在美国,一些年轻的父亲下班后经常要到超市 去买婴儿尿布,而他们中有30%~40%的人同时也为 自己买一些啤酒。产生这一现象的原因是:美国的 太太们常叮嘱她们的丈夫下班后为小孩买尿布,而 丈夫们在买尿布后又随手带回了他们喜欢的啤酒。
开发和利用信息资源的第一步就是对信 息进行有效的采集,为了采集的高效性,需 要:
了解信息采集的目的和需求 掌握信息资源的分布规律
采集时的遵循的原则
本节学习目标
信息资源采集的原则 信息资源采集的程序 信息资源采集的方法 信息资源采集的技术

信息源分析
信息资源采集
信息资源加工 信息资源建设
结论是:
今后若有某消费者出现购买尿布的行为, 超市将可推荐该消费者同时购买啤酒。

4.3 自动分类技术
4.3.1自动分类类别
自动聚类:从待分类对象中提取特征,根据一定的 规则将具有相同或相近特征的对象归为 一类。 自动归类:从待分类对象中提取特征,通过与事先 定义好的各种类别具有的共同特征进行 分析,再将分类对象划归为特征最接近 的一类并赋予相应的分类标识。 常用算法:KNN算法即K最邻近算法
三、信息资源的采集方法

3.1 信息资源采集的效率指标 信息资源采集的效率指标有:采全率、采准率、 及时率、费用率、和劳动耗费率5个指标。 • 采全率 衡量切题信息搜集的完整程度,指某一信 取决于系统现有切题信 息发展的预测数据、用 息系统所含的全部切题信息(对该系统全体用户 户信息需求结构、相关 而言),在当时系统内、外所有切题信息中所占 信息源的分布和信息流 的比例,公式为: 的特征
文 本 数 据 源
预处理
文 本 文本挖掘分析 特 征 库
数 可视化技术 客 据 户 集 端 合 交互技术
处理过程描述如下: 1. 确定文本数据源 明确挖掘的目标、应用范围、 领域背景知识等相关数据。 2. 对数据源进行预处理并存入文本特征库 选取待分析处理的文本,利用分词技术、文本 结构分析技术等抽取出代表文本特征的元数据, 存入特征库。 3. 选择适当的挖掘分析算法,提取面向特定应用 目标的知识和模式。 文本挖掘分析技术有:文本结构分析、文本摘 要、文本分类、文本聚类、文本关联分析等。 4. 利用可视化技术将解释结果提交给用户 利用评估指标对获取的知识或模式进行评估, 根据需要进行优化处理。
2.1.2 确定采集内容
通过与信息资源采集目标和需求具有一定相 关性的信息的特征来确定。 2.1.3 确定采集的范围 采集的时间范围:注重信息的时效性,选择 适当的时间范围。 采集的空间范围:根据信息的分布特性,选 择适当的空间范围,提高信息的相关度和适应度。 2.1.4 确定采集量 采集的信息数量决定采集工作的人力、时间 和费用。 2.1.5 其他因素 信息环境、信息的可获取性等。

3.3 网络信息的采集方法
• 基于网络检索工具的信息资源采集
网络检索工具:搜索引擎、公共联机书目查 询系统(OPAC)、站点导航、非www网络采集工具 (FTP、Telnet等)、网络数据库等。 • 基于Push技术的信息资源采集 Push技术下,服务具有主动性,有效利用网 络资源,提高网络吞吐率。 • 基于网页浏览器的信息资源采集 • 基于网络交流工具的信息资源采集
相关文档
最新文档