#2信息组织原理
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2.描述控制 描述控制
描述项目的控制。指选择具有组织和揭示价 描述项目的控制 值的资源特征作为描述项目。通常包括描 述对象的各种基本要素,如题名、责任者、 出版者、地址以及文摘或题要等。 描述文字的控制。规定描述项目采用的文字、 描述文字的控制 符号,以统一的方式进行记录。 描述级别的控制。规定记录描述项目的不同 描述级别的控制 详略级别,供选择使用。 描述格式的控制。包括描述项目的次序、标 描述格式的控制 识、表达形式等,方便不同系统之间的交 流。
——为什么自然语言需要控制 为什么自然语言需要控制 为什么自然语言 • 词汇与概念不一一对应 词汇与概念不一一对应——一词多义 、 一 一词多义、 一词多义 义多词及词义含糊现象。 义多词及词义含糊现象。 • 缺乏明确的结构 缺乏明确的结构——自然语言词汇之间的 自然语言词汇之间的 关系的多元性和不确定性, 关系的多元性和不确定性 , 不符合检索系 统的使用要求; 统的使用要求; • 词汇量过大 词汇量过大——一些词无价值。 一些词无价值。 一些词无价值
①词汇控制的必要性-控制目标 词汇控制的必要性-
单义性。即使概念与语词一一对应, ①单义性。即使概念与语词一一对应,一概念只 用一语词表达,一语词只表达一个概念。 用一语词表达,一语词只表达一个概念。 准确性。所使用语词应含义明确,具有科学、 ②准确性。所使用语词应含义明确,具有科学、 准确、通用的特点,不允许出现词义含糊现象。 准确、通用的特点,不允许出现词义含糊现象。 适用性。应适用于检索工具、 ③适用性。应适用于检索工具、符合用户使用习 惯和文献状况。 惯和文献状况。 相关性。按使用需要, ④相关性。按使用需要,选择和规定词汇之间的 联系,使语词之间建立起严密的语义网络。 联系,使语词之间建立起严密的语义网络。 兼容性。 ⑤兼容性。
检准率
• 检准率 检准率(precision ratio)——指通过检索系统 指通过检索系统 检出的与某一检索提问相关的文献数与检 出文献总数之比,可用下式表示: 出文献总数之比,可用下式表示: • 检出相关文献数 • 检准率=─────── * 100% 检准率= 100% • 检出文献总数
检全率与检准率之间的关系
E. 加权
加权——是根据主题概念在一文献中的重要 是根据主题概念在一文献中的重要 加权 性 , 采用赋予一定权值的方式来规定其标引 和检索价值的方法。 和检索价值的方法。 加权法一般与布尔逻辑结合使用。 可以按 加权法一般与布尔逻辑结合使用 。 照权值大小输出。 照权值大小输出。 对权值一般应预先规定,如对标题、 对权值一般应预先规定,如对标题、小标 正文中的词,给不同的权值。 题、正文中的词,给不同的权值。
第二章 信息组织原理
一、信息组织的要求 二、信息组织中的控制与规范 三、控制与规范的依据
一、对信息组织的要求
• • • • •
检全率 检准率 响应时间 检索的易用性 检索的成本效益
检全率
检全率( 检全率(recall ratio)——指通过检索系统检 ) 指通过检索系统检 出的与某一检索提问相关的文献数与检索 系统中与该提问相关的实有文献总数之比。 系统中与该提问相关的实有文献总数之比。 检出相关文献量 检全率= 检全率=────────* 100% 系统相关文献总量
③词汇控制的不同形式- 词汇控制的不同形式- 分类标记
• 标记符号 • 标记制度 • 标记方法
3. 句法控制
①为什么要句法控制 ②引用次序 ③辅助符控制——根据文献标引和检索的需要,通 根据文献标引和检索的需要, 句法控制 根据文献标引和检索的需要 过一定的组词造句的规则, 过一定的组词造句的规则 , 对检索语词的组 合方式作出规定。 合方式作出规定。 控制的原因:自然语言句子的灵活性: 控制的原因:自然语言句子的灵活性: 灵活性 ①计算机控制人造卫星摄象系统 ②人造卫星摄象系统由计算机控制 ③被计算机控制的人造卫星摄象系统 ④计算机对人造卫星摄象系统的控制
句式变换──轮排 ④ 句式变换 轮排
轮排——是将检索语句中每一个有检索意义的语 是将检索语句中每一个有检索意义的语 轮排 词轮流在排检的位置上出现, 词轮流在排检的位置上出现,并对句中其它语 词作出相应处理的方法。要求: 词作出相应处理的方法。要求: – 提供尽可能多的检索点; 提供尽可能多的检索点 检索点; – 在改变表层结构的同时,保持原有的深层结 在改变表层结构的同时, 正确表达文献的主题内容; 构,正确表达文献的主题内容; – 减少轮排数量,使轮排有效、经济。 减少轮排数量,使轮排有效、经济。
• 引用次序 • 辅助符号 • 轮排
② 引用次序
引用次序——指复合主题标引和检索时,各个主题因素的 指复合主题标引和检索时, 引用次序 指复合主题标引和检索时 组合次序。 组合次序。
人造卫星——摄象系统 摄象系统——控制 控制——计算机 人造卫星 摄象系统 控制 计算机
作用: 作用: – 保证标引和检索的一致性, 避免因组配次序的不同造 保证标引和检索的一致性, 成文献的分散; 成文献的分散; – 也有助于根据用户的需要组织检索工具,改善检索系 也有助于根据用户的需要组织检索工具, 统的适用性; 统的适用性; – 提高标引的准确性,避免出现错误组配关系。 提高标引的准确性,
– 系统的资源数量; 系统的资源数量; – 不同的用户对象; 不同的用户对象; – 不同的使用阶段等。 不同的使用阶段等。
系统的及时性和检索时间
• 系统的及时性--指检索工具能否在 性--指检索工具能否在 较短时间内将信息资源纳入系统。标 较短时间内将信息资源纳入系统 引处理时间会影响系统的时效。 • 检索速度--指用户实施检索时获得 指用户实施检索时获得 检索结果所花费的时间。这一指标与 检索结果所花费的时间 系统响应检索提问的速度有关,同时 也与信息资源组织是否合理直接有关。
C. 关系符号
关系符号——是一种用于揭示语词组配中 是一种用于揭示语词组配中 关系符号 形成的关系类型的符号。 形成的关系类型的符号。 《国际十进分类法》中使用的关系符号: 国际十进分类法》中使用的关系符号: 并列符号——“+” 并列符号 + 物理和化学”标引为:53+ “物理和化学”标引为:53+54 关联符号——“:” 关联符号 : 物理化学” 标引为:53: “物理化学”,标引为:53:54
③ 控制符号
控制符号——是检索语言根据 是检索语言根据 控制符号 句法控制的需要设计的一整套辅 助符号。 助符号。
A. 联系符号 B. 职能符号 C.关系符号 关系符号 D.逻辑组配符号 E. 加权
A. 联系符号
联系符号——是用于揭示同一文献中不同 是用于揭示同一文献中不同 联系符号 主题之间联系强度的一种专用符号 。
• 检全率
检准率
检全率与检准率之间关系
• 保持检索系统效能的关键,是如何使检索系统 保持检索系统效能的关键, 保持适当的检全率与检准率及 保持适当的检全率与检准率及允许根据检索需 选择和调整检全率和检准率。 要,选择和调整检全率和检准率。 • 影响检全率与检准率选择的因素,如: 影响检全率与检准率选择的因素, 检全率与检准率选择的因素
检索的易用性
– 操作是否复杂; 操作是否复杂; – 检索界面是否友好; 检索界面是否友好; – 资源的可获得性 资源的可获得性。
检索的成本效益
• 成本效益是指检索系统的成本和效益之比。 成本效益是指检索系统的成本和效益之比。 是指检索系统的成本和效益之比 • 成本:包括,设备费用、标引处理费用、检 成本:包括,设备费用、标引处理费用、 索运行费用。 索运行费用。 • 效益:包括,查全、准、信息资源质量、节 效益:包括,查全、 信息资源质量、 省时间等。 省时间等。
2. 词汇控制
词汇控制——指根据信息资源标引和 指根据信息资源标引和 词汇控制 检索的需要, 检索的需要,对自然语言中的词汇进 行选择、规范,揭示其相关性的过程。 行选择、规范,揭示其相关性的过程。
①词汇控制的必要性 ②词汇控制的内容 ③分类号和代码的构词方法。 分类号和代码的构词方法。
①词汇控制的必要性
4.相关因素控制
• 引用关系。 • 链接关系。
三、规范控制的依据
1.逻辑知识 逻辑知识 2.知识分类 知识分类 3.信息资源组织的特点 信息资源组织的特点
一、对信息组织的要求
• • • • •
检全率 检准率 响应时间 检索的易用性 检索的成本效益
二、信息组织中的控制
与规范
1.描述控制 描述控制 2.词汇控制 词汇控制 3.句法控制 句法控制 4.相关因素控制 相关因素控制
1. 描述控制
描述记录记载一信息资源与 检索有关的基本特征,是信 息资源检索系统组织的基本 依据。
例:文献“铝的焊接和铜的清洗”,标引为: 文献“铝的焊接和铜的清洗” 标引为: 主题标识 联符 文献号 铝 1 1355 焊接 1 1355 铜 2 1355 清洗 2 1355
B. 职能符号
是一种表示主题标识在组配中的句法职能的辅助符号。 符号 职能 ─────────────────────── A 动作对象 B 部分 D 操作 E 施动者 ────────────────────── 老师评价学生:老师-E;评价-D;学生-A 老师评价学生:老师-E;评价-D;学生-A -E;评价-D;学生 学生评价老师:老师-A;评价-D;学生-E -A;评价-D;学生 学生评价老师:老师-A;评价-D;学生-E
D.逻辑组配符号 逻辑组配符号
通过逻辑符号的使用,对组配关系实施控 制。 例如: 例如 “污染 ( 海水 河水 ) - 石油泄漏污染 ” 污染*( 海水+河水 河水) 石油泄漏污染” 污染 检索“ 除石油泄漏污染外的海水、 检索 “ 除石油泄漏污染外的海水 、 河水 污染” 污染”。 使用逻辑符号构造检索语句是后组式检索 系统进行检索的主要方法。
常见的轮排形式
轮排转换 1 2 3 4 5 ABCDE/ BCDE/A CDE/AB DE/ABC E/ABCD 链式转换 ABCDE BCD E BC CDE DE E 分析转换 AB、BA、 AC、CA、 AD、DA、 AE、EA、 BC、CB、 BD、DB、 CD、DC、 BE、EB、 CE、EC、 DE、ED、
②词汇控制的范围
• 同义控制:同义词、准同义词、词形规范 同义控制:同义词、准同义词、 • 词义控制:一词多义、词义含糊 词义控制:一词多义、 • 词间关系控制:规定选择词间关系 词间关系控制: 其他控制:词量控制-选择、组配;词类控 制-选择名词、动名词;专指度控制;先 名词、 名词 动名词; 先组式检索系统、 组度控制-先组式检索系统、直接使用词 先组式检索系统 组。
句法控制的方法
自然语言虽然在表层结构上存在很大 差别,但在深层结构上是稳定 深层结构上是稳定的 差别,但在深层结构上是稳定的,通 常都表现为:施事-动作- 常都表现为:施事-动作-受事
例:
人造卫星——摄象系统 摄象系统——控制 控制——计 人造卫星 摄象系统 控制 计 算机
句法控制的形式
在一定组配方式的基础上, 在一定组配方式的基础上, 采用相应的句法措施实现的, 采用相应的句法措施实现的, 包括: 包括:
有代表性的引用次序
• 科茨的显著性引用次序: 科茨的显著性引用次序: 显著性引用次序 – 事物-部件-材料-活动-施动者 事物-部件-材料-活动- • 阮冈纳赞的分面公式: 阮冈纳赞的分面公式 分面公式: – PMEST 本体、物质、动力、空间时间 PMEST( 本体、物质、动力、空间时间) • 维克利等标准引用次序: 维克利等标准引用次序 标准引用次序: – 物质(产品)-种类-部分-成分-性质- 物质(产品)-种类-部分-成分-性质- )-种类 过程-操作- 过程-操作-施动者或工具 • 中文引用次序为: 中文引用次序为 – A主体因素、B通用因素、C位置因素、D 主体因素、 通用因素、 位置因素、 时间因素、 时间因素、E文献类型因素。