第2章 文本信息处理技术综述

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

一、自动标引的含义
(4)自动赋词标引(受控词标引) 定义:让计算机模仿人的赋词标引方法,分析文献的内容,选 取与文献主题相符或密切相关的语词符号作为索引词。 其标引词是由描述词组成的,这些词不一定来源于文献本身所 用的词,而是选自预先编制的词表,所以叫受控词标引。 优点: 规范化用词 词表可以反映词的“类-属”关系。 缺点: 受控词标引往往有一定的标引误差; 词典面临老化的问题; 主题词表对用户来说往往是一个负担; 自动赋词标引是在自动抽词标引的基础上发展起来的。 最合理的标引方法:混合标引方法
三、中文自动标引
2.停用词表及其切分原理 (1)停用词及停用词表的概念 对于特定专业而言,可以将停用词表内部的词基本上可以 分为两大类: 通用性较强的停用词; 通用性不强的停用词。 停用词的特点: 停用词语义变化不大, 数量小(<1/10), 出现频率高 ; 停用词表的搜集要坚持完备性原则。
三、中文自动标引
2、抽词词典与抽词方法 (1)抽词词典 词典法的核心是构造一个词典。 优点:: 1)查全率、查准率高; 2)可以扩检、缩检。 缺点: 1)由于收词量巨大; 2)收全所有可能的词十分困难; 3)占用存储空间量大。 根据词典进行抽词显然它只适应于某些特定的领域。
三、中文自动标引
2、抽词词典与抽词方法 (2)汉语抽词词方法 机械抽词(分词)的基本思想是:对给定的待分词的汉字串 s, 按照某种确定的原则切取 s 的子串,若该子串中与词库中的 某词条相匹配,则该子串是词,继续分割剩余的部分,直到 剩余部分为空;否则,该子串不是词,转上重新切取S的子 串进行匹配。 机械匹配法中有三种基本成分: 是切分的方向有正(或顺)向和逆向之分; 每轮匹配的结果是最大还是最小匹配; 每一轮匹配是在不断的增字或不断的减字中完成的。
三、中文自动标引
2.停用词表及其切分原理 (1)停用词及停用词表的概念 根据文本中词的检索意义,可以对它们做一个简单的分类: 检索词(检索入口词、入口词、标引词):表示具有检索意 义的词,一般为实词(多数是名词、动词等)。 停用词(禁用词、非用词):在文本中没有检索意义的词, 多是一些虚词(如介词、叹词、连词等)。 所谓停用词表,是一种特殊的词表,在这个词表中含有冠词、 虚词、叹词、连词、介词以及语义泛泛的词等一切在上下文 中没有检索意义的词。
三、中文自动标引
2.停用词表及其切分原理 (2)利用停用词表的切分原理 利用停用词表进行切分的基本原理:把停用词表中的词与要进 行切分的文本各字段(标题、文摘、全文等)依次进行匹配, 当文本中经过这样的处理后,删除那些与停用词匹配成功的 词,这样文本自然就被切分成若干段。 西文,切分以后的段就是检索入口词(标引词)。 中文:切分以后的段中包含着所有完整的词或词组。 使用停用词进行切分所完成的工作量大约占整个切分工作 量的50%。
一、自动标引的含义
2、自动标引的类型 从标引工作的自动化程度来说,自动标引分为: 全自动标引(automatic indexing); 半自动标引(机助标引:Automated indexing)。 半自动标引基本技术实现是: (1)文献纪录(题目等著录项目)键入终端后显示在荧光屏上; (2)操作人员移动光标从题目中抽取关键词; (3)利用人机对话方式输入与标题内容有关的隐含概念词,以保证主题标 引的全面性;同时删除计算机程序错误组配的词。 (4)根据词库中的参照系统将关键词转换成标准主题词,进行上位登录。 词库是计算机辅助标引的核心。 从标引词的来源去划分,自动标引分为: 自动抽词标引; 自动赋词标引

词加权
选词
标点符号
停用词表
主题词典
词频
阈值 转换
3
索引生成
规范化
三、中文自动标引
1、汉语分词与中文自动标引 分词:就是把一个句子按照其中词的含义进行切分。 抽词:信息检索系统中所涉及的“分词” ——实际上是抽取代表主题概念的关键词。 目前比较常用的抽出自由词的方法有两种: 词典匹配标引法; 单汉字标引法。 词典匹配标引法的步骤: 利用停用词表将语句分为语句段(子字串); 利用主题词典(或关键词典)将语句段分为词;
第三章 文本信息处理技术
第三章 文本信息处理技术
1
自动标引技术
2 3
标引词加权方法
自动分类技术
第一节 自动标引技术

自动标引的含义
二 三
自动标引的流程
中文自动标引
一、自动标引的含义
1.自动标引的定义 文献标引:指对所收集的文献给出标识导引,这些标 识包括文献标题、作者名、分类号和主题词等。 文献标引作业包括: 文献文本分析; 特征信息(主题词、关键词及其他标识)的提取与 描述: 建立索引或倒排档。 自动标引(automatic indexing):“自动标引就 是用机器抽取或赋予索引词,一旦编制好程序和规 则,就不需要人工干预。”
一、自动标引的含义
(3)自动抽词标引(自由词标引)
定义:利用计算机直接从文献题名、文摘或正文中自动抽出能表达文献主 题的词作为标引词,并自动生成关键词索引或倒排档。 类别: 主关键词标引:要求计算机从抽出的全部关键词中选出少量主要关键词 做索引词。 全关键词标引:把除停用词以外的全部关键词抽出,直接做索引词。 抽词标引的标引词只能来源于文献本身的文内关键词,所以也称为自 由词标引。 优点:无需主题切换,接近自然语言。 缺点: 标引用词不规范,影响查全率; 同义词检索降低系统的时间效率; 难以找出词和词之间的相互关系,很难进一步利用语义信息。
二、自动标引的流程
在手工标引中,标引员的一般工作流程是: 1. 阅读待标引文献 2. 分析文献内容 3. 提取文献主题概念 4. 用语词符号或语句去表达主题概念 5. 使表达规范化(转换为受控词) 6. 编制索引款目 7. 将全部索引款目汇集和编辑为索引或文档。
二、自动标引的流程
1 2
篇章
语句Байду номын сангаас
语句段
三、中文自动标引
2、抽词词典与抽词方法 (1)抽词词典 词典切分标引的实现思想是:构造一个机内词典(有主题词典、 关键词典等)然后设计各种算法用文献数据去匹配词典,文 献中的词在词典中出现,即表示为标引词,进行文献的标引 处理。 根据机内词典的不同具体形式,词典标引法又分为: 主题词表法; 关键词词典法;
相关文档
最新文档