第2章-文本信息处理技术教学内容
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
三、中文自动标引
2.停用词表及其切分原理 (1)停用词及停用词表的概念 根据文本中词的检索意义,可以对它们做一个简单ห้องสมุดไป่ตู้分类:
❖ 检索词(检索入口词、入口词、标引词):表示具有检索意 义的词,一般为实词(多数是名词、动词等)。
❖ 停用词(禁用词、非用词):在文本中没有检索意义的词, 多是一些虚词(如介词、叹词、连词等)。
三、中文自动标引
2、抽词词典与抽词方法 (1)抽词词典 词典法的核心是构造一个词典。 优点:: 1)查全率、查准率高; 2)可以扩检、缩检。 缺点: 1)由于收词量巨大; 2)收全所有可能的词十分困难; 3)占用存储空间量大。 根据词典进行抽词显然它只适应于某些特定的领域。
三、中文自动标引
2、抽词词典与抽词方法 (2)汉语抽词词方法 机械抽词(分词)的基本思想是:对给定的待分词的汉字串s,
所谓停用词表,是一种特殊的词表,在这个词表中含有冠词、 虚词、叹词、连词、介词以及语义泛泛的词等一切在上下文 中没有检索意义的词。
三、中文自动标引
2.停用词表及其切分原理 (1)停用词及停用词表的概念
对于特定专业而言,可以将停用词表内部的词基本上可以 分为两大类: ❖ 通用性较强的停用词; ❖ 通用性不强的停用词。 停用词的特点: ❖ 停用词语义变化不大, ❖ 数量小(<1/10), ❖ 出现频率高 ; 停用词表的搜集要坚持完备性原则。
做索引词。 ❖ 全关键词标引:把除停用词以外的全部关键词抽出,直接做索引词。
抽词标引的标引词只能来源于文献本身的文内关键词,所以也称为自 由词标引。 优点:无需主题切换,接近自然语言。 缺点: ❖ 标引用词不规范,影响查全率; ❖ 同义词检索降低系统的时间效率; ❖ 难以找出词和词之间的相互关系,很难进一步利用语义信息。
按照某种确定的原则切取s的子串,若该子串中与词库中的 某词条相匹配,则该子串是词,继续分割剩余的部分,直到 剩余部分为空;否则,该子串不是词,转上重新切取S的子 串进行匹配。 机械匹配法中有三种基本成分: ❖ 是切分的方向有正(或顺)向和逆向之分; ❖ 每轮匹配的结果是最大还是最小匹配; ❖ 每一轮匹配是在不断的增字或不断的减字中完成的。
半自动标引基本技术实现是: (1)文献纪录(题目等著录项目)键入终端后显示在荧光屏上; (2)操作人员移动光标从题目中抽取关键词; (3)利用人机对话方式输入与标题内容有关的隐含概念词,以保证主题标
引的全面性;同时删除计算机程序错误组配的词。 (4)根据词库中的参照系统将关键词转换成标准主题词,进行上位登录。
❖ 建立索引或倒排档。
自动标引(automatic indexing):“自动标引就 是用机器抽取或赋予索引词,一旦编制好程序和规 则,就不需要人工干预。”
一、自动标引的含义
2、自动标引的类型 从标引工作的自动化程度来说,自动标引分为: ❖ 全自动标引(automatic indexing); ❖ 半自动标引(机助标引:Automated indexing)。
二、自动标引的流程
篇章
语句
1
语句段
词
2
词加权
选词
标点符号
停用词表 主题词典
词频
阈值 转换
3
索引生成
规范化
三、中文自动标引
1、汉语分词与中文自动标引 分词:就是把一个句子按照其中词的含义进行切分。 抽词:信息检索系统中所涉及的“分词”
——实际上是抽取代表主题概念的关键词。 目前比较常用的抽出自由词的方法有两种: ❖ 词典匹配标引法; ❖ 单汉字标引法。 词典匹配标引法的步骤: ❖ 利用停用词表将语句分为语句段(子字串); ❖ 利用主题词典(或关键词典)将语句段分为词;
词库是计算机辅助标引的核心。 从标引词的来源去划分,自动标引分为: ❖ 自动抽词标引; ❖ 自动赋词标引
一、自动标引的含义
(3)自动抽词标引(自由词标引)
定义:利用计算机直接从文献题名、文摘或正文中自动抽出能表达文献主 题的词作为标引词,并自动生成关键词索引或倒排档。
类别: ❖ 主关键词标引:要求计算机从抽出的全部关键词中选出少量主要关键词
第2章-文本信息处理技术
第一节 自动标引技术
一 自动标引的含义 二 自动标引的流程 三 中文自动标引
一、自动标引的含义
1.自动标引的定义
文献标引:指对所收集的文献给出标识导引,这些标 识包括文献标题、作者名、分类号和主题词等。
文献标引作业包括:
❖ 文献文本分析;
❖ 特征信息(主题词、关键词及其他标识)的提取与 描述:
三、中文自动标引
2.停用词表及其切分原理 (2)利用停用词表的切分原理 利用停用词表进行切分的基本原理:把停用词表中的词与要进
行切分的文本各字段(标题、文摘、全文等)依次进行匹配, 当文本中经过这样的处理后,删除那些与停用词匹配成功的 词,这样文本自然就被切分成若干段。 ❖ 西文,切分以后的段就是检索入口词(标引词)。 ❖ 中文:切分以后的段中包含着所有完整的词或词组。
使用停用词进行切分所完成的工作量大约占整个切分工作 量的50%。
三、中文自动标引
2、抽词词典与抽词方法 (1)抽词词典 词典切分标引的实现思想是:构造一个机内词典(有主题词典、
关键词典等)然后设计各种算法用文献数据去匹配词典,文 献中的词在词典中出现,即表示为标引词,进行文献的标引 处理。 根据机内词典的不同具体形式,词典标引法又分为: ❖ 主题词表法; ❖ 关键词词典法;
自动赋词标引是在自动抽词标引的基础上发展起来的。 最合理的标引方法:混合标引方法
二、自动标引的流程
在手工标引中,标引员的一般工作流程是: 1. 阅读待标引文献 2. 分析文献内容 3. 提取文献主题概念 4. 用语词符号或语句去表达主题概念 5. 使表达规范化(转换为受控词) 6. 编制索引款目 7. 将全部索引款目汇集和编辑为索引或文档。
一、自动标引的含义
(4)自动赋词标引(受控词标引) 定义:让计算机模仿人的赋词标引方法,分析文献的内容,选
取与文献主题相符或密切相关的语词符号作为索引词。 其标引词是由描述词组成的,这些词不一定来源于文献本身所
用的词,而是选自预先编制的词表,所以叫受控词标引。 优点: ❖ 规范化用词 ❖ 词表可以反映词的“类-属”关系。 缺点: ❖ 受控词标引往往有一定的标引误差; ❖ 词典面临老化的问题; ❖ 主题词表对用户来说往往是一个负担;