文本处理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
32
16
人工方法和自动方法
人工方法:人工总结规则 – 优点:
• 结果容易理解:如足球and 联赛 体育类
– 缺点:
• 费时费力 • 难以保证一致性和准确性(40%左右的准确率) • 专家有时候凭空想象,没有基于真实语料的分布
– 代表方法:人们曾经通过知识工程的方法建立专家系统 (80年代末期)用于分类。
– 分类是有监督/指导学习(Supervised Learning)的一种
29
文本分类的模式
从类别数目来分
– 2类(binary)问题,类别体系由两个互补类构成,一篇文 本属于或不属于某一类。
– 多类(multi-class)问题,类别体系由三个或者以上的类别 构成,一篇文本可以属于某一个或者多个类别,通常可 以通过拆分成多个2类问题来实现,也有直接面对多类 问题的分类方法
31
应用
垃圾邮件的判定 – 类别{spam, not-spam}
新闻出版按照栏目分类 – 类别{政治,体育,军事,…}
词性标注 – 类别{名词,动词,形容词,…}
词义排歧 – 类别{词义1,词义2,…}
计算机论文的领域 – 类别ACM system
• H: information systems • H.3: information retrieval and storage
2
1
词法分析(Lexical Analysis)
将文档的字符串序列变成词序列
– 英文词法分析
• 书写时英文词之间通常通过空格或者标点进行区分,因此 从英文字符串变成英文词是相对比较容易的。
– 中文词法分析
• 书写时通常没有空格,需要分词
3
英文词法分析(1)
数字的考虑:
– 某人想查询1978到1989年间车祸的死亡人数,可能查出 来的结果有很多这两年本身的死亡人数,因此,上面的 查询中,数字不是一个很好的index term。
来的文本进行类别判定。
文本表示(text representation):
– 不管是训练还是测试,都要先分析出文本的某些特征 (feature,也称为标引项term),然后把文本变成这些特 征的某种适宜处理的表示形式,通常都采用向量表示形 式或者直接使用某些统计量。
35
文本分类的过程(2)
36
18
24
12
什么是聚类
简单地说,聚类是指事先没有“标签”而通过某种成 团分析找出事物之间存在聚集性原因的过程。
– 去研究生院一个大教室上自习,往往发现大家三三两两 扎推地坐,一打听,原来坐在一块的大都是一个班的。
– 事先不知道“标签”,根据对象之间的相似情况进行成 团分析。
25
信息处理中分类和聚类的原因
特征抽取(Feature Extraction)
预处理 – 去掉html一些tag标记 – 禁用词(stop words)去除、词根还原(stemming) – (中文)分词、词性标注、短语识别、… – 标引项频率统计
• TFi,j: 特征i在文档j中出现次数,标引项频率(Term Frequency) • DFi: 所有文档集合中出现特征i的文档数目,文档频率(Document
对大小写的考虑:
– 通常情况下,不考虑大小写,词法分析程序会将所有字 母全部变成大写或者小写。
– 但是,某些情况下,同一个单词的大小写含义不一样,
如: China(中国)和china(陶瓷)
5
中文词法分析(1)
中文分词是很多中文文本处理的第一步
– 我国科学家近日研制出一套水下反恐监控系统
分词方法
11
停Leabharlann Baidu词消除(1)
停用词(stop words)
– 那些在文档中出现过于频繁(如超过80%以上的文档均出 现该词)而对于检索没有区分意义的词
– 常见的停用词包括冠词、介词、连词
优点
– 停用词消除可以减少term的个数,降低存储空间
缺点
– 有时消除的停用词对检索是有意义的,如:“的士”中 的“的”“to be or not to be”,因此有些搜索引擎直接 采用全文索引(full index)
统计方法通过计算得到一些数学表达式来指导分类。 规则方法和统计方法没有本质的区别,它们都是想得
到某种规律性的东西来指导分类,统计方法得到的数 学表达式可以认为是某种隐式规则。 在目前的文本分类当中,统计方法占据了主流地位。
34
17
文本分类的过程(1)
两个步骤:
– 训练(training):即从训练样本中学习分类的规律。 – 测试(test或分类classification):根据学习到的规律对新
20
10
分类/聚类是大自然的固有现象:物以类聚、人以群分
– 相似的对象往往聚集在一起 – (相对而言)不相似的对象往往分开
21
什么是分类?
简单地说,分类(Categorization or Classification)就是按 照某种标准给对象贴标签(label)
•男
•女
22
11
分类非常普遍
– 歧义问题(Ambiguition):同一句子有多种可能的分词结 果
• 交叉性歧义:我们小组合成氢气 或我们/小/组合/成/氢气
我们/小组/合成/氢气
• 组合性歧义:他/从/马/上/下/来;我/马上/就/来/了
9
中文词法分析(5)
解决歧义和未登录词识别的基本方法:
– 规则方法:分词过程中或者分词结束后根据规则进行处 理;
分类/聚类的根本原因就是因为对象数目太多,处理困 难
– 一些信息处理部门,一个工作人员一天要看上千份信息 – 分门别类将会大大减少处理难度,提高处理效率和效果
26
13
分类/聚类的过程
对对象进行表示
– 表示方法 – 特征选择
根据某种算法进行相似度计算
– 相似度计算方法 – 分类/聚类方法
12
6
停用词消除(2)
消除方法:
– 查表法:建立一个停用词表,通过查表的方式去掉停用 词
– 基于DF的方法:统计每个词的DF,如果超过总文档数 目的某个百分比(如80%),则作为停用词去掉。
13
英文词干还原(1)
很多英文词源于同一词根,但是在文章中出出现多种 形式,名词单复数、动词时态、形容词和副词的比较 级与最高级等等。
分类体系一般由人工构造,可以是层次结构。一些分 类体系: Reuters语料分类体系、中图分类、Yahoo!分 类目录。
对于计算机而言,分类体系就是一棵目录树,训练样 例文本就是最后的叶子节点。而且对于计算机处理而 言,只需要训练样例文本及其对应类别信息,整个过 程通常并不会考虑类别标签的意义。也就是说:几篇 文档合在一起表示某个类别。
词干还原
– 就是将来自同一词根的不同词还原成词根 – faces ----Æ face – connection -----Æconnect
14
7
英文词干还原(2)
Porter 算法
– 使用一系列后缀变换规则对单词进行变换
例
– ed -----Ænull – Ing -----Æ null – ational -----Æ ate – tional -----Æ tion
从是否兼类看分
– 单标签(single label)问题:一个文本只属于一个类 – 多标签(multi-label)问题:一个文本可以属于多类,即出
现兼类现象
30
15
关于分类体系
分类体系的构建标准可以是按照语义(如:政治、经济、 军事…),也可以是按照其他标准(如:垃圾vs. 非垃圾; 游戏网站vs. 非游戏网站),完全取决于目标应用的需 求。
文本处理
张茂元 E-mail: zmydragon@163.com
1
内容
文档预处理
– 词法分析 – 停用词消除 – 词干还原 – Term选择
文本分类
– 文本分类的定义和应用 – 文本分类的方法 – 文本分类的评估指标
文本聚类
– 文本聚类的定义 – 文本聚类的方法 – 文本聚类的评估指标
– 但是,一些和字符组合的数字,如“510B.C”,还有一 些长数字,如身份证号、手机号,可能是非常好的index term。
最简单的做法
– 就是所有数字都去掉
复杂的方法
– 需要引入规则来分析,包括对时间的识别和归一化,如: October 1978,Oct. 1978都要归一化成某个统一表示
Frequency)
– 数据清洗:去掉不合适的噪声文档或文档内垃圾数据 文本表示
– 向量空间模型 降维技术
– 特征选择(Feature Selection) – 特征重构(Re-parameterisation,如LSI)
37
文本表示
向量空间模型(Vector Space Model,VSM)
– 基于词典的方法:给出一部词典,根据这部词典进行匹 配
– 无词典的方法:不需要词典,根据某种人工构词规则或 者统计规则从字生成词。
6
3
中文词法分析(2)
正向最大匹配(基于词典的方法)
7
中文词法分析(3)
逆向最大匹配(基于词典的方法)
8
4
中文词法分析(4)
分词中遇到的两大难题:
– 未登录词问题(Out of Vocabulary,OOV):出现词典中没 有的词,如:人名、地名、机构名、一些新词等等
4
2
英文词法分析(2)
对连字号的考虑:
– 有些连字号中的词可以分开,如state-of-the-art变成state of the art
– 有些连字号中的词不宜分开,如B-49(一款分机型号)
– 进行词法分析时需要考虑引入一些规则方法
英文句点的考虑:
– 通常的情况下可以去掉
– 但是当句点是词的一部分的时候,需要保留,如: 510B.C 和x.name
27
思考
有人说检索也可以看成分类问题,你怎么看?如果可 以看成分类的话,相关反馈的作用是什么?
如何把中文分词看成一种分类问题?
28
14
文本分类的定义
事先给定分类体系和训练样例(标注好类别信息的文 本),将文本分到某个或者某几个类别中。
– 计算机自动分类,就是根据已经标注好类别信息的训练 集合进行学习,将学习到的规律用于新样本(也叫测试 样本)的类别判定。
– ABB式和ABCD式。
例
18
9
Index term的选择
选择更有意义的词或者概念来表示文档
– 方法一:选择名词 – 方法二:选择名词和名词短语(computer science) – 方法三:选择一组组的名词(每个组内的名词比较相似,
一个组可以称为一个概念)
19
文本分类
思考
– 分类/聚类的概念是什么?有什么关系?有什么区别? – 为什么要进行(文本)分类/聚类? – (文本)分类/聚类的过程如何? – (文本)分类/聚类如何进行特征选择? – (文本)分类/聚类的方法有哪些? – 如何评价(文本)分类/聚类的效果?
– 统计方法:分词过程中或者分词结束后根据统计训练信 息进行处理。
– 规则+统计
10
5
中英文词法分析
词性标注(part-of-speech tagging)
– They/pron are/prep boys/noun and/conj girls/noun.
通常的方法:
– 规则方法:普通规则方法,基于错误转换驱动的方法 – 统计方法:HMM – 规则+统计
自动的方法(学习):从训练语料中学习规则 – 优点:
• 快速 • 准确率相对高(准确率可达60%或者更高) • 来源于真实文本,可信度高
– 缺点:
• 结果可能不易理解(比如有时是一个复杂的数学表达式) 33
规则方法和统计方法
规则方法通过得到某些规则来指导分类,而这些规则 往往是人可以理解的。
性别、籍贯、民族、学历、年龄等等,我们每个人身 上贴满了“标签”
我们从孩提开始就具有分类能力:爸爸、妈妈;好阿 姨、坏阿姨;电影中的好人、坏人等等。
分类无处不在,从现在开始,我们可以以分类的眼光 看世界☺
23
思考
从如下叙述中找出“标签”
– 你以为我穷,不好看,就没有感情吗?我也会有的。如 果上帝赋予我财富和美貌,我一定要让你难于离开我, 就像我现在难于离开你。上帝没有这样,我们的精神是 同等的,就如同你跟我经过坟墓,将同样地站在在上帝 面前
15
中文重叠词还原(1)
汉语的某些形容词有重叠式用法
– 这些重叠式用法是词典里所没有的,所以必须通过还原 算法从重叠式用法变回到基本形式上
– 也可以看成是一种“词干”还原
16
8
中文重叠词还原(2)
双字形容词的重叠用法
– ABAB式,AABB式、A里AB式。
例
17
中文重叠词还原(3)
单字形容词的重叠用法
16
人工方法和自动方法
人工方法:人工总结规则 – 优点:
• 结果容易理解:如足球and 联赛 体育类
– 缺点:
• 费时费力 • 难以保证一致性和准确性(40%左右的准确率) • 专家有时候凭空想象,没有基于真实语料的分布
– 代表方法:人们曾经通过知识工程的方法建立专家系统 (80年代末期)用于分类。
– 分类是有监督/指导学习(Supervised Learning)的一种
29
文本分类的模式
从类别数目来分
– 2类(binary)问题,类别体系由两个互补类构成,一篇文 本属于或不属于某一类。
– 多类(multi-class)问题,类别体系由三个或者以上的类别 构成,一篇文本可以属于某一个或者多个类别,通常可 以通过拆分成多个2类问题来实现,也有直接面对多类 问题的分类方法
31
应用
垃圾邮件的判定 – 类别{spam, not-spam}
新闻出版按照栏目分类 – 类别{政治,体育,军事,…}
词性标注 – 类别{名词,动词,形容词,…}
词义排歧 – 类别{词义1,词义2,…}
计算机论文的领域 – 类别ACM system
• H: information systems • H.3: information retrieval and storage
2
1
词法分析(Lexical Analysis)
将文档的字符串序列变成词序列
– 英文词法分析
• 书写时英文词之间通常通过空格或者标点进行区分,因此 从英文字符串变成英文词是相对比较容易的。
– 中文词法分析
• 书写时通常没有空格,需要分词
3
英文词法分析(1)
数字的考虑:
– 某人想查询1978到1989年间车祸的死亡人数,可能查出 来的结果有很多这两年本身的死亡人数,因此,上面的 查询中,数字不是一个很好的index term。
来的文本进行类别判定。
文本表示(text representation):
– 不管是训练还是测试,都要先分析出文本的某些特征 (feature,也称为标引项term),然后把文本变成这些特 征的某种适宜处理的表示形式,通常都采用向量表示形 式或者直接使用某些统计量。
35
文本分类的过程(2)
36
18
24
12
什么是聚类
简单地说,聚类是指事先没有“标签”而通过某种成 团分析找出事物之间存在聚集性原因的过程。
– 去研究生院一个大教室上自习,往往发现大家三三两两 扎推地坐,一打听,原来坐在一块的大都是一个班的。
– 事先不知道“标签”,根据对象之间的相似情况进行成 团分析。
25
信息处理中分类和聚类的原因
特征抽取(Feature Extraction)
预处理 – 去掉html一些tag标记 – 禁用词(stop words)去除、词根还原(stemming) – (中文)分词、词性标注、短语识别、… – 标引项频率统计
• TFi,j: 特征i在文档j中出现次数,标引项频率(Term Frequency) • DFi: 所有文档集合中出现特征i的文档数目,文档频率(Document
对大小写的考虑:
– 通常情况下,不考虑大小写,词法分析程序会将所有字 母全部变成大写或者小写。
– 但是,某些情况下,同一个单词的大小写含义不一样,
如: China(中国)和china(陶瓷)
5
中文词法分析(1)
中文分词是很多中文文本处理的第一步
– 我国科学家近日研制出一套水下反恐监控系统
分词方法
11
停Leabharlann Baidu词消除(1)
停用词(stop words)
– 那些在文档中出现过于频繁(如超过80%以上的文档均出 现该词)而对于检索没有区分意义的词
– 常见的停用词包括冠词、介词、连词
优点
– 停用词消除可以减少term的个数,降低存储空间
缺点
– 有时消除的停用词对检索是有意义的,如:“的士”中 的“的”“to be or not to be”,因此有些搜索引擎直接 采用全文索引(full index)
统计方法通过计算得到一些数学表达式来指导分类。 规则方法和统计方法没有本质的区别,它们都是想得
到某种规律性的东西来指导分类,统计方法得到的数 学表达式可以认为是某种隐式规则。 在目前的文本分类当中,统计方法占据了主流地位。
34
17
文本分类的过程(1)
两个步骤:
– 训练(training):即从训练样本中学习分类的规律。 – 测试(test或分类classification):根据学习到的规律对新
20
10
分类/聚类是大自然的固有现象:物以类聚、人以群分
– 相似的对象往往聚集在一起 – (相对而言)不相似的对象往往分开
21
什么是分类?
简单地说,分类(Categorization or Classification)就是按 照某种标准给对象贴标签(label)
•男
•女
22
11
分类非常普遍
– 歧义问题(Ambiguition):同一句子有多种可能的分词结 果
• 交叉性歧义:我们小组合成氢气 或我们/小/组合/成/氢气
我们/小组/合成/氢气
• 组合性歧义:他/从/马/上/下/来;我/马上/就/来/了
9
中文词法分析(5)
解决歧义和未登录词识别的基本方法:
– 规则方法:分词过程中或者分词结束后根据规则进行处 理;
分类/聚类的根本原因就是因为对象数目太多,处理困 难
– 一些信息处理部门,一个工作人员一天要看上千份信息 – 分门别类将会大大减少处理难度,提高处理效率和效果
26
13
分类/聚类的过程
对对象进行表示
– 表示方法 – 特征选择
根据某种算法进行相似度计算
– 相似度计算方法 – 分类/聚类方法
12
6
停用词消除(2)
消除方法:
– 查表法:建立一个停用词表,通过查表的方式去掉停用 词
– 基于DF的方法:统计每个词的DF,如果超过总文档数 目的某个百分比(如80%),则作为停用词去掉。
13
英文词干还原(1)
很多英文词源于同一词根,但是在文章中出出现多种 形式,名词单复数、动词时态、形容词和副词的比较 级与最高级等等。
分类体系一般由人工构造,可以是层次结构。一些分 类体系: Reuters语料分类体系、中图分类、Yahoo!分 类目录。
对于计算机而言,分类体系就是一棵目录树,训练样 例文本就是最后的叶子节点。而且对于计算机处理而 言,只需要训练样例文本及其对应类别信息,整个过 程通常并不会考虑类别标签的意义。也就是说:几篇 文档合在一起表示某个类别。
词干还原
– 就是将来自同一词根的不同词还原成词根 – faces ----Æ face – connection -----Æconnect
14
7
英文词干还原(2)
Porter 算法
– 使用一系列后缀变换规则对单词进行变换
例
– ed -----Ænull – Ing -----Æ null – ational -----Æ ate – tional -----Æ tion
从是否兼类看分
– 单标签(single label)问题:一个文本只属于一个类 – 多标签(multi-label)问题:一个文本可以属于多类,即出
现兼类现象
30
15
关于分类体系
分类体系的构建标准可以是按照语义(如:政治、经济、 军事…),也可以是按照其他标准(如:垃圾vs. 非垃圾; 游戏网站vs. 非游戏网站),完全取决于目标应用的需 求。
文本处理
张茂元 E-mail: zmydragon@163.com
1
内容
文档预处理
– 词法分析 – 停用词消除 – 词干还原 – Term选择
文本分类
– 文本分类的定义和应用 – 文本分类的方法 – 文本分类的评估指标
文本聚类
– 文本聚类的定义 – 文本聚类的方法 – 文本聚类的评估指标
– 但是,一些和字符组合的数字,如“510B.C”,还有一 些长数字,如身份证号、手机号,可能是非常好的index term。
最简单的做法
– 就是所有数字都去掉
复杂的方法
– 需要引入规则来分析,包括对时间的识别和归一化,如: October 1978,Oct. 1978都要归一化成某个统一表示
Frequency)
– 数据清洗:去掉不合适的噪声文档或文档内垃圾数据 文本表示
– 向量空间模型 降维技术
– 特征选择(Feature Selection) – 特征重构(Re-parameterisation,如LSI)
37
文本表示
向量空间模型(Vector Space Model,VSM)
– 基于词典的方法:给出一部词典,根据这部词典进行匹 配
– 无词典的方法:不需要词典,根据某种人工构词规则或 者统计规则从字生成词。
6
3
中文词法分析(2)
正向最大匹配(基于词典的方法)
7
中文词法分析(3)
逆向最大匹配(基于词典的方法)
8
4
中文词法分析(4)
分词中遇到的两大难题:
– 未登录词问题(Out of Vocabulary,OOV):出现词典中没 有的词,如:人名、地名、机构名、一些新词等等
4
2
英文词法分析(2)
对连字号的考虑:
– 有些连字号中的词可以分开,如state-of-the-art变成state of the art
– 有些连字号中的词不宜分开,如B-49(一款分机型号)
– 进行词法分析时需要考虑引入一些规则方法
英文句点的考虑:
– 通常的情况下可以去掉
– 但是当句点是词的一部分的时候,需要保留,如: 510B.C 和x.name
27
思考
有人说检索也可以看成分类问题,你怎么看?如果可 以看成分类的话,相关反馈的作用是什么?
如何把中文分词看成一种分类问题?
28
14
文本分类的定义
事先给定分类体系和训练样例(标注好类别信息的文 本),将文本分到某个或者某几个类别中。
– 计算机自动分类,就是根据已经标注好类别信息的训练 集合进行学习,将学习到的规律用于新样本(也叫测试 样本)的类别判定。
– ABB式和ABCD式。
例
18
9
Index term的选择
选择更有意义的词或者概念来表示文档
– 方法一:选择名词 – 方法二:选择名词和名词短语(computer science) – 方法三:选择一组组的名词(每个组内的名词比较相似,
一个组可以称为一个概念)
19
文本分类
思考
– 分类/聚类的概念是什么?有什么关系?有什么区别? – 为什么要进行(文本)分类/聚类? – (文本)分类/聚类的过程如何? – (文本)分类/聚类如何进行特征选择? – (文本)分类/聚类的方法有哪些? – 如何评价(文本)分类/聚类的效果?
– 统计方法:分词过程中或者分词结束后根据统计训练信 息进行处理。
– 规则+统计
10
5
中英文词法分析
词性标注(part-of-speech tagging)
– They/pron are/prep boys/noun and/conj girls/noun.
通常的方法:
– 规则方法:普通规则方法,基于错误转换驱动的方法 – 统计方法:HMM – 规则+统计
自动的方法(学习):从训练语料中学习规则 – 优点:
• 快速 • 准确率相对高(准确率可达60%或者更高) • 来源于真实文本,可信度高
– 缺点:
• 结果可能不易理解(比如有时是一个复杂的数学表达式) 33
规则方法和统计方法
规则方法通过得到某些规则来指导分类,而这些规则 往往是人可以理解的。
性别、籍贯、民族、学历、年龄等等,我们每个人身 上贴满了“标签”
我们从孩提开始就具有分类能力:爸爸、妈妈;好阿 姨、坏阿姨;电影中的好人、坏人等等。
分类无处不在,从现在开始,我们可以以分类的眼光 看世界☺
23
思考
从如下叙述中找出“标签”
– 你以为我穷,不好看,就没有感情吗?我也会有的。如 果上帝赋予我财富和美貌,我一定要让你难于离开我, 就像我现在难于离开你。上帝没有这样,我们的精神是 同等的,就如同你跟我经过坟墓,将同样地站在在上帝 面前
15
中文重叠词还原(1)
汉语的某些形容词有重叠式用法
– 这些重叠式用法是词典里所没有的,所以必须通过还原 算法从重叠式用法变回到基本形式上
– 也可以看成是一种“词干”还原
16
8
中文重叠词还原(2)
双字形容词的重叠用法
– ABAB式,AABB式、A里AB式。
例
17
中文重叠词还原(3)
单字形容词的重叠用法