文本特征提取技术03
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
非结构化数据分析 2018/10/6
χ2 统计量
基本思想
通过观察实际值与理论值的偏差来确定理论的正确与 否。假设两个变量确实是独立的,然后观察实际值与 理论值的偏差程度。 如果偏差足够小,认为误差是很自然的样本误差, 两者确实独立; 如果偏差大到一定程度,使得这样的误差不太可 能是偶然产生或者测量不精确所致,认为两者相 关。
非结构化数据分析
2018/10/6
那么偏差为:
非结构化数据分析
2018/10/6
χ2 统计量
非结构化数据分析
2018/10/6
χ2 统计量
卡方度量两者(term和类别)独立性的缺乏程度 χ2 越大,独立性越小,相关性越大 若AD<BC,则类和词独立, N=A+B+C+D
非结构化数据分析
熵/ 平均熵
在观察到特征项 t 以后,文档落入某个文档类的 概率就应该是条件概率 P(Ci | t ) 此时系统的熵为:
Entropy(t)= - i 1 p(Ci |t )log 2 (Ci |t )
M
该特征项的熵:该值越大,说明分布越均匀,越有 可能出现在较多的类别中;该值越小,说明分布越 倾斜,特征项可能出现在较少的类别中
非结构化数据分析 2018/10/6
TF-IDF 应用举例
但是如果只关注词频 ,“应用”一词的权重更高。这时候,可以利 用IDF的计算公式进行权重的处理,计算三个词的文档频率和文档逆 频率,假设50篇文章中出现了“粒子”一词,450篇文章中出现了 “应用”一词,900篇文章中均出现了“和”这个词语。那么采用 TF*IDF方法计算得到的权重如下:
非结构化数据分析 2018/10/6
信息增益(Information Gain, IG)
该term为整个分类所能提供的信息量 特征项出现与否导致的熵的变化 考虑和不考虑特征的熵的差值
非结构化数据分析
2018/10/6
信息增益
特征选择 Tj 出现在文档中 Tj未出现在文档 总数 文档属于 Cm类 文档不属于 Cm类 总数
非结构化数据分析
2018/10/6
向量空间模型[G.Salton,1971]
向量空间模型(Vector Space Model) 自然语言处理常用模型 基本概念
文档(Document):句子、段落、整篇文章 特征项(Term/Feature):词根/词/短语/其他 项的权重(Weight):每个特征项在文档中的重要
非结构化数据分析
文本特征提取
2018/10/6
五校联合 大数据分析硕士培养
主要内容
文本表示 特征提取 特征权重
非结构化数据分析
2018/10/6
文本表示
第一讲:文本挖掘简介
非结构化数据分析 2018/10/6
文本表示及文本预处理
去掉html一些tag标记 停用词(stop words)去除、词根还原(stemming) (中文)分词、词性标注、短语识别、… 词频统计(TFIDF) 数据清洗:去掉噪声文档或文档内垃圾数据
近年来,词性标注(POS-tagging)、词组组块(Phrase Chunking)、实体及关系
(Entities and Relationship )相关的研究也开展了很多,取得了很多可喜的成果,有兴趣的 读者可以参考后面所附的文献进行深入学习。
非结构化数据分析 2018/10/6
特征权重
非结构化数据分析
非结构化数据分析 2018/10/6
信息增益
信息量与变量可能的变化有关,跟变量具体的取值 没有任何关系,只和变量所取的种类多少以及发生 概率有关),种类和发生概率决定了信息量的大小。 Quinlan提到了这一点,信息增益的方法总是倾向 于选择有多种属性的特征。 只能考察特征对整个系统的贡献,而不能具体到某 个类别上,这就使得它只适合用来做所谓“全局”的 特征选择(指所有的类都使用相同的特征集合), 而无法做“局部”的特征选择(每个类别有自己的特 征集合,因为有的词,对这个类别很有区分度,对 另一个类别则无足轻重)。
Ld (w)G(w) Nd
Ld (w) 是词语w在文档d中的局部权重。G ( w)是词语w在文档集合中的全局权
重,N d 是文档d的标准化因子。局部加权仅使用词语在文档中出现的统计量,
而全局加权则使用整个数据集中的统计量进行计算。
非结构化数据分析
2018/10/6
特征提取
非结构化数据分析
2018/10/6
2018/10/6
特征权重
衡量某个特征项在文档表示中的重要程度或者 区分能力的强弱 更好的对文本进行表示 一般利用文本的统计信息:词频
非结构化数据分析
2018/10/6
常用的权重计算方法
非结构化数据分析
2018/10/6
TF-IDF 例子 ( Salton et al.,1983 )
文档频率
基于DF的启发式要点
太频繁的词项没有区分度,
DF大于某个阈值去掉 太稀有的词项独立表达的类别信息不强 稀有词项的全局影响力不大 在训练集中,某些文档如果有某个稀有词项,它们 通常也会有一些常见词项(对那一类) 和通常信息获取观念有些抵触:稀有的更有代表性 (这是一种ad hoc方法,不依据什么理论)
Pmj U mj Pmj U mj
Qmj Vmj Qmj Vmj
Pmj Qmj U mj Vmj
I
IG j m1 p(Cm ) log p(Cm ) p(T j ) m1 p(Cm | T j ) log p(Cm | T j ) p(T j ) m1 p(Cm | T j ) log p(Cm | T j )
Eliminates noise features Avoids overfitting
非结构化数据分析 2018/10/6
特征提取思路
特征选择(Feature
Selection)
文档频率 信息增益 卡方统计量 互信息
特征重构(Re-parameterisation)
词语 粒子 和 应用 词频(TF) 文档频率(DF ) 文档逆频率(IDF) 权重(TF*IDF)
0.05
50
900
0.063
0.35 0.15
900 450
900 900
非结构化数据分析
0 0.045
2018/10/6
特征权重注解
特征加权方法最初用于信息检索,特征加权主要有三个层次,局部加权、全 局加权和标准化(Chisholm et al.,1999)。一般化的特征加权表示式如下:
最容易实现,可扩展性好
非结构化数据分析 2018/10/6
文档频率
Baeza-Yates and Ribeiro-Neto(1990)研究表明,若 一个特征在语料集80%的文档中都出现了,它对于 分类来说是无意义的。这样的词语主要是指停用词 等,通过对这部分词语的压缩,可以使特征向量空 间压缩到原始的40%或者更多。 对于出现频率过低的词语,考虑到增加一个变量对 于现实带来的成本,一般不利用这样的词语,而是 尽可能少的选取其他词条。 Yang and Pedersen(1997)试验表明:在分类效果 没有变差的前提下将特征空间的维数约减为原来的 1/10是可能的,约减为1/100所带来的损失很小。
假设抓取了来自门户网站“经济”“娱乐”“科技” 三个版块各300篇文章,其中有一篇文章,共有100 个词,其中“粒子”“和”“应用”三个词分别出 现了 5次、35次和15次,我们想将该文档进行归类, 看它属于“经济”“娱乐”“科技”文档中的哪一 类。 初步分析认为,“粒子”、“应用”两个词应该对 文章分类的作用较大,而“和”对于文章的分析意 义不大。 更进一步的,如果目标是进行文档的归类, 有理由认为“粒子”一词对于该文章的归属的贡献 要高于“应用”。“应用”一词的专业性不及“粒 子”。
潜在语义分析
非结构化数据分析
2018/10/6
文档频率(Document Frequency,DF)
文档频率(DF)指文本数据中包含某个词条的文档的个数。 通过文档频率进行特征选择就是按照文档频率的大小对词
条进行排序,将文档频率小于某一阈值的词删除,从而降
低特征空间的维数。
非结构化数据分析
2018/10/6
wk.baidu.com
比较之下,使用词做特征成为一种更好的选择。词是中文语义的最小信息单位,词可 以更好的反映句子中的信息,但是分析难度也提升了。以中文文本为例,词与词之间
没有明确的分隔标记,计算机无法自动识别词语的边界,因此正确分词是这种表示方
法的关键。该方法比较常用。
非结构化数据分析
2018/10/6
文本表示注解
2018/10/6
低频词缺陷
只统计文档中是否出现词条T,却忽略了词条T 在文档中出现频率的信息,使得卡方检验对低 频词有所偏袒,这就夸大了低频词的作用。 如果某一特征只在一类文档中频繁出现,通过 卡方法计算出来的卡方统计量很低,在特征选 择时这种特征词就会被排除掉,但是这种在少 量文档中频繁出现的特征词很有可能对分类的 贡献很大,比如专指概念。
词性(Part Of Speech,POS)作为特征可以更好的识别词语之间的关系。让计算机来 自动地给文本中的词标注词性,然后利用词性进行词义分析。如:什么样的名词经常 和什么样的动词同时出现,这对于词语之间关系的研究开拓了新的思路。
词性标注技术的成熟为词组组块(Phrase Chunking)的界定与实体及关系(Entities and Relationship)的识别打下了良好的基础,有利于我们更深入的探索文本语义的信息。 且词组的形式提高了特征向量的语义含量,使得向量更稀疏。
非结构化数据分析
2018/10/6
互信息法(Mutual Information, MI)
MI越大,特征项t和c共现程度越大 (N=A+B+C+D)
非结构化数据分析
2018/10/6
互信息特点
MI(t,C)的值越大,t对于C的区分能力越强 对同一个类,不同的词项,在同样P(t|C)情况下, ������ 相对稀有的 t 会得到较大的值,即MI受到词条边 际概率的影响,从下面的公式中可得:
非结构化数据分析 2018/10/6
熵
对分类系统来说,文档类别C的可能取值是
C1 , C2 ,Ci
每一个类别出现的概率是
P(C1 ), P(C2 ),P(Ci )
M 为类别的总数,熵定义为:
Entropy(C)= - i 1 p(Ci )log 2 p(Ci )
M
非结构化数据分析 2018/10/6
程度。
非结构化数据分析
2018/10/6
VSM示意图—数据结构化一般思路
特征词1 文档1 文档2 文档3 文档4 权重11 权重21 权重31 权重41 特征词2 权重12 权重22 权重32 权重42 特征词3 权重13 权重23 权重33 权重43 …… …… …… …… …… 特征词n 权重1n 权重2n 权重3n 权重4n
特征提取的意义
文本集合包含的特征太多
10,000 – 1,000,000 unique words … and more 有些分类方法无法处理1,000,000以上的特征 有些分类方法的训练时间与特征个数的平方成正比,或更糟
特征减少后,某些算法才能使用
减少训练时间
使预测模型更快、更小 能提升总体性能
M M M
IG j m1
M
Pmj U mj I
M m 1
log
Pmj U mj I log U mj
P 1 j U1 j I
M m 1
Pmj Pmj Qmj
log
Pmj Pmj Qmj
V1 j U1 j I
U mj U mj Vmj
U mj Vmj
……
文档m
……
权重m1
……
权重m2
……
权重m3
……
……
……
权重mn
非结构化数据分析
2018/10/6
VSM示意图
相似度比较
内积计算
Cosine计算
非结构化数据分析
2018/10/6
文本表示注解
非结构化数据分析
2018/10/6
文本表示注解
用单个汉字(对应英语语系中的字符串)做特征,不考虑词语的含义。直接利用汉字 在文本中出现的统计特性对文本进行划分;直观明了,且操作简单,尤其对于英文文 本或其他西语文本的划分非常容易,计算机可以直接利用空格进行分隔。但是基于单 个汉字表示方法往往无法很好的代表语义信息。
χ2 统计量
基本思想
通过观察实际值与理论值的偏差来确定理论的正确与 否。假设两个变量确实是独立的,然后观察实际值与 理论值的偏差程度。 如果偏差足够小,认为误差是很自然的样本误差, 两者确实独立; 如果偏差大到一定程度,使得这样的误差不太可 能是偶然产生或者测量不精确所致,认为两者相 关。
非结构化数据分析
2018/10/6
那么偏差为:
非结构化数据分析
2018/10/6
χ2 统计量
非结构化数据分析
2018/10/6
χ2 统计量
卡方度量两者(term和类别)独立性的缺乏程度 χ2 越大,独立性越小,相关性越大 若AD<BC,则类和词独立, N=A+B+C+D
非结构化数据分析
熵/ 平均熵
在观察到特征项 t 以后,文档落入某个文档类的 概率就应该是条件概率 P(Ci | t ) 此时系统的熵为:
Entropy(t)= - i 1 p(Ci |t )log 2 (Ci |t )
M
该特征项的熵:该值越大,说明分布越均匀,越有 可能出现在较多的类别中;该值越小,说明分布越 倾斜,特征项可能出现在较少的类别中
非结构化数据分析 2018/10/6
TF-IDF 应用举例
但是如果只关注词频 ,“应用”一词的权重更高。这时候,可以利 用IDF的计算公式进行权重的处理,计算三个词的文档频率和文档逆 频率,假设50篇文章中出现了“粒子”一词,450篇文章中出现了 “应用”一词,900篇文章中均出现了“和”这个词语。那么采用 TF*IDF方法计算得到的权重如下:
非结构化数据分析 2018/10/6
信息增益(Information Gain, IG)
该term为整个分类所能提供的信息量 特征项出现与否导致的熵的变化 考虑和不考虑特征的熵的差值
非结构化数据分析
2018/10/6
信息增益
特征选择 Tj 出现在文档中 Tj未出现在文档 总数 文档属于 Cm类 文档不属于 Cm类 总数
非结构化数据分析
2018/10/6
向量空间模型[G.Salton,1971]
向量空间模型(Vector Space Model) 自然语言处理常用模型 基本概念
文档(Document):句子、段落、整篇文章 特征项(Term/Feature):词根/词/短语/其他 项的权重(Weight):每个特征项在文档中的重要
非结构化数据分析
文本特征提取
2018/10/6
五校联合 大数据分析硕士培养
主要内容
文本表示 特征提取 特征权重
非结构化数据分析
2018/10/6
文本表示
第一讲:文本挖掘简介
非结构化数据分析 2018/10/6
文本表示及文本预处理
去掉html一些tag标记 停用词(stop words)去除、词根还原(stemming) (中文)分词、词性标注、短语识别、… 词频统计(TFIDF) 数据清洗:去掉噪声文档或文档内垃圾数据
近年来,词性标注(POS-tagging)、词组组块(Phrase Chunking)、实体及关系
(Entities and Relationship )相关的研究也开展了很多,取得了很多可喜的成果,有兴趣的 读者可以参考后面所附的文献进行深入学习。
非结构化数据分析 2018/10/6
特征权重
非结构化数据分析
非结构化数据分析 2018/10/6
信息增益
信息量与变量可能的变化有关,跟变量具体的取值 没有任何关系,只和变量所取的种类多少以及发生 概率有关),种类和发生概率决定了信息量的大小。 Quinlan提到了这一点,信息增益的方法总是倾向 于选择有多种属性的特征。 只能考察特征对整个系统的贡献,而不能具体到某 个类别上,这就使得它只适合用来做所谓“全局”的 特征选择(指所有的类都使用相同的特征集合), 而无法做“局部”的特征选择(每个类别有自己的特 征集合,因为有的词,对这个类别很有区分度,对 另一个类别则无足轻重)。
Ld (w)G(w) Nd
Ld (w) 是词语w在文档d中的局部权重。G ( w)是词语w在文档集合中的全局权
重,N d 是文档d的标准化因子。局部加权仅使用词语在文档中出现的统计量,
而全局加权则使用整个数据集中的统计量进行计算。
非结构化数据分析
2018/10/6
特征提取
非结构化数据分析
2018/10/6
2018/10/6
特征权重
衡量某个特征项在文档表示中的重要程度或者 区分能力的强弱 更好的对文本进行表示 一般利用文本的统计信息:词频
非结构化数据分析
2018/10/6
常用的权重计算方法
非结构化数据分析
2018/10/6
TF-IDF 例子 ( Salton et al.,1983 )
文档频率
基于DF的启发式要点
太频繁的词项没有区分度,
DF大于某个阈值去掉 太稀有的词项独立表达的类别信息不强 稀有词项的全局影响力不大 在训练集中,某些文档如果有某个稀有词项,它们 通常也会有一些常见词项(对那一类) 和通常信息获取观念有些抵触:稀有的更有代表性 (这是一种ad hoc方法,不依据什么理论)
Pmj U mj Pmj U mj
Qmj Vmj Qmj Vmj
Pmj Qmj U mj Vmj
I
IG j m1 p(Cm ) log p(Cm ) p(T j ) m1 p(Cm | T j ) log p(Cm | T j ) p(T j ) m1 p(Cm | T j ) log p(Cm | T j )
Eliminates noise features Avoids overfitting
非结构化数据分析 2018/10/6
特征提取思路
特征选择(Feature
Selection)
文档频率 信息增益 卡方统计量 互信息
特征重构(Re-parameterisation)
词语 粒子 和 应用 词频(TF) 文档频率(DF ) 文档逆频率(IDF) 权重(TF*IDF)
0.05
50
900
0.063
0.35 0.15
900 450
900 900
非结构化数据分析
0 0.045
2018/10/6
特征权重注解
特征加权方法最初用于信息检索,特征加权主要有三个层次,局部加权、全 局加权和标准化(Chisholm et al.,1999)。一般化的特征加权表示式如下:
最容易实现,可扩展性好
非结构化数据分析 2018/10/6
文档频率
Baeza-Yates and Ribeiro-Neto(1990)研究表明,若 一个特征在语料集80%的文档中都出现了,它对于 分类来说是无意义的。这样的词语主要是指停用词 等,通过对这部分词语的压缩,可以使特征向量空 间压缩到原始的40%或者更多。 对于出现频率过低的词语,考虑到增加一个变量对 于现实带来的成本,一般不利用这样的词语,而是 尽可能少的选取其他词条。 Yang and Pedersen(1997)试验表明:在分类效果 没有变差的前提下将特征空间的维数约减为原来的 1/10是可能的,约减为1/100所带来的损失很小。
假设抓取了来自门户网站“经济”“娱乐”“科技” 三个版块各300篇文章,其中有一篇文章,共有100 个词,其中“粒子”“和”“应用”三个词分别出 现了 5次、35次和15次,我们想将该文档进行归类, 看它属于“经济”“娱乐”“科技”文档中的哪一 类。 初步分析认为,“粒子”、“应用”两个词应该对 文章分类的作用较大,而“和”对于文章的分析意 义不大。 更进一步的,如果目标是进行文档的归类, 有理由认为“粒子”一词对于该文章的归属的贡献 要高于“应用”。“应用”一词的专业性不及“粒 子”。
潜在语义分析
非结构化数据分析
2018/10/6
文档频率(Document Frequency,DF)
文档频率(DF)指文本数据中包含某个词条的文档的个数。 通过文档频率进行特征选择就是按照文档频率的大小对词
条进行排序,将文档频率小于某一阈值的词删除,从而降
低特征空间的维数。
非结构化数据分析
2018/10/6
wk.baidu.com
比较之下,使用词做特征成为一种更好的选择。词是中文语义的最小信息单位,词可 以更好的反映句子中的信息,但是分析难度也提升了。以中文文本为例,词与词之间
没有明确的分隔标记,计算机无法自动识别词语的边界,因此正确分词是这种表示方
法的关键。该方法比较常用。
非结构化数据分析
2018/10/6
文本表示注解
2018/10/6
低频词缺陷
只统计文档中是否出现词条T,却忽略了词条T 在文档中出现频率的信息,使得卡方检验对低 频词有所偏袒,这就夸大了低频词的作用。 如果某一特征只在一类文档中频繁出现,通过 卡方法计算出来的卡方统计量很低,在特征选 择时这种特征词就会被排除掉,但是这种在少 量文档中频繁出现的特征词很有可能对分类的 贡献很大,比如专指概念。
词性(Part Of Speech,POS)作为特征可以更好的识别词语之间的关系。让计算机来 自动地给文本中的词标注词性,然后利用词性进行词义分析。如:什么样的名词经常 和什么样的动词同时出现,这对于词语之间关系的研究开拓了新的思路。
词性标注技术的成熟为词组组块(Phrase Chunking)的界定与实体及关系(Entities and Relationship)的识别打下了良好的基础,有利于我们更深入的探索文本语义的信息。 且词组的形式提高了特征向量的语义含量,使得向量更稀疏。
非结构化数据分析
2018/10/6
互信息法(Mutual Information, MI)
MI越大,特征项t和c共现程度越大 (N=A+B+C+D)
非结构化数据分析
2018/10/6
互信息特点
MI(t,C)的值越大,t对于C的区分能力越强 对同一个类,不同的词项,在同样P(t|C)情况下, ������ 相对稀有的 t 会得到较大的值,即MI受到词条边 际概率的影响,从下面的公式中可得:
非结构化数据分析 2018/10/6
熵
对分类系统来说,文档类别C的可能取值是
C1 , C2 ,Ci
每一个类别出现的概率是
P(C1 ), P(C2 ),P(Ci )
M 为类别的总数,熵定义为:
Entropy(C)= - i 1 p(Ci )log 2 p(Ci )
M
非结构化数据分析 2018/10/6
程度。
非结构化数据分析
2018/10/6
VSM示意图—数据结构化一般思路
特征词1 文档1 文档2 文档3 文档4 权重11 权重21 权重31 权重41 特征词2 权重12 权重22 权重32 权重42 特征词3 权重13 权重23 权重33 权重43 …… …… …… …… …… 特征词n 权重1n 权重2n 权重3n 权重4n
特征提取的意义
文本集合包含的特征太多
10,000 – 1,000,000 unique words … and more 有些分类方法无法处理1,000,000以上的特征 有些分类方法的训练时间与特征个数的平方成正比,或更糟
特征减少后,某些算法才能使用
减少训练时间
使预测模型更快、更小 能提升总体性能
M M M
IG j m1
M
Pmj U mj I
M m 1
log
Pmj U mj I log U mj
P 1 j U1 j I
M m 1
Pmj Pmj Qmj
log
Pmj Pmj Qmj
V1 j U1 j I
U mj U mj Vmj
U mj Vmj
……
文档m
……
权重m1
……
权重m2
……
权重m3
……
……
……
权重mn
非结构化数据分析
2018/10/6
VSM示意图
相似度比较
内积计算
Cosine计算
非结构化数据分析
2018/10/6
文本表示注解
非结构化数据分析
2018/10/6
文本表示注解
用单个汉字(对应英语语系中的字符串)做特征,不考虑词语的含义。直接利用汉字 在文本中出现的统计特性对文本进行划分;直观明了,且操作简单,尤其对于英文文 本或其他西语文本的划分非常容易,计算机可以直接利用空格进行分隔。但是基于单 个汉字表示方法往往无法很好的代表语义信息。