文本挖掘PPT
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
❖ 最佳匹配法(Optimum Matching method, OM法):将词典中的单 词按它们在文本中的出现频度的大小排列,高频度的单词排在前, 频度低的单词排在后,从而提高匹配的速度。
❖ 联想-回溯法(Association-Backtracking method, AB法):采用 联想和回溯的机制来进行匹配。
log
P(t P(t
| |
cj cj
) )
TSV(t, c j
)
r
* log
P(t P(t
| |
cj cj
) )
,
r为出现t的c
类文档个数
j
其他
log P(t | c j ) log(1 P(t | c j ))
Odds: log(1 P(t | c j )) log P(t | c j )
奇异值分解(SVD):A=(aij)=UΣVT
AM*N, UM*R, ΣR*R(对角阵), VN*R, R<=MIN(M,N)
取Σ对角上的前k个元素,得Σk
Ak= UkΣkVkT, Uk由U的前k列组成,Vk由V的前k列组成 文档d在LSI对应的向量d’=dTUkΣ-1
在已有的LSI中增加新的word或者document,不需要 重新计算
Term Strength:
P(t y | t x), x, y是相关的两篇文档
2020/3/30
19
特征选择方法的性能比较(1)
2020/3/30
20
特征选择方法的性能比较(2)
2020/3/30
21
特征选择方法的性能比较(3)
YangYi-ming
2020/3/30
22
特征重构
隐性语义索引(LSI)
如果term分布极度均匀:熵等于-1
只在一个文档中出现:熵等于0
2020/3/30
aij
log(TFij
1.0)
*
1
1 log N
N [ TFij j1 DFi
log( TFij DFi
)]) 15
特征选择(1)
基于DF
Term的DF小于某个阈值去掉(太少,没有代表性)
Term的DF大于某个阈值也去掉(太多,没有区分度)
Folding-in 方法
SVD-updating方法
2020/3/30
23
提纲
文本挖掘的背景 文本挖掘的过程
特征建立 特征选择 文本分类 文本聚类
2020/3/30
24
文本分类
定义:给定分类体系,将文本分到某个或者某几个类别中。 分类体系一般人工构造 政治、体育、军事 中美关系、恐怖事件 分类系统可以是层次结构,如yahoo! 分类模式 2类问题,属于或不属于(binary) 多类问题,多个类别(multi-class),可拆分成2类问题 一个文本可以属于多类(multi-label) 这里讲的分类主要基于内容 很多分类体系: Reuters分类体系、中图分类
2020/3/30
3
文本挖掘的背景(续)
文本挖掘与数据挖掘的区别:
文本挖掘:文档本身是半结构化的或非结构 化的,无确定形式并且缺乏机器可理解的语 义;
数据挖掘:其对象以数据库中的结构化数据 为主,并利用关系表等存储结构来发现知识
因此,数据挖掘的技术不适用于文本挖掘, 或至少需要预处理。
2020/3/30
文本高层次理解的对象可以是仅包含简单句子的单个文 本也可以是多个文本组成的文本集,但是现有的技术手 段虽然基本上解决了单个句子的分析问题,但是还很难 覆盖所有的语言现象,特别是对整个段落或篇章的理解 还无从下手。
将数据挖掘的成果用于分析以自然语言描述的文本,这 种方法被称为文本挖掘(Text Mining)或文本知识发现 (Knowledge Discovery in Text).
2020/3/30
25
文本分类的过程
文本表示
训练过程
训练文本
统计 统计量
新文本
分类过程
2020/3/30
特征表示
学习
分类器
文本特征表示
类别
26
自动文本分类方法
Rocchio方法 Naïve Bayes kNN方法 决策树方法decision tree Decision Rule Classifier The Widrow-Hoff Classifier 神经网络方法Neural Networks 支持向量机SVM 基于投票的方法(voting method)
数据清洗:去掉不合适的噪声文档或文档内垃圾数据
文本表示
向量空间模型
降维技术
特征选择(Feature Selection)
特征重构(Re-parameterisation,如LSI)
2020/3/30
9
文本表示
向量空间模型(Vector Space Model)
M个无序标引项ti (词条项, 特征),词根/词/短语/其他 每个文档d可以用标引项向量来表示
aij
TFij * log(N / DFi )
[TFkj * log(N / DFk )]2
k
aij
log(TFij 1.0) * log(N / DFi ) [log(TFkj 1.0) * log(N / DFk )]2
k
基于熵概念的权重(Entropy weighting)
称为term i的某种熵
同义词:开心 高兴 兴奋 相关词cluster,word cluster:葛非/顾俊
N-gram,N元组:中国 国人 人民 民银 银行 某种规律性模式:比如某个window中出现的固
定模式
2020/3/30
12
主要的分词方法
❖ 最大匹配法(Maximum Matching method, MM法):选取包含6-8个 汉字的符号串作为最大符号串,把最大符号串与词典中的单词条目 相匹配,如果不能匹配,就削掉一个汉字继续匹配,直到在词典中 找到相应的单词为止。匹配的方向是从右向左。
2020/3/30
13
英文特征词
一般采用keyword,无需分词,单词之间有空格分开。
停用词(stop word),指文档中出现的连词,介词,冠词等并无太 大意义的词。例如在英文中常用的停用词有the,a, it等;在中文中 常见的有“是”,“的”,“地”等。
索引词(标引词,关键祠):可以用于指代文档内容的预选词语,一 般为名词或名词词组。
P(t)
( A C)( A B)
m
I AVG (t) P(ci )I (t, ci )
2020/3/30 i1
I
MAX
(t)
max
m i 1
P(ci
)I
(t,
ci
)
18
特征选择(4)
Robertson & Sparck Jones公式
RSJ(t, c j )
c j中出现t的概率 非c j中出现t的概率
|
t) log
P(ci
|
t)}
P(t ){
M i 1
P(
ci
|
t
) log
P(ci
|
t
)}]
2020/3/30
16
特征选择(2)
term的熵:该值越大,说明分布越均匀,越有可能出 现在较多的类别中;该值越小,说明分布越倾斜,词 可能出现在较少的类别中
Entropy(t) P(ci | t) log P(ci | t)
i
相对熵(not 交叉熵):也称为KL距离(Kullback-Leibler divergence) ,反映了文本类别的概率分布和在出现了 某个特定词汇条件下的文本类别的概率分布之间的距 离,该值越大,词对文本类别分布的影响也大。
CE(t)
i
P(ci
|
t)
log
P(ci | t) P(ci )
2020/3/30
27
Rocchio方法
可以认为类中心向量法是它的特例
wRo' jccchiow公jc 式
x iC ij
x iC ij
nC
n nC
类C中心向量的权重
训练样本中正例个数 文档向量的权重
分类
CSVc (di ) wc xi
wcj xij
wcj2
xij 2
2020/3/30
第5章 文本挖掘
2020/3/30
1
主要内容
文本挖掘的背景 文本挖掘的过程
特征抽取 特征选择 文本分类 文本聚类 模型评价
2020/3/30
2
文本挖掘的背景
传统的自然语言理解是对文本进行较低层次的理解,主 要进行基于词、语法和语义信息的分析,并通过词在句 子中出现的次序发现有意义的信息。
V (d) (t1, w1(d);...;ti, wi(d);...;tn, wn(d))
权重计算,N个训练文档
WM*N= (wij)
词项的权重: {0,1}, tf(词频=term frequency), tf*idf,
Βιβλιοθήκη Baidu2020/3/30
10
文本表示
词频矩阵
行对应关键词t,列对应文档d向量 将每一个文档视为空间向量v 向量值反映单词t与文档d的关联度 矩阵元素可以是词频,也可以是布尔型。
2020/3/30
17
特征选择(3)
χ2 统计量:度量两者(term和类别)独立性的缺乏程度,
χ2 越大,独立性越小,相关性越大(若AD<BC,则类和
词独立, N=A+B+C+D)
2 (t, c)
N ( AD CB)2
( A C)( B D)( A B)(C D)
c ~c tA B
❖ 逆向最大匹配法(Reverse Maximum method, RMM法):匹配方向 与MM法相反,是从左向右。实验表明:对于汉语来说,逆向最大匹 配法比最大匹配法更有效。
❖ 双向匹配法(Bi-direction Matching method, BM法):比较MM法 与RMM法的分词结果,从而决定正确的分词。
词干提取 countries => country,interesting => interest
2020/3/30
14
权重计算方法
布尔权重(boolean weighting)
aij=1(TFij>0) or (TFij=0)0
TFIDF型权重
TF: aij=TFij TF*IDF: aij=TFij*log(N/DFi) TFC: 对上面进行归一化 LTC: 降低TF的作用
表示文档词频的词频矩阵
d1 d2 d3 d4 d5 d6
t1 322 85 35 69 15 320
t2 361 90 76 57 13 370
t3 25 33 160 48 221 26
t4 30 140 70 201 16 35
2020/3/30
11
中文特征词(Term)的粒度
Character,字:中 Word,词:中国 Phrase,短语:中国人民银行 Concept,概念
~t C D
m
2 AVG (t )
P(ci ) 2 (t, ci )
i 1
2 MAX
(t )
max
im1{
2 (t, ci
)}
互信息(Mutual Information):MI越大t和c共现程度越大
I (t, c) log P(t c) log P(t | c) log A N
P(t)P(c)
28
Naïve Bayes
国内外研究状况
2020/3/30
7
文本特征抽取
定义:文本特征指的是关于文本的元数据 分类:
描述性特征:文本的名称、日期、大小、类型等。 语义性特征:文本的作者、标题、机构、内容等。
V (d ) (t1, w1(d );...;ti, wi(d );...;tn, wn(d ))
2020/3/30
8
特征抽取(feature extraction)
预处理
去掉html一些tag标记
禁用词(stop words)去除、词根还原(stemming)
(中文)分词、词性标注、短语识别、…
词频统计
TFi,j: 特征i在文档j中出现次数,词频(Term Frequency) DFi:所有文档集合中出现特征i的文档数目,文档频率(Document Frequency)
信息增益(Information Gain, IG):该term为整 个分类所能提供的信息量(不考虑任何特征的 熵和考虑该特征后的熵的差值)
Gain(t) Entropy(S) Expected Entropy(St )
{
M i 1
P(
ci
)
log
P(ci
)}
[P(t){
M i 1
P( ci
4
提纲
文本挖掘的背景 文本挖掘的过程
特征抽取 特征选择 文本分类 文本聚类 模型评价
2020/3/30
5
文本挖掘的过程
特征的 建立
特征集 的缩减
学习与知识 模式的提取
模式质量 的评价
知识模式
文档集
文本挖掘的一般处理过程
2020/3/30
6
提纲
文本挖掘的背景 文本挖掘的过程
特征抽取 特征选择 文本分类 文本聚类 模型评价
❖ 联想-回溯法(Association-Backtracking method, AB法):采用 联想和回溯的机制来进行匹配。
log
P(t P(t
| |
cj cj
) )
TSV(t, c j
)
r
* log
P(t P(t
| |
cj cj
) )
,
r为出现t的c
类文档个数
j
其他
log P(t | c j ) log(1 P(t | c j ))
Odds: log(1 P(t | c j )) log P(t | c j )
奇异值分解(SVD):A=(aij)=UΣVT
AM*N, UM*R, ΣR*R(对角阵), VN*R, R<=MIN(M,N)
取Σ对角上的前k个元素,得Σk
Ak= UkΣkVkT, Uk由U的前k列组成,Vk由V的前k列组成 文档d在LSI对应的向量d’=dTUkΣ-1
在已有的LSI中增加新的word或者document,不需要 重新计算
Term Strength:
P(t y | t x), x, y是相关的两篇文档
2020/3/30
19
特征选择方法的性能比较(1)
2020/3/30
20
特征选择方法的性能比较(2)
2020/3/30
21
特征选择方法的性能比较(3)
YangYi-ming
2020/3/30
22
特征重构
隐性语义索引(LSI)
如果term分布极度均匀:熵等于-1
只在一个文档中出现:熵等于0
2020/3/30
aij
log(TFij
1.0)
*
1
1 log N
N [ TFij j1 DFi
log( TFij DFi
)]) 15
特征选择(1)
基于DF
Term的DF小于某个阈值去掉(太少,没有代表性)
Term的DF大于某个阈值也去掉(太多,没有区分度)
Folding-in 方法
SVD-updating方法
2020/3/30
23
提纲
文本挖掘的背景 文本挖掘的过程
特征建立 特征选择 文本分类 文本聚类
2020/3/30
24
文本分类
定义:给定分类体系,将文本分到某个或者某几个类别中。 分类体系一般人工构造 政治、体育、军事 中美关系、恐怖事件 分类系统可以是层次结构,如yahoo! 分类模式 2类问题,属于或不属于(binary) 多类问题,多个类别(multi-class),可拆分成2类问题 一个文本可以属于多类(multi-label) 这里讲的分类主要基于内容 很多分类体系: Reuters分类体系、中图分类
2020/3/30
3
文本挖掘的背景(续)
文本挖掘与数据挖掘的区别:
文本挖掘:文档本身是半结构化的或非结构 化的,无确定形式并且缺乏机器可理解的语 义;
数据挖掘:其对象以数据库中的结构化数据 为主,并利用关系表等存储结构来发现知识
因此,数据挖掘的技术不适用于文本挖掘, 或至少需要预处理。
2020/3/30
文本高层次理解的对象可以是仅包含简单句子的单个文 本也可以是多个文本组成的文本集,但是现有的技术手 段虽然基本上解决了单个句子的分析问题,但是还很难 覆盖所有的语言现象,特别是对整个段落或篇章的理解 还无从下手。
将数据挖掘的成果用于分析以自然语言描述的文本,这 种方法被称为文本挖掘(Text Mining)或文本知识发现 (Knowledge Discovery in Text).
2020/3/30
25
文本分类的过程
文本表示
训练过程
训练文本
统计 统计量
新文本
分类过程
2020/3/30
特征表示
学习
分类器
文本特征表示
类别
26
自动文本分类方法
Rocchio方法 Naïve Bayes kNN方法 决策树方法decision tree Decision Rule Classifier The Widrow-Hoff Classifier 神经网络方法Neural Networks 支持向量机SVM 基于投票的方法(voting method)
数据清洗:去掉不合适的噪声文档或文档内垃圾数据
文本表示
向量空间模型
降维技术
特征选择(Feature Selection)
特征重构(Re-parameterisation,如LSI)
2020/3/30
9
文本表示
向量空间模型(Vector Space Model)
M个无序标引项ti (词条项, 特征),词根/词/短语/其他 每个文档d可以用标引项向量来表示
aij
TFij * log(N / DFi )
[TFkj * log(N / DFk )]2
k
aij
log(TFij 1.0) * log(N / DFi ) [log(TFkj 1.0) * log(N / DFk )]2
k
基于熵概念的权重(Entropy weighting)
称为term i的某种熵
同义词:开心 高兴 兴奋 相关词cluster,word cluster:葛非/顾俊
N-gram,N元组:中国 国人 人民 民银 银行 某种规律性模式:比如某个window中出现的固
定模式
2020/3/30
12
主要的分词方法
❖ 最大匹配法(Maximum Matching method, MM法):选取包含6-8个 汉字的符号串作为最大符号串,把最大符号串与词典中的单词条目 相匹配,如果不能匹配,就削掉一个汉字继续匹配,直到在词典中 找到相应的单词为止。匹配的方向是从右向左。
2020/3/30
13
英文特征词
一般采用keyword,无需分词,单词之间有空格分开。
停用词(stop word),指文档中出现的连词,介词,冠词等并无太 大意义的词。例如在英文中常用的停用词有the,a, it等;在中文中 常见的有“是”,“的”,“地”等。
索引词(标引词,关键祠):可以用于指代文档内容的预选词语,一 般为名词或名词词组。
P(t)
( A C)( A B)
m
I AVG (t) P(ci )I (t, ci )
2020/3/30 i1
I
MAX
(t)
max
m i 1
P(ci
)I
(t,
ci
)
18
特征选择(4)
Robertson & Sparck Jones公式
RSJ(t, c j )
c j中出现t的概率 非c j中出现t的概率
|
t) log
P(ci
|
t)}
P(t ){
M i 1
P(
ci
|
t
) log
P(ci
|
t
)}]
2020/3/30
16
特征选择(2)
term的熵:该值越大,说明分布越均匀,越有可能出 现在较多的类别中;该值越小,说明分布越倾斜,词 可能出现在较少的类别中
Entropy(t) P(ci | t) log P(ci | t)
i
相对熵(not 交叉熵):也称为KL距离(Kullback-Leibler divergence) ,反映了文本类别的概率分布和在出现了 某个特定词汇条件下的文本类别的概率分布之间的距 离,该值越大,词对文本类别分布的影响也大。
CE(t)
i
P(ci
|
t)
log
P(ci | t) P(ci )
2020/3/30
27
Rocchio方法
可以认为类中心向量法是它的特例
wRo' jccchiow公jc 式
x iC ij
x iC ij
nC
n nC
类C中心向量的权重
训练样本中正例个数 文档向量的权重
分类
CSVc (di ) wc xi
wcj xij
wcj2
xij 2
2020/3/30
第5章 文本挖掘
2020/3/30
1
主要内容
文本挖掘的背景 文本挖掘的过程
特征抽取 特征选择 文本分类 文本聚类 模型评价
2020/3/30
2
文本挖掘的背景
传统的自然语言理解是对文本进行较低层次的理解,主 要进行基于词、语法和语义信息的分析,并通过词在句 子中出现的次序发现有意义的信息。
V (d) (t1, w1(d);...;ti, wi(d);...;tn, wn(d))
权重计算,N个训练文档
WM*N= (wij)
词项的权重: {0,1}, tf(词频=term frequency), tf*idf,
Βιβλιοθήκη Baidu2020/3/30
10
文本表示
词频矩阵
行对应关键词t,列对应文档d向量 将每一个文档视为空间向量v 向量值反映单词t与文档d的关联度 矩阵元素可以是词频,也可以是布尔型。
2020/3/30
17
特征选择(3)
χ2 统计量:度量两者(term和类别)独立性的缺乏程度,
χ2 越大,独立性越小,相关性越大(若AD<BC,则类和
词独立, N=A+B+C+D)
2 (t, c)
N ( AD CB)2
( A C)( B D)( A B)(C D)
c ~c tA B
❖ 逆向最大匹配法(Reverse Maximum method, RMM法):匹配方向 与MM法相反,是从左向右。实验表明:对于汉语来说,逆向最大匹 配法比最大匹配法更有效。
❖ 双向匹配法(Bi-direction Matching method, BM法):比较MM法 与RMM法的分词结果,从而决定正确的分词。
词干提取 countries => country,interesting => interest
2020/3/30
14
权重计算方法
布尔权重(boolean weighting)
aij=1(TFij>0) or (TFij=0)0
TFIDF型权重
TF: aij=TFij TF*IDF: aij=TFij*log(N/DFi) TFC: 对上面进行归一化 LTC: 降低TF的作用
表示文档词频的词频矩阵
d1 d2 d3 d4 d5 d6
t1 322 85 35 69 15 320
t2 361 90 76 57 13 370
t3 25 33 160 48 221 26
t4 30 140 70 201 16 35
2020/3/30
11
中文特征词(Term)的粒度
Character,字:中 Word,词:中国 Phrase,短语:中国人民银行 Concept,概念
~t C D
m
2 AVG (t )
P(ci ) 2 (t, ci )
i 1
2 MAX
(t )
max
im1{
2 (t, ci
)}
互信息(Mutual Information):MI越大t和c共现程度越大
I (t, c) log P(t c) log P(t | c) log A N
P(t)P(c)
28
Naïve Bayes
国内外研究状况
2020/3/30
7
文本特征抽取
定义:文本特征指的是关于文本的元数据 分类:
描述性特征:文本的名称、日期、大小、类型等。 语义性特征:文本的作者、标题、机构、内容等。
V (d ) (t1, w1(d );...;ti, wi(d );...;tn, wn(d ))
2020/3/30
8
特征抽取(feature extraction)
预处理
去掉html一些tag标记
禁用词(stop words)去除、词根还原(stemming)
(中文)分词、词性标注、短语识别、…
词频统计
TFi,j: 特征i在文档j中出现次数,词频(Term Frequency) DFi:所有文档集合中出现特征i的文档数目,文档频率(Document Frequency)
信息增益(Information Gain, IG):该term为整 个分类所能提供的信息量(不考虑任何特征的 熵和考虑该特征后的熵的差值)
Gain(t) Entropy(S) Expected Entropy(St )
{
M i 1
P(
ci
)
log
P(ci
)}
[P(t){
M i 1
P( ci
4
提纲
文本挖掘的背景 文本挖掘的过程
特征抽取 特征选择 文本分类 文本聚类 模型评价
2020/3/30
5
文本挖掘的过程
特征的 建立
特征集 的缩减
学习与知识 模式的提取
模式质量 的评价
知识模式
文档集
文本挖掘的一般处理过程
2020/3/30
6
提纲
文本挖掘的背景 文本挖掘的过程
特征抽取 特征选择 文本分类 文本聚类 模型评价