文本挖掘的PPt
合集下载
文本挖掘综述课件PPT课件
Page 3
1、文本挖掘概述
传统的自然语言理解是对文本进行较低层次的理解, 主要进行基于词、语法和语义信息的分析,并通过词 在句子中出现的次序发现有意义的信息。
文本高层次理解的对象可以是仅包含简单句子的单个 文本也可以是多个文本组成的文本集,但是现有的技 术手段虽然基本上解决了单个句子的分析问题,但是 还很难覆盖所有的语言现象,特别是对整个段落或篇 章的理解还无从下手。
在完整的向量空间模型中,将TF和IDF组合在一起,形成 TF-IDF度量:TF-IDF(d,t)= TF(d,t)*IDF(t)
Page 24
基于相似性的检索
余弦计算法(cosine measure)
sim(v1, v2 )
v1 v2 v1 v2
根据一个文档集合d和一个项集合t,可以将每个文档表示
一种索引结构,包含两个哈希表索引表或两个B+
树索引表
文档表(document_table)
词表(term_table)
doc_ID
posting_list
term_ID
posting_list
Doc_1 Doc_2
┇
t1_1, ... ,t1_n
t2_1, ... ,t2_n ┇
Term_1 Term_2
将数据挖掘的成果用于分析以自然语言描述的文本, 这种方法被称为文本挖掘(Text Mining)或文本知识 发现(Knowledge Discovery in Text).
Page 4
文本检索应用实例
Page 5
文本检索过程
Page 6
文档检索基本步骤
Page 7
文本挖掘与数据挖掘的区别:
Page 17
2.2 文档检索方法
1、文本挖掘概述
传统的自然语言理解是对文本进行较低层次的理解, 主要进行基于词、语法和语义信息的分析,并通过词 在句子中出现的次序发现有意义的信息。
文本高层次理解的对象可以是仅包含简单句子的单个 文本也可以是多个文本组成的文本集,但是现有的技 术手段虽然基本上解决了单个句子的分析问题,但是 还很难覆盖所有的语言现象,特别是对整个段落或篇 章的理解还无从下手。
在完整的向量空间模型中,将TF和IDF组合在一起,形成 TF-IDF度量:TF-IDF(d,t)= TF(d,t)*IDF(t)
Page 24
基于相似性的检索
余弦计算法(cosine measure)
sim(v1, v2 )
v1 v2 v1 v2
根据一个文档集合d和一个项集合t,可以将每个文档表示
一种索引结构,包含两个哈希表索引表或两个B+
树索引表
文档表(document_table)
词表(term_table)
doc_ID
posting_list
term_ID
posting_list
Doc_1 Doc_2
┇
t1_1, ... ,t1_n
t2_1, ... ,t2_n ┇
Term_1 Term_2
将数据挖掘的成果用于分析以自然语言描述的文本, 这种方法被称为文本挖掘(Text Mining)或文本知识 发现(Knowledge Discovery in Text).
Page 4
文本检索应用实例
Page 5
文本检索过程
Page 6
文档检索基本步骤
Page 7
文本挖掘与数据挖掘的区别:
Page 17
2.2 文档检索方法
文本挖掘 - 信息提取(IE)1131.ppt
• 节点之间的链接标记和输入项的匹配
– 精确匹配,exact-match links labels e.g. "China" matching only "China"
– 通配符(?)匹配 e.g. "?" matches "100" or "China" or ...
– 特征匹配(feature-match) e.g. CAP matches any capitalized word
Components of Text Mining(基本策略) • 按照主题(话题,topics)分类
– 今天稍提一下,以后专门有一讲
• 从分类的文本中提取事实(本讲主要内 容)
• 在数据库或者提取的事实中进行信息挖 掘
精品课件
Text Categorization (文本分类)
Definition:给文档或者网页贴上“标签”(label) • 这些标签可能是像Yahoo类型那样的主题
Example
President Clinton decided to send special trade envoy Mickey Kantor to the special Asian economic meeting in Singapore this week. Ms. Xuemei Peng, trade minister from China, and Mr. Hideto Suzuki from Japan’s Ministry of Trade and Industry will also attend. Singapore, who is hosting the meeting, will probably be represented by its foreign and economic ministers. The Australian representative, Mr. Langford, will not attend, though no reason has been given. The parties hope to reach a framework for currency stabilization.
– 精确匹配,exact-match links labels e.g. "China" matching only "China"
– 通配符(?)匹配 e.g. "?" matches "100" or "China" or ...
– 特征匹配(feature-match) e.g. CAP matches any capitalized word
Components of Text Mining(基本策略) • 按照主题(话题,topics)分类
– 今天稍提一下,以后专门有一讲
• 从分类的文本中提取事实(本讲主要内 容)
• 在数据库或者提取的事实中进行信息挖 掘
精品课件
Text Categorization (文本分类)
Definition:给文档或者网页贴上“标签”(label) • 这些标签可能是像Yahoo类型那样的主题
Example
President Clinton decided to send special trade envoy Mickey Kantor to the special Asian economic meeting in Singapore this week. Ms. Xuemei Peng, trade minister from China, and Mr. Hideto Suzuki from Japan’s Ministry of Trade and Industry will also attend. Singapore, who is hosting the meeting, will probably be represented by its foreign and economic ministers. The Australian representative, Mr. Langford, will not attend, though no reason has been given. The parties hope to reach a framework for currency stabilization.
(完整版)第5章-文本挖掘PPT课件
5.4 文本聚类
1 步骤 Document representation Dimensionality reduction Applying a clustering algorithm Evaluating the effectiveness of the
process
2 评价指标
总体评价
(11)查词表,W不在词表中,将W最右边一个字去 掉,得到W="是三" (12)查词表,W不在词表中,将W最右边一个字去掉 ,得到W=“是”,这时W是单字,将W加入到S2中,
S2=“计算语言学/ 课程/ 是/ ”, 并将W从S1中去掉,此时S1="三个课时";
(21) S2=“计算语言学/ 课程/ 是/ 三/ 个/ 课时/ ”,此时 S1=""。
文本频数
词的DF小于某个阈值去掉(太少,没有代 表性)。
词的DF大于某个阈值也去掉(太多,没有 区分度)。
信息增益
信息增益是一种基于熵的评估方法,定义为 某特征项为整个分类系统所能提供的信息量。 是不考虑任何特征的熵与考虑该特征之后熵 的差值。它根据训练数据计算出各个特征项 的信息增益,删除信息增益很小的特征项, 其余的按照信息增益的大小进行排序,获得 指定数目的特征项。
Gain(t) Entropy (S) Expected Entropy( St)
{
M i1
P
(
ci
)
log
P(ci
)}
[ P (t ){
M i1
i
|
t)}
P(t ){
M i1
P(ci
|
t
)
log
P(ci
|
第12章文本挖掘-PPT文档资料
数据仓库与数据挖掘 11
2019/3/20
3. 基于相似性的检索
v 1 v 2 sim (v , v ) 1 2 v 1v 2
根据一个文档集合 d 和一个项集合 t ,可以 将每个文档表示为在 t 维空间 R 中的一个文 档特征向量v。 向量 v 中第 j 个数值就是相应文档中第 j 个项 的量度。 计算两个文档相似性可以使用上面的公式
2019/3/20
数据仓库与数据挖掘
16
2、文档自动聚类的步骤
(1)获取结构化的文本集
( 2 )执行聚类算法,获得聚类谱系图。聚类算法 的目的是获取能够反映特征空间样本点之间的 “抱团”性质 ( 3 )选取合适的聚类阈值。在得到聚类谱系图后, 领域专家凭借经验,并结合具体的应用场合确 定阈值
2019/3/20
数据仓库与数据挖掘
9
检索模型包含的三个要素:
文本集 用户提问 文本与用户提问相匹配
2019/3/20
数据仓库与数据挖掘
10
布尔模型:将用户提问表示成布尔表达式,查询式是由 用户提问和操作符 and、 or、 not组成的表达式,运用几 何运算来检索。 向量空间模型:有一特征表示集,特征通常为字或词。 用户提问与文本表示成高维空间向量,其中每一维为一 特征。每个特征用权值表示。用户提问向量的权值由用 户制定,通过对代数的向量运算进行检索。 概率模型。富有代表性的模型是二值独立检索模型 (BIR) 。 BIR 模型根据用户的查询 Q ,可以将所有文档 d 分为两类, 一类与查询相关 ( 集合 R) ,另一类与查询不相关 ( 集合 N, 是R 的补集),建立在概率运算的基础上。
2019/3/20 数据Байду номын сангаас库与数据挖掘 13
2019/3/20
3. 基于相似性的检索
v 1 v 2 sim (v , v ) 1 2 v 1v 2
根据一个文档集合 d 和一个项集合 t ,可以 将每个文档表示为在 t 维空间 R 中的一个文 档特征向量v。 向量 v 中第 j 个数值就是相应文档中第 j 个项 的量度。 计算两个文档相似性可以使用上面的公式
2019/3/20
数据仓库与数据挖掘
16
2、文档自动聚类的步骤
(1)获取结构化的文本集
( 2 )执行聚类算法,获得聚类谱系图。聚类算法 的目的是获取能够反映特征空间样本点之间的 “抱团”性质 ( 3 )选取合适的聚类阈值。在得到聚类谱系图后, 领域专家凭借经验,并结合具体的应用场合确 定阈值
2019/3/20
数据仓库与数据挖掘
9
检索模型包含的三个要素:
文本集 用户提问 文本与用户提问相匹配
2019/3/20
数据仓库与数据挖掘
10
布尔模型:将用户提问表示成布尔表达式,查询式是由 用户提问和操作符 and、 or、 not组成的表达式,运用几 何运算来检索。 向量空间模型:有一特征表示集,特征通常为字或词。 用户提问与文本表示成高维空间向量,其中每一维为一 特征。每个特征用权值表示。用户提问向量的权值由用 户制定,通过对代数的向量运算进行检索。 概率模型。富有代表性的模型是二值独立检索模型 (BIR) 。 BIR 模型根据用户的查询 Q ,可以将所有文档 d 分为两类, 一类与查询相关 ( 集合 R) ,另一类与查询不相关 ( 集合 N, 是R 的补集),建立在概率运算的基础上。
2019/3/20 数据Байду номын сангаас库与数据挖掘 13
生物医学文本挖掘及其应用ppt课件
• 名称如此重要, 需要在文本中识别之,这个工作称为生物医学文
献中的命名体识别(NER,Named Entity Recognition )。
6
基本概念(2)
• 尽管术语的定义似乎很明确,但是很难精确定义。 • early progressive multifocal leukoencephalopathy • Refer to
23
24
25
• A(Whatizit):蛋白-蓝色,疾病-深红,基因本 体-浅红,化学物质-深红,物种-红色
• B(ABNER):蛋白和细胞株
• C(BIOCreAtIvE metaserver )
26
发现关系
• 识别术语之后,下一步自然是寻找术语之间的关系。 • 发现关系的最简单途径就是共现:
41
42
GoDisease+iHOP+Cytoscape
43
发现:Discovery
• Besides finding relationships, text miners are also interested in discovering relationships
• Swanson:undiscovered public knowledge • 【见例子1】
雷诺氏病 文献
潜在的联系
食用鱼油 文献
血液粘稠度 红细胞脆性
血液粘稠度 红细胞脆性
Medline文献集合
49
闭合式的知识发现
50
51
ARROWSMITH 3.0
52
482253Fra bibliotek5455
56
Asthma famous?
57
哮喘名人
献中的命名体识别(NER,Named Entity Recognition )。
6
基本概念(2)
• 尽管术语的定义似乎很明确,但是很难精确定义。 • early progressive multifocal leukoencephalopathy • Refer to
23
24
25
• A(Whatizit):蛋白-蓝色,疾病-深红,基因本 体-浅红,化学物质-深红,物种-红色
• B(ABNER):蛋白和细胞株
• C(BIOCreAtIvE metaserver )
26
发现关系
• 识别术语之后,下一步自然是寻找术语之间的关系。 • 发现关系的最简单途径就是共现:
41
42
GoDisease+iHOP+Cytoscape
43
发现:Discovery
• Besides finding relationships, text miners are also interested in discovering relationships
• Swanson:undiscovered public knowledge • 【见例子1】
雷诺氏病 文献
潜在的联系
食用鱼油 文献
血液粘稠度 红细胞脆性
血液粘稠度 红细胞脆性
Medline文献集合
49
闭合式的知识发现
50
51
ARROWSMITH 3.0
52
482253Fra bibliotek5455
56
Asthma famous?
57
哮喘名人
文本挖掘概述ppt课件
文本分ຫໍສະໝຸດ 等。为什么要进行文本分析?
把从文本中抽取出的特征词进行量化来表示文本 信息。将它们从一个无结构的原始文本转化为结 构化的计算机可以识别处理的信息,即对文本进 行科学的抽象,建立它的数学模型,用以描述和 代替文本。使计算机能够通过对这种模型的计算 和操作来实现对文本的识别。
三、文本挖掘的关键技术 文本预处理
提高了海量非结构化信息源的利用价值; 使得人们能够更加方便地从海量文本中发现隐含
的知识; 为企业的战略决策提供竞争情报的支持
文本挖掘的过程
相对于数据挖掘而言,文本挖掘技术还不成熟。 文本数量巨大,结构不统一,处于动态变化中; 自然语言理解理论在语言的深层理解方面没有根
本性的突破,致使文本处理的准确度不高,文本 挖掘的效果不够理想。
计算机理解语言的能力非常有限!
三、文本挖掘的关键技术
文本预处理 文本分类
文本的向量空间表示 文本特征提取 文本相似度
文本聚类 文本自动摘要
为什么要进行文本分析?
文本是以文字串形式表示的数据文件。 文本分析过程即通过文本分析,从中找出一些特
征以便将来使用。
文本分析包括语种识别、特征提取、文本聚类和
四、文本挖掘的关键技术特征提取
用于表示文本的基本单位通常称为文本的特征或特征项。 在中文文本中可以采用字、词或短语作为表示文本的特征
项。 特征提取主要是使用自动的提取过程,识别文本中词项的
意义。
特征提取对掌握该文本的内容很重要,是一种强有力的 文本挖掘工具。
在一篇文本中,标题是该文本的高度概括,文本中的特 征,如人命、地名、组织名等是文本中的主体信息。
标引源 数据库
停用词表
一条待标引的记录 英语单词
把从文本中抽取出的特征词进行量化来表示文本 信息。将它们从一个无结构的原始文本转化为结 构化的计算机可以识别处理的信息,即对文本进 行科学的抽象,建立它的数学模型,用以描述和 代替文本。使计算机能够通过对这种模型的计算 和操作来实现对文本的识别。
三、文本挖掘的关键技术 文本预处理
提高了海量非结构化信息源的利用价值; 使得人们能够更加方便地从海量文本中发现隐含
的知识; 为企业的战略决策提供竞争情报的支持
文本挖掘的过程
相对于数据挖掘而言,文本挖掘技术还不成熟。 文本数量巨大,结构不统一,处于动态变化中; 自然语言理解理论在语言的深层理解方面没有根
本性的突破,致使文本处理的准确度不高,文本 挖掘的效果不够理想。
计算机理解语言的能力非常有限!
三、文本挖掘的关键技术
文本预处理 文本分类
文本的向量空间表示 文本特征提取 文本相似度
文本聚类 文本自动摘要
为什么要进行文本分析?
文本是以文字串形式表示的数据文件。 文本分析过程即通过文本分析,从中找出一些特
征以便将来使用。
文本分析包括语种识别、特征提取、文本聚类和
四、文本挖掘的关键技术特征提取
用于表示文本的基本单位通常称为文本的特征或特征项。 在中文文本中可以采用字、词或短语作为表示文本的特征
项。 特征提取主要是使用自动的提取过程,识别文本中词项的
意义。
特征提取对掌握该文本的内容很重要,是一种强有力的 文本挖掘工具。
在一篇文本中,标题是该文本的高度概括,文本中的特 征,如人命、地名、组织名等是文本中的主体信息。
标引源 数据库
停用词表
一条待标引的记录 英语单词
大数据与数据挖掘之文本挖掘(PPT 56张)
文档的向量空间模型
W权值计算方法TF-IDF
目前广泛采用TF-IDF权值计算方法来计算权重, TF-IDF的主 要思想是,如果某个词或短语在一篇文章中出现的频率TF 高,并且在其他文章中很少出现,则认为此词或者短语具 有很好的类别区分能力,适合用来分类。 TF词频(Term Frequency)指的是某一个给定的词语在该文件 中出现的次数。 IDF逆文档频率(Inverse Document Frequency)是全体文档数与 包含词条文档数的比值。如果包含词条的文档越少,IDF越 大,则说明词条具有很好的类别区分能力。 在完整的向量空间模型中,将TF和IDF组合在一起,形成TFIDF度量:TF-IDF(d,t)= TF(d,t)*IDF(t)
• (11)查词表,W不在词表中,将W最右边一个字去掉, 得到W="是三" • (12)查词表,W不在词表中,将W最右边一个字去掉, 得到W=“是”,这时W是单字,将W加入到S2中,S2=“计 算语言学/ 课程/ 是/ ”, • 并将W从S1中去掉,此时S1="三个课时"; • ������ ������ • (21)S2=“计算语言学/ 课程/ 是/ 三/ 个/ 课时/ ”,此时 S1=""。 • (22)S1为空,输出S2作为分词结果,分词过程结束。
停用词
• • • • 指文档中出现的连词,介词,冠词等并无太大意义的词。 英文中常用的停用词有the,a, it等 中文中常见的有“是”,“的”,“地”等。 停用词消除可以减少term的个数,降低存储空间。停用词 的消除方法: • (1)查表法:建立一个停用词表,通过查表的方式去掉 停用词。 • (2)基于DF的方法:统计每个词的DF,如果超过总文档 数目的某个百分比(如80%),则作为停用词去掉。
《文本挖掘》课件
层次聚类算法
探讨层次聚类算法如何将文本数 据进行分层聚类。
基于密度的聚类算法
了解基于密度的聚类算法以及其 在文本聚类中的应用。
文本关系挖掘
1
基于规则的关系挖掘
介绍基于规则的关系挖掘方法,用于发现文本中的关联规则。
2
基于隐式表达的关系挖掘
学习如何从文本中挖掘隐含的关系和情感。
3
ቤተ መጻሕፍቲ ባይዱ基于知识图谱的关系挖掘
《文本挖掘》PPT课件
本PPT课件旨在介绍文本挖掘的基本概念、应用场景和相关技术。通过本课件, 您将了解文本预处理、文本分类、文本聚类、文本关系挖掘、文本生成与摘 要等方面的知识。
简介
文本挖掘定义及应用场景
探索文本挖掘的定义,以及在商业、社交媒体、 医疗和其他领域的应用场景。
文本挖掘的相关技术介绍
了解如何从文本中抽取实体和关系,并构建知识图谱。
文本生成与摘要
1 自然语言生成
探索如何使用文本挖掘技术生成自然语言文本,如自动摘要、机器翻译等。
2 文本摘要
学习如何使用文本挖掘技术自动生成文本摘要,以提取文本的关键信息。
结语
文本挖掘的展望
展望文本挖掘的未来发展,并探讨可能的应用领域。
相关领域的交叉学科
朴素贝叶斯分类器
介绍基于统计的朴素贝叶斯分 类器在文本分类中的应用和原 理。
支持向量机分类器
探讨支持向量机分类器在处理 文本分类问题上的优势和应用。
卷积神经网络分类器
了解卷积神经网络如何用于文 本分类,并讨论其在自然语言 处理中的潜力。
文本聚类
K-means聚类算法
介绍K-means聚类算法及其在文 本聚类中的应用。
介绍与文本挖掘相关的领域,如自然语言处理、机器学习等。 注:本PPT课件仅供参考,部分内容仍需进一步探讨和补充。
文本挖掘核心技术及其应用ppt
关键需求
分析商品之间的内在关联 发现有价值客户 对用户行为进行预测
28
应用
——电子商务网站
网站产品评论挖掘:IT168网站是中国指导IT产品采购的知名媒体品牌,是国内最大、最
权威的导购咨询网站之一。从IT168网站下载三种产品的评论,分别是:诺基亚5320XM的 206篇评论、诺基亚5800XM的205篇评论和富士S5205EXR的72篇评论。如,以下是诺基亚 5320XM的一篇评论:
23
应用
——网络舆情监控
通过对网络信息中的犯罪信息量的 分析计算来反映网民的安全感, 并进行分级; 通过对政府工作相关语料的褒贬分 析计算来描述公众对政府工作的满 意程度,并进行分级。
24
应用
——企业竞争情报系统
面临的问题
企业情报采集效率低和实时性差 信息孤岛,缺少跨部门情报资源共享 情报内容存在重复性,资源没有得到有效整合
类别2: 关键词:旅游、黄金、游客、记者、旅行社、 中国、国家、假日、北京、线路
类别3: 关键词:公司、企业、招聘、面试、求职、专业、 职业、学生、大学、人才
……
9
信息抽取
信息抽取是从文本中抽取指定的一类信息(事件、事实)并将其形成结构化的数据, 填入一个数据库中以供用户查询使用。
10
信息抽取
11
步骤: 文本源 原始数据
预处理 分词
词性标注 去除停用词
特征识别 特征词提取
特征标注
如功能、价格、 屏幕等
分:褒、中、贬 强度:良好、优秀
语义极性分析 分类和结果评价
极性词识别
分类
和强度确定 句子极性
结果评价
分析
程度副词和极性词
应用
《文本挖掘》PPT课件
层次聚类法:层次聚类法对给定的样本集进行层次分解。 根据层次分解方向的不同可分为凝聚层次聚类和分裂层次 聚类
基于密度的方法:根据样本点临近区域的密度进行聚类, 使在给定区域内至少包含一定数据的样本点
基于网格的方法:采用多分辨率的网格数据结构,将样本 空间量化为数量有限的网格单元,所有聚类操作都在网格 上进行
21
1、自动摘要的分类
主题摘要 信息摘要 纲目摘要 摘录型摘要 评论型摘要
2021/4/26
22
2、自动摘要的步骤
对文档的预处理 过滤 分词 统计分析 提取摘要 输出摘要 对摘要的评估
2021/4/26
23
2021/4/26
11
1.什是传统机械按键设计?
传统的机械按键设计是需要手动按压按键触动PCBA上的开关按键来实现功 能的一种设计方式。
传统机械按键结构层图:
按键
PCBA
开关键
传统机械按键设计要点:
1.合理的选择按键的类型,尽量选择 平头类的按键,以防按键下陷。
2.开关按键和塑胶按键设计间隙建议 留0.05~0.1mm,以防按键死键。 3.要考虑成型工艺,合理计算累积公 差,以防按键手感不良。
关联分析对文本数据库进行预处理,生成关键字向 量,根据关键字查询向量与文档向量之间的相关度 比较结果输出文本结果,然后调用关联挖掘算法
与关系数据库中关联规则的挖掘方法相似。
2021/4/26
15
12.2.3 文档自动聚类
1、什么是文档自动聚类 2、文档自动聚类的步骤 3、文档自动聚类的类型
2021/4/26
6
12.2.1 文本信息检索概述
基本概念: 1. 信息检索的度量方式 2. 基于模型的检索 3. 基于相似性的检索 4. 文档间相似性计算举例
基于密度的方法:根据样本点临近区域的密度进行聚类, 使在给定区域内至少包含一定数据的样本点
基于网格的方法:采用多分辨率的网格数据结构,将样本 空间量化为数量有限的网格单元,所有聚类操作都在网格 上进行
21
1、自动摘要的分类
主题摘要 信息摘要 纲目摘要 摘录型摘要 评论型摘要
2021/4/26
22
2、自动摘要的步骤
对文档的预处理 过滤 分词 统计分析 提取摘要 输出摘要 对摘要的评估
2021/4/26
23
2021/4/26
11
1.什是传统机械按键设计?
传统的机械按键设计是需要手动按压按键触动PCBA上的开关按键来实现功 能的一种设计方式。
传统机械按键结构层图:
按键
PCBA
开关键
传统机械按键设计要点:
1.合理的选择按键的类型,尽量选择 平头类的按键,以防按键下陷。
2.开关按键和塑胶按键设计间隙建议 留0.05~0.1mm,以防按键死键。 3.要考虑成型工艺,合理计算累积公 差,以防按键手感不良。
关联分析对文本数据库进行预处理,生成关键字向 量,根据关键字查询向量与文档向量之间的相关度 比较结果输出文本结果,然后调用关联挖掘算法
与关系数据库中关联规则的挖掘方法相似。
2021/4/26
15
12.2.3 文档自动聚类
1、什么是文档自动聚类 2、文档自动聚类的步骤 3、文档自动聚类的类型
2021/4/26
6
12.2.1 文本信息检索概述
基本概念: 1. 信息检索的度量方式 2. 基于模型的检索 3. 基于相似性的检索 4. 文档间相似性计算举例
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
M
2010-9-17
16
特征选择(2)
term的熵:该值越大,说明分布越均匀,越有可能出 现在较多的类别中;该值越小,说明分布越倾斜,词 可能出现在较少的类别中
Entropy(t ) = ∑ P(ci | t ) log P(ci |KL距离(Kullback-Leibler divergence) ,反映了文本类别的概率分布和在出现了 某个特定词汇条件下的文本类别的概率分布之间的距 离,该值越大,词对文本类别分布的影响也大。 P(ci | t ) CE (t ) = ∑ P( ci | t ) log P(ci ) i
ij ij
2010-9-17
logN
∑[
j =1
N
TF TF ij log( ij )]) DF DF i i
15
特征选择(1)
基于DF
Term的DF小于某个阈值去掉(太少,没有代表性) Term的DF大于某个阈值也去掉(太多,没有区分度)
信息增益(Information Gain, IG):该term为整 个分类所能提供的信息量(不考虑任何特征的 不考虑任何特征的 考虑该特征后的熵的差值) 熵和考虑该特征后的熵 考虑该特征后的熵
同义词:开心 高兴 兴奋 相关词cluster,word cluster:葛非/顾俊
N-gram,N元组:中国 国人 人民 民银 银行 某种规律性模式:比如某个window中出现的固 定模式
2010-9-17 12
主要的分词方法
最大匹配法( MM法):选取包含 选取包含6 最大匹配法(Maximum Matching method, MM法):选取包含6-8个 汉字的符号串作为最大符号串, 汉字的符号串作为最大符号串,把最大符号串与词典中的单词条目 相匹配,如果不能匹配,就削掉一个汉字继续匹配, 相匹配,如果不能匹配,就削掉一个汉字继续匹配,直到在词典中 找到相应的单词为止。匹配的方向是从右向左。 找到相应的单词为止。匹配的方向是从右向左。 逆向最大匹配法( RMM法):匹配方向 逆向最大匹配法(Reverse Maximum method, RMM法):匹配方向 MM法相反 是从左向右。实验表明:对于汉语来说, 法相反, 与MM法相反,是从左向右。实验表明:对于汉语来说,逆向最大匹 配法比最大匹配法更有效。 配法比最大匹配法更有效。 双向匹配法(BiBM法):比较MM法 比较MM 双向匹配法(Bi-direction Matching method, BM法):比较MM法 RMM法的分词结果 从而决定正确的分词。 法的分词结果, 与RMM法的分词结果,从而决定正确的分词。 最佳匹配法( OM法):将词典中的单 最佳匹配法(Optimum Matching method, OM法):将词典中的单 词按它们在文本中的出现频度的大小排列,高频度的单词排在前, 词按它们在文本中的出现频度的大小排列,高频度的单词排在前, 频度低的单词排在后,从而提高匹配的速度。 频度低的单词排在后,从而提高匹配的速度。 联想-回溯法(AssociationAB法):采用 联想-回溯法(Association-Backtracking method, AB法):采用 联想和回溯的机制来进行匹配。 联想和回溯的机制来进行匹配。
TSV ( t , c j ) = r * log
P (t | c j ) , r 为出现 t 的 c j 类文档个数 P (t | c j )
log P ( t | c j ) log( 1 P ( t | c j )) | c j )) log P ( t | c j )
其他
Odds: log( 1 P ( t Term Strength:
2010-9-17 3
文本挖掘的背景(续)
文本挖掘与数据挖掘的区别: 文本挖掘:文档本身是半结构化的或非结构 化的,无确定形式并且缺乏机器可理解的语 义; 数据挖掘:其对象以数据库中的结构化数据 为主,并利用关系表等存储结构来发现知识 因此,数据挖掘的技术不适用于文本挖掘, 或至少需要预处理。
2010-9-17 4
提纲
文本挖掘的背景 文本挖掘的过程 特征抽取 特征选择 文本分类 文本聚类 模型评价
2010-9-17
5
文本挖掘的过程
特征的 建立
文档集
特征集 的缩减
学习与知识 模式的提取
模式质量 的评价
知识模式
文本挖掘的一般处理过程
2010-9-17
6
提纲
文本挖掘的背景 文本挖掘的过程
特征抽取 特征选择 文本分类 文本聚类 模型评价
V ( d ) = (t1, w1( d );...; ti , wi (d );...; tn , wn( d ))
权重计算,N个训练文档
WM*N= (wij)
词项的权重: tf(词频 词频=term 词项的权重: {0,1}, tf(词频=term frequency), tf*idf,
2010-9-17
10
文本表示
词频矩阵 行对应关键词t,列对应文档d 行对应关键词t,列对应文档d向量 将每一个文档视为空间向量v 将每一个文档视为空间向量v 向量值反映单词t与文档d 向量值反映单词t与文档d的关联度 矩阵元素可以是词频,也可以是布尔型。
表示文档词频的词频矩阵
d1 t1 t2 t3 t4
2010-9-17
国内外研究状况
2010-9-17 7
文本特征抽取
定义:文本特征指的是关于文本的元数据 分类:
描述性特征:文本的名称、日期、大小、类型等。 语义性特征:文本的作者、标题、机构、内容等。
V ( d ) = ( t 1, w1( d );...; t i , w i ( d );...; t n , w n ( d ))
d2
85 90 33 140
d3
35 76 160 70
d4
69 57 48 201
d5
15 13 221 16
d6
320 370 26 35
11
322 361 25 30
中文特征词(Term)的粒度
Character,字:中 Word,词:中国 Phrase,短语:中国人民银行 Concept,概念 Concept
Gain(t) = Entropy ( S ) Expected Entropy( S t ) = { ∑ i =1 P ( ci ) log P (ci )}
M
[ P ( t ){ ∑ i =1 P ( ci | t ) log P (ci | t )} +
M
P ( t ){ ∑ i =1 P ( ci | t ) log P (ci | t )}]
2010-9-17
13
英文特征词
一般采用keyword,无需分词,单词之间有空格分开。 停用词(stop word),指文档中出现的连词,介词,冠词等并无太 停用词 大意义的词。例如在英文中常用的停用词有the,a, it等;在中文中 常见的有“是”,“的”,“地”等。 索引词(标引词,关键祠):可以用于指代文档内容的预选词语,一 般为名词或名词词组。 词干提取 countries => country,interesting => interest
∑ [TF
k
kj
* log( N / DFk )] 2
aij =
log(TFij + 1.0) * log( N / DFi )
∑ [log(TF
k
kj
+ 1.0) * log( N / DFk )]2
基于熵概念的权重(Entropy weighting)
称为term i的某种熵 如果term分布极度均匀:熵等于-1 只在一个文档中出现:熵等于0 a = log(TF + 1.0) * 1 + 1
2010-9-17
8
特征抽取(feature extraction)
预处理
去掉html一些tag标记 禁用词(stop words)去除、词根还原(stemming) (中文)分词、词性标注、短语识别、…
词频统计
TFi,j: 特征i在文档j中出现次数,词频(Term Frequency) DFi:所有文档集合中出现特征i的文档数目,文档频率(Document Frequency)
奇异值分解(SVD):A=(aij)=UΣVT
AM*N, UM*R, ΣR*R(对角阵), VN*R, R<=MIN(M,N)
取Σ对角上的前k个元素,得Σk
Ak= UkΣkVkT, Uk由U的前k列组成,Vk由V的前k列组成 文档d在LSI对应的向量d’=dTUkΣ-1
在已有的LSI中增加新的word或者document,不需要 重新计算
m i =1
2010-9-17
I AVG (t ) = ∑ P (ci ) I (t , ci )
I MAX (t ) = max im 1 P(ci ) I (t , ci ) =
18
特征选择(4)
Robertson & Sparck Jones公式
RSJ ( t , c j ) = c j中出现 t 的概率 非 c j中出现 t 的概率 = log P (t | c j ) P (t | c j )
Folding-in 方法 SVD-updating方法
2010-9-17 23
提纲
文本挖掘的背景 文本挖掘的过程
数据清洗:去掉不合适的噪声文档或文档内垃圾数据
文本表示
向量空间模型
降维技术
特征选择(Feature Selection) 特征重构(Re-parameterisation,如LSI)
2010-9-17 9
文本表示
向量空间模型(Vector Space Model)
2010-9-17
16
特征选择(2)
term的熵:该值越大,说明分布越均匀,越有可能出 现在较多的类别中;该值越小,说明分布越倾斜,词 可能出现在较少的类别中
Entropy(t ) = ∑ P(ci | t ) log P(ci |KL距离(Kullback-Leibler divergence) ,反映了文本类别的概率分布和在出现了 某个特定词汇条件下的文本类别的概率分布之间的距 离,该值越大,词对文本类别分布的影响也大。 P(ci | t ) CE (t ) = ∑ P( ci | t ) log P(ci ) i
ij ij
2010-9-17
logN
∑[
j =1
N
TF TF ij log( ij )]) DF DF i i
15
特征选择(1)
基于DF
Term的DF小于某个阈值去掉(太少,没有代表性) Term的DF大于某个阈值也去掉(太多,没有区分度)
信息增益(Information Gain, IG):该term为整 个分类所能提供的信息量(不考虑任何特征的 不考虑任何特征的 考虑该特征后的熵的差值) 熵和考虑该特征后的熵 考虑该特征后的熵
同义词:开心 高兴 兴奋 相关词cluster,word cluster:葛非/顾俊
N-gram,N元组:中国 国人 人民 民银 银行 某种规律性模式:比如某个window中出现的固 定模式
2010-9-17 12
主要的分词方法
最大匹配法( MM法):选取包含 选取包含6 最大匹配法(Maximum Matching method, MM法):选取包含6-8个 汉字的符号串作为最大符号串, 汉字的符号串作为最大符号串,把最大符号串与词典中的单词条目 相匹配,如果不能匹配,就削掉一个汉字继续匹配, 相匹配,如果不能匹配,就削掉一个汉字继续匹配,直到在词典中 找到相应的单词为止。匹配的方向是从右向左。 找到相应的单词为止。匹配的方向是从右向左。 逆向最大匹配法( RMM法):匹配方向 逆向最大匹配法(Reverse Maximum method, RMM法):匹配方向 MM法相反 是从左向右。实验表明:对于汉语来说, 法相反, 与MM法相反,是从左向右。实验表明:对于汉语来说,逆向最大匹 配法比最大匹配法更有效。 配法比最大匹配法更有效。 双向匹配法(BiBM法):比较MM法 比较MM 双向匹配法(Bi-direction Matching method, BM法):比较MM法 RMM法的分词结果 从而决定正确的分词。 法的分词结果, 与RMM法的分词结果,从而决定正确的分词。 最佳匹配法( OM法):将词典中的单 最佳匹配法(Optimum Matching method, OM法):将词典中的单 词按它们在文本中的出现频度的大小排列,高频度的单词排在前, 词按它们在文本中的出现频度的大小排列,高频度的单词排在前, 频度低的单词排在后,从而提高匹配的速度。 频度低的单词排在后,从而提高匹配的速度。 联想-回溯法(AssociationAB法):采用 联想-回溯法(Association-Backtracking method, AB法):采用 联想和回溯的机制来进行匹配。 联想和回溯的机制来进行匹配。
TSV ( t , c j ) = r * log
P (t | c j ) , r 为出现 t 的 c j 类文档个数 P (t | c j )
log P ( t | c j ) log( 1 P ( t | c j )) | c j )) log P ( t | c j )
其他
Odds: log( 1 P ( t Term Strength:
2010-9-17 3
文本挖掘的背景(续)
文本挖掘与数据挖掘的区别: 文本挖掘:文档本身是半结构化的或非结构 化的,无确定形式并且缺乏机器可理解的语 义; 数据挖掘:其对象以数据库中的结构化数据 为主,并利用关系表等存储结构来发现知识 因此,数据挖掘的技术不适用于文本挖掘, 或至少需要预处理。
2010-9-17 4
提纲
文本挖掘的背景 文本挖掘的过程 特征抽取 特征选择 文本分类 文本聚类 模型评价
2010-9-17
5
文本挖掘的过程
特征的 建立
文档集
特征集 的缩减
学习与知识 模式的提取
模式质量 的评价
知识模式
文本挖掘的一般处理过程
2010-9-17
6
提纲
文本挖掘的背景 文本挖掘的过程
特征抽取 特征选择 文本分类 文本聚类 模型评价
V ( d ) = (t1, w1( d );...; ti , wi (d );...; tn , wn( d ))
权重计算,N个训练文档
WM*N= (wij)
词项的权重: tf(词频 词频=term 词项的权重: {0,1}, tf(词频=term frequency), tf*idf,
2010-9-17
10
文本表示
词频矩阵 行对应关键词t,列对应文档d 行对应关键词t,列对应文档d向量 将每一个文档视为空间向量v 将每一个文档视为空间向量v 向量值反映单词t与文档d 向量值反映单词t与文档d的关联度 矩阵元素可以是词频,也可以是布尔型。
表示文档词频的词频矩阵
d1 t1 t2 t3 t4
2010-9-17
国内外研究状况
2010-9-17 7
文本特征抽取
定义:文本特征指的是关于文本的元数据 分类:
描述性特征:文本的名称、日期、大小、类型等。 语义性特征:文本的作者、标题、机构、内容等。
V ( d ) = ( t 1, w1( d );...; t i , w i ( d );...; t n , w n ( d ))
d2
85 90 33 140
d3
35 76 160 70
d4
69 57 48 201
d5
15 13 221 16
d6
320 370 26 35
11
322 361 25 30
中文特征词(Term)的粒度
Character,字:中 Word,词:中国 Phrase,短语:中国人民银行 Concept,概念 Concept
Gain(t) = Entropy ( S ) Expected Entropy( S t ) = { ∑ i =1 P ( ci ) log P (ci )}
M
[ P ( t ){ ∑ i =1 P ( ci | t ) log P (ci | t )} +
M
P ( t ){ ∑ i =1 P ( ci | t ) log P (ci | t )}]
2010-9-17
13
英文特征词
一般采用keyword,无需分词,单词之间有空格分开。 停用词(stop word),指文档中出现的连词,介词,冠词等并无太 停用词 大意义的词。例如在英文中常用的停用词有the,a, it等;在中文中 常见的有“是”,“的”,“地”等。 索引词(标引词,关键祠):可以用于指代文档内容的预选词语,一 般为名词或名词词组。 词干提取 countries => country,interesting => interest
∑ [TF
k
kj
* log( N / DFk )] 2
aij =
log(TFij + 1.0) * log( N / DFi )
∑ [log(TF
k
kj
+ 1.0) * log( N / DFk )]2
基于熵概念的权重(Entropy weighting)
称为term i的某种熵 如果term分布极度均匀:熵等于-1 只在一个文档中出现:熵等于0 a = log(TF + 1.0) * 1 + 1
2010-9-17
8
特征抽取(feature extraction)
预处理
去掉html一些tag标记 禁用词(stop words)去除、词根还原(stemming) (中文)分词、词性标注、短语识别、…
词频统计
TFi,j: 特征i在文档j中出现次数,词频(Term Frequency) DFi:所有文档集合中出现特征i的文档数目,文档频率(Document Frequency)
奇异值分解(SVD):A=(aij)=UΣVT
AM*N, UM*R, ΣR*R(对角阵), VN*R, R<=MIN(M,N)
取Σ对角上的前k个元素,得Σk
Ak= UkΣkVkT, Uk由U的前k列组成,Vk由V的前k列组成 文档d在LSI对应的向量d’=dTUkΣ-1
在已有的LSI中增加新的word或者document,不需要 重新计算
m i =1
2010-9-17
I AVG (t ) = ∑ P (ci ) I (t , ci )
I MAX (t ) = max im 1 P(ci ) I (t , ci ) =
18
特征选择(4)
Robertson & Sparck Jones公式
RSJ ( t , c j ) = c j中出现 t 的概率 非 c j中出现 t 的概率 = log P (t | c j ) P (t | c j )
Folding-in 方法 SVD-updating方法
2010-9-17 23
提纲
文本挖掘的背景 文本挖掘的过程
数据清洗:去掉不合适的噪声文档或文档内垃圾数据
文本表示
向量空间模型
降维技术
特征选择(Feature Selection) 特征重构(Re-parameterisation,如LSI)
2010-9-17 9
文本表示
向量空间模型(Vector Space Model)