文本挖掘与Web挖掘
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Kodratoff认为文本挖掘的目的是从文本 集合中,试图在一定的理解水平上尽可能 多地提取知识。
1. 概念
文本挖掘是一个从大量文本数据中提取 以前未知的、有用的、可理解的、可操 作的知识的过程。 文本数据包括:技术报告、文本集、新 闻、电子邮件、网页、用户手册等。
2.主要任务
(1)短语提取 提取文本集中所有相关的短语 。 (2)概念提取(聚类) 对这些短语之间的关系,建立一个该文本 集中的主要概念 。 (3)可视化显示和导航 从多个视角出发进行分析.
11.3 Web挖掘
11.3.1 Web挖掘概述
11.3.2 Web内容挖掘 11.3.3 Web结构挖掘 11.3.4 Web应用挖掘
11.3.1 Web挖掘概述
1.Web信息特点
(1)Web信息特别庞大 (2)Web信息非常复杂 (3)Web信息是动态的 (4)Web信息使用者复杂 (5)Web信息中的“垃圾”非常多
2.Web挖掘分类
Web挖掘
Web内容 挖掘 Web结构 挖掘 Web应用 挖掘
wenku.baidu.com
页面内容 挖掘
搜索结果 挖掘
使用模式 挖掘
个性使用 跟踪
Web挖掘分类
2.Web挖掘分类
(1)Web内容挖掘 提取文字、图片或其他组成网页内容成分的信息和知识。 (2)Web结构挖掘 提取网络的拓扑信息,即网页之间的链接信息。
3.文本挖掘与数据挖掘
数据挖掘 研究对象 对象结构 目标 方法 用数字表示的、结构化的数据 关系数据库 获取知识,预测以后的状态 文本挖掘 无结构或者半结构化的文本 自由开放的文本 提取概念和知识
归纳学习、决策树、神经网络、 提取短语、形成概念、关联分析、 粗糙集、遗传算法等 聚类、分类 从1994年开始得到广泛应用 从2000年开始得到广泛应用
11.2.2 关联分析
在文本数据库中,每一文本被视为一个事务,文 本中的关键词组可视为事务中的一组事务项。即文本数 据库可表示为: {文本编号, 关键词集} 文本数据库中关键词关联挖掘的问题就变成事务 数据库中事务项的关联挖掘。
关联分析挖掘可以用于找出词或关键词间的 关联。
11.2.3 文本聚类
11.3.2 Web内容挖掘
2.基于内容的分类
“k最近邻(简称k-NN)”,这种方法很好地适用于 在网页中利用关键词进行聚类。 在k-NN方法中,每个新的网页与在数据库中预先聚类 的例子进行对比。新网页将出现和一些现有的网页非常 类似,与另一些非常不同的情况。 通过使用k-NN可以对相同的网页进行聚类。相似度越 高,聚类的可信度也就越高。
关键词 相似检索 词语关联分析 文本聚类 文本分类
自然语言处理
文本挖掘功能层次
(1)关键词检索 关键词建立倒排文件索引,与传统的 信息检索使用的技术类似。
(2)相似检索 找到相似内容的文本。
(3)词语关联分析 聚焦在词语(包括关键词)之间的关 联信息分析上。
(4)文本聚类和文本分类 实现文本的聚类和分类。 (5)自然语言处理 揭示自然语言处理技术的语义,进 行文本语义挖掘。
点击流的分析始于网络日志。 当客户单击单独的网页时,点击也将通过各种指标予 以记录。
11.3.4 Web应用挖掘
3. 应用日志
要求从应用服务器上得到的数据是完整的点击流数据。 只有应用日志知道什么时候一些商品放在商店里,什么 时候该拿走,什么时候客户进来,什么时候客户出去。
4. 日志挖掘的基本流程
11.3.4 Web应用挖掘
1. 点击流分析 用于Web挖掘的有效的最简单的数据就是点击流—— 由一个站点的网络服务器来接受的网页请求。点击流的 定义是一个网站浏览者通过点击链接所明确要求的一系 列文件。 在网络世界里记录了所有客户的浏览器所请求的文件。
11.3.4 Web应用挖掘
2. 网络日志
该过程构造出一棵生成树,其中包含了类的层次信息,以 及所有类内和类间的相似度。
11.2.4 文本分类
首先,把一组预先聚类过的文本作为训练集。 然后对训练集进行分析以便得出各类的分类模式。 对文本分类的有效方法是基于关联的分类: (1)提出关键词和词组。 (2)生成关键词和词组的概念层次,或类层 次结构。 (3)词关联挖掘方法用于发现关联词,它可 以最大化区分一类文本与另一类文本。这导致了 对每一类文本,有一组关联规则。
结 束
I(W,C)
(3) 对于该类中所有的词,依据上面计算的互信 息量排序。 (4)抽取互信息量大的词作为特征项。 (5)根据抽取的特征项进行向量压缩,精简向量 表示。
11.2 文本挖掘
11.2.1文本挖掘功能层次
11.2.2关联分析 11.2.3文本聚类 11.2.4文本分类
11.2.1文本挖掘功能层次
11.1.3 文本特征的提取
特征提取主要是识别文本中代表 其特征的词项。
文本特征分为一般特征和数字特征,其中 一般特征主要包括动词和名词短语,如人 名、组织名等; 数字特征主要包括日期、时间、货币以及 单纯数字信息。
特征项抽取的判断算法
(1)该特征项集合包含所有该类中出现的词。 (2)对于每个词,计算词Wi和类别Cj的互信息量
1.层次聚类法 对于给定的文本集合D={d1,…,di,…,dn}: (1)将D中的每个文本di看作是一个具有单成员的类 ci={di},这些类构成了D的一个聚类: C={c1,…,ci,…,cn}; (2)计算C中每对类(ci,cj)之间的相似度sim(ci,cj); (3)选取具有最大相似度的类对,并将ci和cj合并为一个 新的类ck=ci∪cj,从而构成了D的一个新的聚类C={c1,…, cn-1}; (4)重复上述步骤,直至C中剩下一个类为止。
第11章
文本挖掘与Web挖掘
目录
11.1 文本挖掘概述
11.2 文本挖掘 11.3 Web挖掘
11.1 文本挖掘概述
11.1.1 文本挖掘的基本概念
11.1.2 文本特征的表示 11.1.3 文本特征的提取
11.1.1 文本挖掘的基本概念
文本挖掘一词出现于1998年第十届欧洲机 器学习会议上。
11.3.3 Web结构挖掘
1. 网页的引用 一篇文章的有用与否在于这篇文章出现在其他文章的 参考书目中的次数。特别是作者,会因为他的作品的重 复引用而在某个学科出名。 网页引用的Page-rank方法:
(1)一个页面被多次引用,则这个页面很可能是重要的; (2)一个页面尽管没有被多次引用,但被一个重要页面引 用,则这个页面很可能是重要的; (3)一个页面的重要性被传递到它所引用的页面。
结构挖掘可以告诉我们一些站点的受欢迎程度和它同 其他站点的距离(通过跳转次数来判定)。
万维网(www)是一个有向图G=(V,E),V是页面 的集合,E是页面之间的超链接集合。
页面抽象为图中的顶点,而页面之间的超链接抽象为 图中的有向边。顶点v的入边表示对v的引用,出边表示 v引用了其它的页面。
Web页面之间的超链接揭示了Web结构。
(3)Web应用挖掘 提取关于客户如何运用浏览器浏览和使用页面链接的信息。
(4)区别与联系
结构挖掘的表达方式是链接图,提示了哪些页面 通过当前页可以几步内到达。 内容挖掘的表达方式是一个网络索引,提示了网 页的主题。
应用挖掘集中于挖掘客户的行为,特别是随着时 间的变化。
11.3.2 Web内容挖掘
(1)对访问日志(Web Log)进行清洗、过滤和转换,从 中抽取感兴趣的数据。
(2)将资源的类型、大小、请求的时间、停留时间、请求 者的域名、用户、服务器状态作为数据立方体的维变量。 将对页面和文件请求次数、来自不同域请求次数、事 件、会话、错误次数分别作为在这些维变量下的度量变量,建 立数据立方体。 通过切块、切片分析可以回答:哪些成分或特色被经 常或偶尔使用,网络流量随时间的变化规律。 (3)利用数据挖掘技术进行Web流量分析、典型的事件序 列和用户行为模式分析。
V(d)=(t1,w1(d);…;ti,wi(d);…;tn,wn(d))
d中出现的所有单词作为ti,或所有短语。wi(d) 一般被定义为ti在d中出现频率tfi(d)的函数。
函数wi(d)=Ψ(tfi(d)) ,常用的Ψ有:
(1)平方根函数
tf i ( d )
(2)对数函数
log(tf i ( d ) 1 )
成熟度
11.1.2 文本特征的表示
文本特征指的是关于文本的元数据:
(1)描述性特征,例如文本的名称、日期、 大小、类型等;
(2)语义性特征,例如文本的作者、机构、 标题、内容等。
11.1.2 文本特征的表示
矢量空间模型(VSM)是效果较好的表示文本特 征的方法。每个文本d表示为其中的一个规范化 特征矢量:
11.3.3 Web结构挖掘
3. 导航页 导航页使他们能够很容易地找到他们想 要找的网页。 4 . 目标页
目标页给浏览者提供所有的内容。
11.3.4 Web应用挖掘
应用挖掘从单个客户在一次对话中的一系列的 单击到跨越了几个月或数年的客户群的购买模式 中,收集信息组成一个特性文件,依次提供当前 客户的快照。
Web内容挖掘的基本技术是文本挖掘。 1.信息检索
信息检索的目标是找到你想要找的,从两个方面来判 断 该 查 询 的 有 效 性 : “ 召 回 ( recall ) ” 和 “ 精 度 (precision)”。
“精度”回答了“在返回的网页中,正确的标题的比 例是多少” ; “召回” 回答了“返回了多少正确页面” 。
11.3.2 Web内容挖掘
3.从纯文本中提取信息
通过将纯文本转化为结构化的数据,他们能够直接应 用数据挖掘技术做出预测。这种从非结构化数据中创建 结构化数据的过程叫做特征抽取。 通过以XML标记的形式向网站中添加更结构化的内容, 比通过提高从非结构化的文本中提取信息的技术来得更 加迅速一些。
11.3.3 Web结构挖掘
1. 概念
文本挖掘是一个从大量文本数据中提取 以前未知的、有用的、可理解的、可操 作的知识的过程。 文本数据包括:技术报告、文本集、新 闻、电子邮件、网页、用户手册等。
2.主要任务
(1)短语提取 提取文本集中所有相关的短语 。 (2)概念提取(聚类) 对这些短语之间的关系,建立一个该文本 集中的主要概念 。 (3)可视化显示和导航 从多个视角出发进行分析.
11.3 Web挖掘
11.3.1 Web挖掘概述
11.3.2 Web内容挖掘 11.3.3 Web结构挖掘 11.3.4 Web应用挖掘
11.3.1 Web挖掘概述
1.Web信息特点
(1)Web信息特别庞大 (2)Web信息非常复杂 (3)Web信息是动态的 (4)Web信息使用者复杂 (5)Web信息中的“垃圾”非常多
2.Web挖掘分类
Web挖掘
Web内容 挖掘 Web结构 挖掘 Web应用 挖掘
wenku.baidu.com
页面内容 挖掘
搜索结果 挖掘
使用模式 挖掘
个性使用 跟踪
Web挖掘分类
2.Web挖掘分类
(1)Web内容挖掘 提取文字、图片或其他组成网页内容成分的信息和知识。 (2)Web结构挖掘 提取网络的拓扑信息,即网页之间的链接信息。
3.文本挖掘与数据挖掘
数据挖掘 研究对象 对象结构 目标 方法 用数字表示的、结构化的数据 关系数据库 获取知识,预测以后的状态 文本挖掘 无结构或者半结构化的文本 自由开放的文本 提取概念和知识
归纳学习、决策树、神经网络、 提取短语、形成概念、关联分析、 粗糙集、遗传算法等 聚类、分类 从1994年开始得到广泛应用 从2000年开始得到广泛应用
11.2.2 关联分析
在文本数据库中,每一文本被视为一个事务,文 本中的关键词组可视为事务中的一组事务项。即文本数 据库可表示为: {文本编号, 关键词集} 文本数据库中关键词关联挖掘的问题就变成事务 数据库中事务项的关联挖掘。
关联分析挖掘可以用于找出词或关键词间的 关联。
11.2.3 文本聚类
11.3.2 Web内容挖掘
2.基于内容的分类
“k最近邻(简称k-NN)”,这种方法很好地适用于 在网页中利用关键词进行聚类。 在k-NN方法中,每个新的网页与在数据库中预先聚类 的例子进行对比。新网页将出现和一些现有的网页非常 类似,与另一些非常不同的情况。 通过使用k-NN可以对相同的网页进行聚类。相似度越 高,聚类的可信度也就越高。
关键词 相似检索 词语关联分析 文本聚类 文本分类
自然语言处理
文本挖掘功能层次
(1)关键词检索 关键词建立倒排文件索引,与传统的 信息检索使用的技术类似。
(2)相似检索 找到相似内容的文本。
(3)词语关联分析 聚焦在词语(包括关键词)之间的关 联信息分析上。
(4)文本聚类和文本分类 实现文本的聚类和分类。 (5)自然语言处理 揭示自然语言处理技术的语义,进 行文本语义挖掘。
点击流的分析始于网络日志。 当客户单击单独的网页时,点击也将通过各种指标予 以记录。
11.3.4 Web应用挖掘
3. 应用日志
要求从应用服务器上得到的数据是完整的点击流数据。 只有应用日志知道什么时候一些商品放在商店里,什么 时候该拿走,什么时候客户进来,什么时候客户出去。
4. 日志挖掘的基本流程
11.3.4 Web应用挖掘
1. 点击流分析 用于Web挖掘的有效的最简单的数据就是点击流—— 由一个站点的网络服务器来接受的网页请求。点击流的 定义是一个网站浏览者通过点击链接所明确要求的一系 列文件。 在网络世界里记录了所有客户的浏览器所请求的文件。
11.3.4 Web应用挖掘
2. 网络日志
该过程构造出一棵生成树,其中包含了类的层次信息,以 及所有类内和类间的相似度。
11.2.4 文本分类
首先,把一组预先聚类过的文本作为训练集。 然后对训练集进行分析以便得出各类的分类模式。 对文本分类的有效方法是基于关联的分类: (1)提出关键词和词组。 (2)生成关键词和词组的概念层次,或类层 次结构。 (3)词关联挖掘方法用于发现关联词,它可 以最大化区分一类文本与另一类文本。这导致了 对每一类文本,有一组关联规则。
结 束
I(W,C)
(3) 对于该类中所有的词,依据上面计算的互信 息量排序。 (4)抽取互信息量大的词作为特征项。 (5)根据抽取的特征项进行向量压缩,精简向量 表示。
11.2 文本挖掘
11.2.1文本挖掘功能层次
11.2.2关联分析 11.2.3文本聚类 11.2.4文本分类
11.2.1文本挖掘功能层次
11.1.3 文本特征的提取
特征提取主要是识别文本中代表 其特征的词项。
文本特征分为一般特征和数字特征,其中 一般特征主要包括动词和名词短语,如人 名、组织名等; 数字特征主要包括日期、时间、货币以及 单纯数字信息。
特征项抽取的判断算法
(1)该特征项集合包含所有该类中出现的词。 (2)对于每个词,计算词Wi和类别Cj的互信息量
1.层次聚类法 对于给定的文本集合D={d1,…,di,…,dn}: (1)将D中的每个文本di看作是一个具有单成员的类 ci={di},这些类构成了D的一个聚类: C={c1,…,ci,…,cn}; (2)计算C中每对类(ci,cj)之间的相似度sim(ci,cj); (3)选取具有最大相似度的类对,并将ci和cj合并为一个 新的类ck=ci∪cj,从而构成了D的一个新的聚类C={c1,…, cn-1}; (4)重复上述步骤,直至C中剩下一个类为止。
第11章
文本挖掘与Web挖掘
目录
11.1 文本挖掘概述
11.2 文本挖掘 11.3 Web挖掘
11.1 文本挖掘概述
11.1.1 文本挖掘的基本概念
11.1.2 文本特征的表示 11.1.3 文本特征的提取
11.1.1 文本挖掘的基本概念
文本挖掘一词出现于1998年第十届欧洲机 器学习会议上。
11.3.3 Web结构挖掘
1. 网页的引用 一篇文章的有用与否在于这篇文章出现在其他文章的 参考书目中的次数。特别是作者,会因为他的作品的重 复引用而在某个学科出名。 网页引用的Page-rank方法:
(1)一个页面被多次引用,则这个页面很可能是重要的; (2)一个页面尽管没有被多次引用,但被一个重要页面引 用,则这个页面很可能是重要的; (3)一个页面的重要性被传递到它所引用的页面。
结构挖掘可以告诉我们一些站点的受欢迎程度和它同 其他站点的距离(通过跳转次数来判定)。
万维网(www)是一个有向图G=(V,E),V是页面 的集合,E是页面之间的超链接集合。
页面抽象为图中的顶点,而页面之间的超链接抽象为 图中的有向边。顶点v的入边表示对v的引用,出边表示 v引用了其它的页面。
Web页面之间的超链接揭示了Web结构。
(3)Web应用挖掘 提取关于客户如何运用浏览器浏览和使用页面链接的信息。
(4)区别与联系
结构挖掘的表达方式是链接图,提示了哪些页面 通过当前页可以几步内到达。 内容挖掘的表达方式是一个网络索引,提示了网 页的主题。
应用挖掘集中于挖掘客户的行为,特别是随着时 间的变化。
11.3.2 Web内容挖掘
(1)对访问日志(Web Log)进行清洗、过滤和转换,从 中抽取感兴趣的数据。
(2)将资源的类型、大小、请求的时间、停留时间、请求 者的域名、用户、服务器状态作为数据立方体的维变量。 将对页面和文件请求次数、来自不同域请求次数、事 件、会话、错误次数分别作为在这些维变量下的度量变量,建 立数据立方体。 通过切块、切片分析可以回答:哪些成分或特色被经 常或偶尔使用,网络流量随时间的变化规律。 (3)利用数据挖掘技术进行Web流量分析、典型的事件序 列和用户行为模式分析。
V(d)=(t1,w1(d);…;ti,wi(d);…;tn,wn(d))
d中出现的所有单词作为ti,或所有短语。wi(d) 一般被定义为ti在d中出现频率tfi(d)的函数。
函数wi(d)=Ψ(tfi(d)) ,常用的Ψ有:
(1)平方根函数
tf i ( d )
(2)对数函数
log(tf i ( d ) 1 )
成熟度
11.1.2 文本特征的表示
文本特征指的是关于文本的元数据:
(1)描述性特征,例如文本的名称、日期、 大小、类型等;
(2)语义性特征,例如文本的作者、机构、 标题、内容等。
11.1.2 文本特征的表示
矢量空间模型(VSM)是效果较好的表示文本特 征的方法。每个文本d表示为其中的一个规范化 特征矢量:
11.3.3 Web结构挖掘
3. 导航页 导航页使他们能够很容易地找到他们想 要找的网页。 4 . 目标页
目标页给浏览者提供所有的内容。
11.3.4 Web应用挖掘
应用挖掘从单个客户在一次对话中的一系列的 单击到跨越了几个月或数年的客户群的购买模式 中,收集信息组成一个特性文件,依次提供当前 客户的快照。
Web内容挖掘的基本技术是文本挖掘。 1.信息检索
信息检索的目标是找到你想要找的,从两个方面来判 断 该 查 询 的 有 效 性 : “ 召 回 ( recall ) ” 和 “ 精 度 (precision)”。
“精度”回答了“在返回的网页中,正确的标题的比 例是多少” ; “召回” 回答了“返回了多少正确页面” 。
11.3.2 Web内容挖掘
3.从纯文本中提取信息
通过将纯文本转化为结构化的数据,他们能够直接应 用数据挖掘技术做出预测。这种从非结构化数据中创建 结构化数据的过程叫做特征抽取。 通过以XML标记的形式向网站中添加更结构化的内容, 比通过提高从非结构化的文本中提取信息的技术来得更 加迅速一些。
11.3.3 Web结构挖掘