第1讲 文本挖掘概述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
如上海交通大学纳讯公司的自动摘要
文本分类
复旦大学的文本分类,计算所基于聚类粒度 原理VSM的智多星中文文本分类器
图1.4 文本分类
一个文档通常可以出现在多个文件夹里
举个例子来说,根据以往的经验来预测股票的走势。搜集一些和某个公司的财务报告有 关的新闻文章,然后建立起一个文档信息和那家公司股票涨跌之间的关联关系,这些文 档的标签是二进制的,1表示上涨,0表示下跌。
A:检索到的,相关的 B:检索到的,但是不相关的 C:未检索到的,但却是相关的 D:未检索到的,也不相关的
希望:被检索到的内容越多越好,这是追求 “查全率”,即A/(A+C),越大越好。 希望:检索到的文档中,真正想要的、也就 是相关的越多越好,不相关的越少越好, 这是追求“准确率”,即A/(A+B),越大越 好。 (搜到的也想要的) (搜到的但没用的) “召回率”与“准确率”虽然没有必然的 (没搜到,然而实际上想要的) (没搜到也没用的) 关系在实际应用中,是相互制约的。要根据 实际需求,找到一个平衡点,F值。
特征子Βιβλιοθήκη Baidu的提取:是通过构造一个特征评估函数,对特征集中的每个特 征进行评估,每个特征获得一个评估分数,然后对所有的特征按照评估 分大小进行排序,选取预定数目的最佳特征作为特征子集。
3 文本模式挖掘
文本挖掘系统核心功能是分析文本集合中各 个文本之间共同出现的模式 例如:蛋白质P1和酶E1存在联系,在其他 文章中说酶E1和酶E2功能相似,还有文章把酶 E2和蛋白质P2联系起来,我们可以推断出P1和 P2存在联系
文本是以文字串形式表示的数据文件 非结构化文本源(如文档、网页、企业管理日志等) 文本的特点 语言难点:文本不是给计算机阅读的 复杂的语言结构:语法语义 更困难的:歧义 这辆车没有锁; 小张租小王两间房; 多语言
三个学校的领导; 这个人好说话; 放弃美丽的女人让人心碎。
经典的数据挖掘和文本挖掘的数据表示有很大不同。文本挖掘方 法想要看到文档格式,而经典数据挖掘方法着重于处理电子表格 格式的数据,而在文档领域描述数据的标准是称为XML格式的变 体。很明显,我们期望文本和数字是完全不同的。 我们将讨论的文本方法和数据挖掘中使用的方法是相似的。这些 方法已经被证明是非常成功的,尽管它们没有考虑到特定的文本 属性,例如语法的概念或者文字的意义。通过使用频率信息—— 例如一个词在文档中出现的次数——成熟的机器学习方法得以应 用于文本挖掘。 文本挖掘的一个重要支撑是---文本数据到数值数据的转换,所以 虽然数据初始表示不同,但是通过中间阶段将数据转换成到经典 的数据挖掘编码格式,无结构的数据将会被结构化。
第四步:重复第三步,计算出一个网页所有词的tf-idf 值。 第五步:重复第四步,计算出所有网页每个词的tf-idf 值。
考虑文档为一个集合。属性集将是集合中唯一词的总集合。我 们称这个词集为字典。样例是个别的文档。一个应用程序可能 有数千个或者甚至数以百万计的文档。这个字典将集中到比文 档数目更小的词,但仍然可以编号到几十万。
正常情况下的电子表格矩阵是稀疏的:任何单个文档仅仅使用 字典中词的潜在集合的一个极小的子集。因为这一特殊性质, 电子表格仍然是一个合理的概念模型数据。 文本挖掘方法主要集中于正匹配,不担心其他词是否存在于文 档。此观点也引起了处理时的极大简化,往往使得文本挖掘程 序可以处理常规数据挖掘认为规模过于庞大的问题。 尽管文本挖掘在高维度进行操作,但是在很多情况下,由于多 数文档和多数实际应用程序的稀缺性,处理过程还是很高效的。
4 模式评价和可视化
也就是文本挖掘系统的表示层,简称浏览
文本挖掘的用武之地: 文本摘要 文本分类 信息检索 文档聚类与组织 信息提取 预测评估 其他
注:这里不强调语言学领域的分析, 统计和关联关系是研究的基础。
指从文档中抽取关键信息,用简洁的形式,对文 档内容进行摘要和解释,这样用户不需阅读全文 就可了解文档或文档集合的总体内容。
文本表示模型常用的有:布尔逻辑模型, 向量空间模型、潜在语 义索引和概率模型。 VSM是使用最多的方法也是效率最好的方法。VSM的基本思想是使用 词袋法表示文本,这种表示法的一个关键假设,就是文章中词条出 现的先后次序是无关紧要的,每个特征词对应特征空间的一维,将 文本表示成欧氏空间的一个向量。
特征集约减
原理 1、文本相似度计算的需求始于搜索引擎。 搜索引擎需要计算“用户查询”和爬下来的众多”网页“之间的相似 度,从而把最相似的排在最前返回给用户。 2、主要使用的算法是tf-idf tf:term frequency词频 idf:inverse document frequency倒文档频率 主要思想是:如果某个词或短语在一篇文章中出现的频率高,并且在其 他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适 合用来分类。 第一步:把每个网页文本分词,成为词包(bag of words)。 第三步:统计网页(文档)总数M。 第三步:统计第一个网页词数N,计算第一个网页第一个词在该网页中 出现的次数n,再找出该词在所有文档中出现的次数m。则该词的tf-idf 为:n/N * 1/(m/M) (还有其它的归一化公式,这里是最基本最直观的 公式)
1)获取训练文本集:训练文本集由一组经过预处理的文本特征向 量组成,每个训练文本(或称训练样本)有一个类别标号;
2)选择分类方法并训练分类模型:文本分类方法有统计方法、机 器学习方 法、神经网络方法等等。在对待分类样本进行分类前, 要根据所选择的分类方法,利用训练集进行训练并得出分类模 型; 3)用训练好的分类模型对其它待分类文本进行分类; 4)根据分类结果评估分类模型。
文本采集
文本预处理
文本分析
知识获取
可视化展示
文本分词
数据清洗
文本矢量化
词典导入
• 专业字典 • 自定义字典
词频统计 特征提取 词共现 停用词 相关分析 同义词 语义网 近义词 关联规则 标点符号? 分类 数字? 聚类 日期? 检索 过滤 TDT
可视化分析
文本采集 文本预处理 分词 文本清洗 文本矢量化 原始的非结构化数据源结构化表示 文本分析 文本挖掘系统核心功能是分析文本集合中各个文本之间共同出 现的模式 例如:蛋白质P1和酶E1存在联系,在其他文章中说酶E1和酶 E2功能相似,还有文章把酶E2和蛋白质P2联系起来,我们可 以推断出P1和P2存在联系 知识获取 挖掘结果可视化
2 文本挖掘的基本思想
首先利用文本切分技术,抽取文本特征,将文本数 据转化为能描述文本内容的结构化数据,然后利用 聚类、分类技术和关联分析等数据挖掘技术,形成 结构化文本,并根据该结构发现新的概念和获取相 应的关系。
换个说法:把从文本中抽取出的特征词进行量化来表 示文本信息。将它们从一个无结构的原始文本转化为 结构化的计算机可以识别处理的信息,即对文本进行 科学的抽象,建立它的数学模型,用以描述和代替文 本。使计算机能够通过对这种模型的计算和操作来实 现对文本的识别。
近年来涌现出了大量的适合于不同应用的分类 算法,如: 基于归纳学习的决策树 基于向量空间模型的 K-最近邻 基于概率模型的方法,如朴素Bayes 分类器, 隐马尔可夫模型等。 神经网络方法 基于统计学习理论的支持向量机方法 ……
还有什么能比搜索引擎更基础呢?
代表性的系统有北京大学天网、计算所的“ 天罗”、百度、慧聪等公司的搜索引擎。
联系 数据挖掘和文本挖掘不是两个完全不同概念。事 实上,它们都基于对以前样例的抽样分析,虽然 样例组成大不相同,但是许多学习方法是相似的。 因此,在文本挖掘过程中,文本将转换为数字形 式。
数据粗分为两种类型: (a)有序数值类型 可以比较大小,例如,“重量”和“收入”
(b)分类类型。 分类属性是在代码书中定义的无序数值代码。 最常见分类类型数据是可以取值为“真”或者 “假”的属性,用1表示真,0表示假。 学习程序并不关心代码含义,而最终理解学习程序结 果却要依赖代码含义。
急于在原始数据中应用学习方 法是愚蠢的,特别是在没有考 虑特定文本属性的情况下。电 子表格只不过是概念模型,在 实际应用中效率低下.
公司 0 1 1 0
1 0 1 0 图1.3
收入
工作 海外 0 1 1 1 1 0 0 1 文档中词的二进制电子表格
词是属性,文档是样例 将词转化为数字,然后应用已知的数据挖掘方法。
1 2 3 4 5 6 7
什么是文本挖掘? 文本挖掘的基本思想 文本挖掘和数据挖掘的区别和联系 文本挖掘的一般过程 文本挖掘可以解决什么类型的问题? 文本挖掘应用 文本挖掘在医疗领域应用的案例展示
关于文本挖掘名字
Text Mining Text Data Mining Knowledge Discovery in Text 文本知识发现 Knowledge Discovery in Textual Data
文本挖掘定义
◦ Text Mining is mainly about somehow extracting the information and knowledge from text ◦ 文本挖掘是一个以半结构(如WEB网页)或者无结构(如纯文 本)的自然语言文本为对象的数据挖掘,是从大规模文本数据 集中发现隐藏的、重要的、新颖的、潜在的有用的规律的过程。 (对KDD定义进行扩展)
文档集合
给出有关被检索 文档的一些线索
用户提交 的一系列 的线索词 有时文档匹配器 可以对文档中的 某些词进行替换
输入文档 匹配的文档 文本挖掘 文档匹配
与线索匹 配的文档
图1.5 检索匹配的文档
召回率:Recall,又称“查全率” 准确率:Precision,又称“精度”、“正确率”
可以把搜索情况表示:
目的:1)为了提高程序效率,提高运行速度; 2)数万维的特征对文本分类的意义是不同的,一些通用的、各个 类别都普遍存在的特征对分类的贡献小,在某个特定的类中出现的比重大 而在其他类中出现比重小的特征对文本的贡献大 。 3)防止过拟合(Overfit)。对每一类,去除对分类贡献小的特征, 筛选出针对反映该类的特征集合。 一个有效的特征集直观上说必须具备以下两个特点: 1)完全性:确实体现目标文档的内容; 2)区分性:能将目标文档同其他文档区分开来。
也就是文本挖掘系统的表示层,简称浏览
图 3 鼻炎非药物治疗手段
文本挖掘的一般处理过程
1 文本预处理
原始的非结构化数据源结构化表示
文本的预处理过程可能占据整个系统的 80 %的工作量。
同义词 近义词 停用词
2 文本特征抽取
抽取代表文本特征的特征项,这些特征可以用结构化的形 式保存,作为文档的中间表示形式。 文本特征表示:对从文本中抽取出的特征项进行量化,以 结构化形式描述文档信息。这些特征项作为文档的中间表 示形式,在信息挖掘时用以评价未知文档与用户目标的吻 合程度,这一步又叫做目标表示。
◦ ◦ ◦ ◦ ◦
大规模的数据集 高维 过适应 over fitting 噪声数据 挖掘出的模式的可理解性
区别: ◦ 文本挖掘:文档本身是半结构化的或非结构化的,无确定形式并且缺乏机 器可理解的语义; ◦ 数据挖掘:其对象以数据库中的结构化数据为主,并利用关系表等存储结 构来发现知识; ◦ 数据挖掘已不是什么方兴未艾的新兴技术,在业界远未普及,但是,理论 技术已经高度发达,对于某些问题解决也几近成熟。文本挖掘面临好多问 题。 ◦ 大多数情况,数据挖掘的技术不适用于文本挖掘,或至少需要预处理。
将数据从文本转换到标准数值形式。 将文本转换为标准的电子表格格式,并且填写电子表格 的单元格。 可考虑将文档看作一个完整的样例。列是可以被衡量的 属性。在文本的最基本模型中,可认为词的出现或不出 现为每个文档中的可度量属性。因此,每行表示一个文 档,每列表示一个词。如图,用1或者0填写单元格。 在这个样例中,词“收入”出现在文档1和3,而不是 文档2或4。