文本分类过程PPT课件
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
支持向量机(Support Vector Machine,SVM),其分类思想是给定给一个包含正例和反例的样 本集合,svm算法的目的是寻找一个超平面来对样本根据正例和反例进行分割。它在解决小样本、 非线性及高维模式识别中表现出许多特有的优势。
2019/12/30
17
中文文本分类过程中涉及许多 过程及参数,都会在不同程度 上影响分类器的分类效率。
特征个数越多,分析特征、训练模型所需的时间就越长。
特征个数越多,容易引起“维度灾难”,模型也会越复杂,其推广能力会下降。
特征选择能剔除不相关(irrelevant)或冗余(redundant )的特征,从而达到减少特征个数 ,提高模型精确度,减少运行时间的目的。另一方面,选取出真正相关的特征简化了 模型,使研究人员易于理解数据产生的过程。
文本可以是媒体新闻、科技、报告、电子邮件、网页、书籍或像微博 一样的一段语料。由于类别时事先定义好的,因此分类是有监督的。
2019/12/30
5
01 文本分类应用领域
信息过滤
对获取的信息进行二分类的处理,即将用户需求的信息过滤出来,发送给 用户;将用户不感兴趣、不需要的不良信息、反动信息等过滤掉。垃圾邮 件过滤、新闻选择以及手机信息过滤等都是信息过滤的典型应用。
当前的知识信息主要以文本作为载体,大部分文本信息以非结 构化或半结构化的形式存在,如电子邮件、电子文档以及电子 档案等,它们不易被机器理解也不可能完全依靠人工进行管理。 因此,采用信息化手段通过机器学习方法对这些文本信息进行 处理显得尤为重要。
2019/12/30
4
01 文本分类概述
文本分类技术(Text Categorization,TC)作为组织和管理文本信 息的有效手段,主要任务是自动分类无标签文档到预定的类别集合中。
一般情况下会基于不同的参数 进行多组实验,以优化分类模 型的性能,得到分类结果较好 的分类器。
2019/12/30
18
2019/12/30
感谢观看
19
2019/12/30
20
K 近邻算法(K-Nearest Neighbor,KNN),核心思想是如果一个样本在特征空间中的k个最相邻 的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。由 于KNN方法主要靠周围有限的邻近的样本,因此对于类域的交叉或重叠较多的待分样本集来说, KNN方法较其他方法更为适合。
2019/12/30
6
第二部分
文本分类过程
2019/12/30
7
目录
Contents
2019/12/30
01 数据预处理 02 中文分词 03 特征表示 04 特征选择 05 分类器训练
8
现实世界中数据大体上都是不完整,不一致的数据,无法直接进行数据挖掘, 或挖掘结果差强人意。为了提高数据挖掘的质量产生了数据预处理技术。
数据预处理有多种方法:数据清理,数据集成,数据变换,数据归约等。这 些数据处理技术在数据挖掘之前使用,大大提高了数据挖掘模式的质量,降 低实际挖掘所需要的时间。
2019/12/30
9
分词是将文本处理为独立的特征,即切分成词,主要针对东方语言,如: 汉语、阿拉伯语等,因为这类语言是整个句子连接在一起的,每个词 (特征)之间不是独立的。对于西方语言,如:英语、法语等,这类语 言的每个词之间都有空格相互分隔,也就不需要进行分词处理。
文本分类
2019/12/30
1
目录
Contents
2019/12/30
01 文本分类概述 02 文本分类过程
2
第一部分
文本分类概述
2019/12/30
3
01 文本分类概述
互联网使得信息的传播速度以及规模达到了空前的水平。“信 息爆炸”已成为人们必须面对的问题。从数据海洋中迅速准确 获取所需要的信息变得非常困难。
3. 混合方法(Hybrid Approach):过滤方法和封装方法的结合,先用过滤方法从原始数据集中过滤出 一个候选特征子集,然后用封装方法从候选特征子集中得到特征子集。该方法具有过滤方法和封装方 法两者的优点,即效率高,效果好。
2019/12/30
16
常见的分类算法:
朴素贝叶斯分类器(Naive Bayes Classifier,或 NBC),是基于贝叶斯定理与特征条件独立假设的分 类方法。NBC模型所需估计的参数很少,对缺失数据不敏感。
2019/12/30
13
权重计算方法:
TF-IDF:TF-IDF函数用来表示特征项的重要程度。
词频(TF):即一个特征项在某一文档中出现的次数,反映了某一个特征项对该文本的重要性。
倒文档频度(IDF):这一分量反映了某一特征项区别于其他文档的程度,是一个关键词在整个数据 全局中重要性的全局性统计特征,称为倒文档频度。
2019/12/30
15
1. 过滤方法(Filter Approach):使用某种独立于数据挖掘任务的方法,在数据挖掘算法运行之前进行 特征选择,即先过滤特征集产生一个最有价值的特征子集。或者说,过滤方法只使用数据集来评价每 个特征的相关性, 它并不直接优化任何特定的分类器, 也就是说特征子集的选择和后续的分类算法无 关。
2. 封装方法(Wrapper Approach):将学习算法的结果作为特征子集评价准则的一部分,根据算法生 成规则的分类精度选择特征子集。该类算法具有使得生成规则分类精度高的优点,但特征选择效率较 低。封装方法与过滤方法正好相反, 它直接优化某一特定的分类器, 使用后续分类算法来评价候选特征 子集的质量。
去除停用词,即的、了之类的没有实际意义的词。R语言支持用户对停 用词表进行自定义。
2019/12/30
10
2019/12/30
11
文本不能被计算机识别,特征表示是指将实际的文本内容变成 机器内部的表示结果。
特征表示有两个步骤,即特征表示与特征权重计算。特征表示 指特征提取的方式;权重计算指将特征转换为语言相似度的权 重值。
TF-IDF主要基于以下两个理论依据:
在一个文本中出现次数很多的单词,在另一个同类文本中出现的也会很多,反之亦然,所以将 TF(词频)作为测度;
一个词条出现的文本频数越小,它区别不同类别的能力就越大,故引入了 IDF(逆文本频数)的概念。
2019/12/30
14
特征选择 ( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS ) ,是指从全部特征中选取一个特征子集,使构造出来的模型更好。在机器学习的实际 应用中,特征数量往往较多,其中可能存在不相关的特征,特征之间也可能存在相互 依赖,容易导致如下的后果:
2019/12/30
12
特征表示方法:
向量空间模型,在向量空间模型(Vector Space Model,VSM)中,文 档的内容被表示为特征空间中的一个向量。每条语料中的每个词对应一个 数值,即每条语料对应一组数值,形成一个向量。
布尔模型,布尔模型本质上是向量空间模型的一种特殊表示形式,这种表 示方式同样也是将文档表示为特征空间中的一个向量,主要区别为:第 i 个特征在文档中是否出现(出现的频率)采用“0”和“1”来代表,“0” 代表特征在当前文档中没有出现,“1”代表特征在当前文档中出现。
信息检索
文本分类技术最早应用于信息检索领域,它通过将数字信 息按照特定的方式进行组织、存储,把其中主题内容相近 的数字信息按照主题层次归纳整理到一起,进而有效地提 高了检索的查准率。
数字图书馆
自动文本分类技术应用于数字图书馆不但可 以节省大量的人力、物力,还可以提高图书 分类的准确率,减少冗余资料的数量,提高 图书管理系统的服务性能。