试析基于机器学习的文本分类
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
试析基于机器学习的文本分类
鞠芳,唐辉,陈学亮,王岱峥 (中国人寿研发中心,北京 100191)
摘 要院 文本分类作为自然语言处理的基础应用,在很多行业都有着广阔的应用场景。近几年,随着 机器学习技术的推广,尤其是深度学习的蓬勃发展,文本分类逐渐由人工和专家规则实现转变为机器 学习实现。探讨了传统的机器学习算法和深度学习算法在文本分类上的实现方式,对比两者的差异, 并通过具体案例对表现效果进行了评估。 关键词院 文本分类;机器学习;深度学习
选择尧 模型效果评估等常规步骤袁 常用的分类算法有随
机森林尧 朴素贝叶斯尧 SVM 等遥 将主要基于传统机器学习进行文本分类的两个核
心内容要 要 要分词和特征提取及选择进行介绍遥 如图 2 所示遥
训练集
文本预处理 特征提取及选择
1尧 文本清洗 2尧 分词 3尧 去除停用词 4尧 去除低频词
1尧 词频 2尧 词频-逆词频 3尧 互信息
别上出现的次数多袁 而在全部文本上出现的次数相对比 较少袁 这个词有更强大的文档区分能力袁 TF-IDF 就是 综合考虑了频次和反文档频率两个因素遥 2.3.3 互信息方法
互信息度量的是词是否被类别包含所带来的信息 量袁 如果某个词均匀的分布在各个类别袁 那么 I (U;C) =0袁 当某词项总是出现在当前类别袁 而在其他类别中很 少出现时袁 I (U;C) 就会比较大遥 使用互信息能够保留 具有信息含量的词的同时袁 去掉那些没有信息含量的 词袁 从而提高正确率遥 3 基于深度学习的分类方法 3.1 深度学习文本分类的优势
作者简介:鞠芳 渊1985-冤袁 女袁 高级三级工程师袁 硕 士袁 研究方向院 人工智能遥 收稿日期:2018-08-11
36 2018.11
从 20 世纪 80 年代或更早的时候起袁 学者们研究了 很多的分词方法袁 这些方法大致可以分为两大类遥 2.2.1 基于词典的分词
渊1冤 正 向 最 大 匹 配 法 ( forward maximum matching method, FMM)袁 顾名思义袁 对于输入的一段文本从左至 右尧 以贪心的方式切分出当前位置上长度最大的词遥
渊2冤 逆向最大匹配法 (backward maximum matching method, BMM) 的基本原理与正向最大匹配法类似袁 只 是分词顺序变为从右至左遥
渊3冤 还有很多改进的分词方法袁 例如 MMSEG 也是 一种基于词典的分词算法袁 以正向最大匹配为主袁 多种 消除歧义的规则为辅遥 2.2.2 非基于词典的分词
一般主要是运用概率统计尧 机器学习等方面的方 法袁 常见的方法有基于 HMM 的分词方法尧 基于 CRF 的 分词方法遥 其核心思想都属于由字构词的分词方法袁 将 分词问题转化为字的序列标注问题遥 从某些层面讲袁 由 字构词的方法并不依赖于事先编制好的词表袁 但仍然需 要分好词的训练语料遥 2.2.3 对比与选择
50 年代
80 年代
90 年代 21 世纪 2013 年
专家规则
专家系统
机器学习
深度学习
通过专家规则 进行分类
利Fra Baidu bibliotek知识工程建立 专家系统
人工特征工程+浅层分类模型
图 1 文本分类发展
词向量+神经网络
2 传统机器学习文本分类方法
2.1 主要流程
基于传统机器学习实现的文本分类袁 不同于一般的
分类器袁 主要由 3 个步骤组成院
1 概述 文本分类是指使用程序对文本袁 按照一定的分类体
系或标准进行自动分类标记遥 文本分类应该是自然语言 处理中最普遍的一个应用袁 随着大数据时代的到来袁 网 页尧 邮件尧 日志等越来越多的文本以非结构化数据的形 式得以加工和存储袁 文本分类往往是处理这些数据的首 要环节遥
在机器学习技术兴起之前袁 文本分类的实现方法大 多基于人工或者一些专家规则对文本进行匹配遥 前者会 投入大量的人力袁 而后者随着数据的丰富程度需要不断 完善规则且准确性会逐步下降袁 维护成本很高遥 如图 1 所示遥
渊1冤 需要对文本数据进行预处理 渊文本清洗尧 分
词尧 去除低频或停止词等冤遥
渊2冤 对于文本分类进行特征提取遥 区别于结构化数
据的特征选择袁 文本需要通过提炼尧 提取才能生成分类
所需特征项遥 而且不同的文本集产生的特征会有很大差
异袁 故特征提取和选择是文本分类的核心遥
渊3冤 同样使用分类算法袁 对于样本进行分类及参数
词频法袁 以每段文本中词出现的频率作为特征选择 的依据袁 这种特征选择的方法主要基于一个合理假 设要 要 要频次比较小的词对文章分类的影响比较小袁 因此 我们可合理地假设阈值袁 滤除频次小于阈值的词袁 减少 特征空间维度遥 2.3.2 词频-逆词频 (TF-IDF)
TF-IDF 相对于词频法袁 有更进一步的考量袁 词出 现 的 次 数能 从一 定程 度 反应 文章 的特 点 袁 即 TF袁 而 TF-IDF袁 增加了所谓的逆词频袁 如果一个词在某个类
一般来说袁 这两类方法各有优缺点院 基于词典的方 法袁 实现尧 部署比较容易袁 但是分词精度有限袁 且对于 未登录词 渊词典里没有的词语冤 识别较差曰 非基于词典 的方法袁 速度较快袁 对未登录词识别效果较好袁 能够根 据使用领域达到较高的分词精度袁 但是实现比较复杂袁 通常需要大量的前期工作遥
使用成熟的分词工具 jieba 来实现文本的分词袁 其 中基于词典的分类是通过 DAG + n-gram[1]的语言模型的 方式进行的曰 jieba 的新词模式就是使用 HMM 实现的[3]遥 2.3 特征提取及选择方法 2.3.1 词频法 (TF)
分类器
图 2 基于传统机器学习实现文本分类流程 2.2 分词
词是语言中最小的能独立运用的单位袁 也是语言信 息处理的基本单位遥 分词是根据某个分词规范袁 把一个 野字冶 串划分成词 野串冶遥 与大部分印欧语系的语言不 同袁 中文在词与词之间没有任何空格之类的显示标志指 示词的边界遥 因此袁 中文分词是很多自然语言处理系统 中的基础模块和首要环节遥 例如袁 野南京市长江大桥冶 可以被分为 野南京/市/长江/大桥冶 或者 野南京/市长/江 大桥冶遥 不同的分词结果袁 会为后续的文本分类提供不 同的信息量遥
鞠芳,唐辉,陈学亮,王岱峥 (中国人寿研发中心,北京 100191)
摘 要院 文本分类作为自然语言处理的基础应用,在很多行业都有着广阔的应用场景。近几年,随着 机器学习技术的推广,尤其是深度学习的蓬勃发展,文本分类逐渐由人工和专家规则实现转变为机器 学习实现。探讨了传统的机器学习算法和深度学习算法在文本分类上的实现方式,对比两者的差异, 并通过具体案例对表现效果进行了评估。 关键词院 文本分类;机器学习;深度学习
选择尧 模型效果评估等常规步骤袁 常用的分类算法有随
机森林尧 朴素贝叶斯尧 SVM 等遥 将主要基于传统机器学习进行文本分类的两个核
心内容要 要 要分词和特征提取及选择进行介绍遥 如图 2 所示遥
训练集
文本预处理 特征提取及选择
1尧 文本清洗 2尧 分词 3尧 去除停用词 4尧 去除低频词
1尧 词频 2尧 词频-逆词频 3尧 互信息
别上出现的次数多袁 而在全部文本上出现的次数相对比 较少袁 这个词有更强大的文档区分能力袁 TF-IDF 就是 综合考虑了频次和反文档频率两个因素遥 2.3.3 互信息方法
互信息度量的是词是否被类别包含所带来的信息 量袁 如果某个词均匀的分布在各个类别袁 那么 I (U;C) =0袁 当某词项总是出现在当前类别袁 而在其他类别中很 少出现时袁 I (U;C) 就会比较大遥 使用互信息能够保留 具有信息含量的词的同时袁 去掉那些没有信息含量的 词袁 从而提高正确率遥 3 基于深度学习的分类方法 3.1 深度学习文本分类的优势
作者简介:鞠芳 渊1985-冤袁 女袁 高级三级工程师袁 硕 士袁 研究方向院 人工智能遥 收稿日期:2018-08-11
36 2018.11
从 20 世纪 80 年代或更早的时候起袁 学者们研究了 很多的分词方法袁 这些方法大致可以分为两大类遥 2.2.1 基于词典的分词
渊1冤 正 向 最 大 匹 配 法 ( forward maximum matching method, FMM)袁 顾名思义袁 对于输入的一段文本从左至 右尧 以贪心的方式切分出当前位置上长度最大的词遥
渊2冤 逆向最大匹配法 (backward maximum matching method, BMM) 的基本原理与正向最大匹配法类似袁 只 是分词顺序变为从右至左遥
渊3冤 还有很多改进的分词方法袁 例如 MMSEG 也是 一种基于词典的分词算法袁 以正向最大匹配为主袁 多种 消除歧义的规则为辅遥 2.2.2 非基于词典的分词
一般主要是运用概率统计尧 机器学习等方面的方 法袁 常见的方法有基于 HMM 的分词方法尧 基于 CRF 的 分词方法遥 其核心思想都属于由字构词的分词方法袁 将 分词问题转化为字的序列标注问题遥 从某些层面讲袁 由 字构词的方法并不依赖于事先编制好的词表袁 但仍然需 要分好词的训练语料遥 2.2.3 对比与选择
50 年代
80 年代
90 年代 21 世纪 2013 年
专家规则
专家系统
机器学习
深度学习
通过专家规则 进行分类
利Fra Baidu bibliotek知识工程建立 专家系统
人工特征工程+浅层分类模型
图 1 文本分类发展
词向量+神经网络
2 传统机器学习文本分类方法
2.1 主要流程
基于传统机器学习实现的文本分类袁 不同于一般的
分类器袁 主要由 3 个步骤组成院
1 概述 文本分类是指使用程序对文本袁 按照一定的分类体
系或标准进行自动分类标记遥 文本分类应该是自然语言 处理中最普遍的一个应用袁 随着大数据时代的到来袁 网 页尧 邮件尧 日志等越来越多的文本以非结构化数据的形 式得以加工和存储袁 文本分类往往是处理这些数据的首 要环节遥
在机器学习技术兴起之前袁 文本分类的实现方法大 多基于人工或者一些专家规则对文本进行匹配遥 前者会 投入大量的人力袁 而后者随着数据的丰富程度需要不断 完善规则且准确性会逐步下降袁 维护成本很高遥 如图 1 所示遥
渊1冤 需要对文本数据进行预处理 渊文本清洗尧 分
词尧 去除低频或停止词等冤遥
渊2冤 对于文本分类进行特征提取遥 区别于结构化数
据的特征选择袁 文本需要通过提炼尧 提取才能生成分类
所需特征项遥 而且不同的文本集产生的特征会有很大差
异袁 故特征提取和选择是文本分类的核心遥
渊3冤 同样使用分类算法袁 对于样本进行分类及参数
词频法袁 以每段文本中词出现的频率作为特征选择 的依据袁 这种特征选择的方法主要基于一个合理假 设要 要 要频次比较小的词对文章分类的影响比较小袁 因此 我们可合理地假设阈值袁 滤除频次小于阈值的词袁 减少 特征空间维度遥 2.3.2 词频-逆词频 (TF-IDF)
TF-IDF 相对于词频法袁 有更进一步的考量袁 词出 现 的 次 数能 从一 定程 度 反应 文章 的特 点 袁 即 TF袁 而 TF-IDF袁 增加了所谓的逆词频袁 如果一个词在某个类
一般来说袁 这两类方法各有优缺点院 基于词典的方 法袁 实现尧 部署比较容易袁 但是分词精度有限袁 且对于 未登录词 渊词典里没有的词语冤 识别较差曰 非基于词典 的方法袁 速度较快袁 对未登录词识别效果较好袁 能够根 据使用领域达到较高的分词精度袁 但是实现比较复杂袁 通常需要大量的前期工作遥
使用成熟的分词工具 jieba 来实现文本的分词袁 其 中基于词典的分类是通过 DAG + n-gram[1]的语言模型的 方式进行的曰 jieba 的新词模式就是使用 HMM 实现的[3]遥 2.3 特征提取及选择方法 2.3.1 词频法 (TF)
分类器
图 2 基于传统机器学习实现文本分类流程 2.2 分词
词是语言中最小的能独立运用的单位袁 也是语言信 息处理的基本单位遥 分词是根据某个分词规范袁 把一个 野字冶 串划分成词 野串冶遥 与大部分印欧语系的语言不 同袁 中文在词与词之间没有任何空格之类的显示标志指 示词的边界遥 因此袁 中文分词是很多自然语言处理系统 中的基础模块和首要环节遥 例如袁 野南京市长江大桥冶 可以被分为 野南京/市/长江/大桥冶 或者 野南京/市长/江 大桥冶遥 不同的分词结果袁 会为后续的文本分类提供不 同的信息量遥