基于机器学习的中文文本自动分类的实践研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

智者论道
智库时代 ·265·
基于机器学习的中文文本自动分类的实践研究
韦灵 黎伟强
(广西科技大学鹿山学院电气与计算机工程系,广西柳州 545616)
摘要:信息技术应用平台的拓展、互联网用户数量的大幅度增加,使得网络平台成为人们生活、工作的重要阵地,随之而来的,网络数据计算、分类需要以秒级为单位处理,技术难度更大。

为深入、全面地开发数据资源的内在价值,进一步提升文本分类的实践技术应用成为当务之急。

作为信息检索与数据分类、文本挖掘、信息利用的重要技术手段,文本分类的技术研究已经迈入新的阶段,以非线性、核方法、数据集偏斜与多层分类、web 网页分类为代表的技术创新应用,已经成为现阶段文本分类的重要技术研究方向。

关键词:文本表示;数据集偏斜;多层分类中图分类号:TP181
文献标识码:A
文章编号:2096-4609(2019)46-0265-002
以机械学习为基础实现文本分类目的主要包括文本表示、具体分类形式以及分类效果的综合评估三部分内容。

当前阶段,互联网中的电子文本数据数量繁多且性质复杂、分布偏斜等特点进一步提升了文本分类的技术难度,需要相关技术人员立足于现代分类计数,寻求更好的文本处理路径。

一、以机械学习为基础的文本分类实践技术应用
(一)文本表示
当前阶段,文本表示的主要方式是VSM,该种技术应用的重点在于语义单元的选择以及计算权重两方面。

现行的分类计数主要是将词、n-gram 当作项的单位,以单位时间内的频率为基础进行权重计算。

通过权重计算方式的合理选择,可以实现统计量的系统引入,提升SVM、线性分类的实际效果。

除此之外,还有部分学者与研究人员先后提出了基于项概率分布、二维视图等技术原理建立的数据模型。

其中,概率分布的数据模型相较于VSM 技术,仅对项的权重进行计算与normalization 处理。

而以二维可视技术作为主要表示方法的分类计数,将关于项的全部信息进行压缩处理,使其被压缩到二维平面上,该二维平面主要由局部、全部的能量搭建,在平面上选择启发式算法对权重进行计算,在部分测试集得出的分类结果更加精确,技术应用前景需要进一步研究。

至今为止,除了VSM 的分类计数应用还处于探索阶段,以非VSM 技术为基础的分类模式应用方法较为单一,适用面较窄,其理论与实践结果的拓展应用还需要一定的实践进行验证。

(二)空间降维模型
在文本分类的空间降维方面,主要是通过对模型的算法对比,确定特征集对数据分类产生的影响,并对降维幅度进行分析。


降维模型、算法选择的过程中,具体思路包括三种:第一,以概率统计为基础进行模型比较,确定类别分布的显著性特征,如BNS 技术;第二,以信息熵为基础,对项的分布、聚类技术等进行研究,如全局信息;第三,隐含语义技术应用,主要是利用矩阵对数据模型的分解、简化,得到向量语义、分析信息,然后将其投射到低维空间,如差量LSI。

通常情况下,选择不同的降维方法会使得部分分类器的分类特征更突出、数据处理效果更显著、处理效率较为平稳。

但如果特征的数量大幅度增加,可能会导致分类器的效率下降。

降维技术不仅在降低分类处理成本方面有着突出优势,同时,也可以在一定程度上优化分类器的使用性能,由于技术选择的复杂度在标准范围内,因此应用范围较为广泛,且能够提取更贴近文本特征的数据信息,是研究价值较高的文本分类项目。

(三)机器学习的技术内容
深入研究、创新分类技术的主要目标在于提升对互联网信息的处理、开发、查询、提取、分类等工作的效率性,降低信息利用的实际成本,因此,技术实践研究与应用应注重存储能力与计算能力,在学习的过程中提升吞吐率与可拓展性能。

现阶段,以多分类器为基础开展集成学习的技术模式应用范围较为广阔,向量机(SVM)作为单重技术的应用标准之一,其具体的应用成果已经取得了一定的技术优势。

尽管在大数据级方面,SVM 训练熟练的实际速率相对较慢,需要以极高的存储空间以及计算能力为支持,但在分隔面的技术层面来说,对样本成本的偏斜分布、冗余资源的处理以及过拟合问题方面有着较强的技术优势,泛化功能较强。

通过其他技术模式的实验对比显示,相较于现阶段其他学习方法,SVM 无论是在效率性还是在稳定性方面都有着功能优势。

目前,大多
数分类模型、权重计算的研究多将重点集中在特定的测试集方面,取得的效果经由对比,在计算开销方面有着一定的成果。

二、以机器学习为基础的文本分类未来技术发展趋势
(一)非线性技术以及核方法的研究 文本分类在线性可分的研究方面缺乏理论的支持,通常情况下,使用线性模型作为权重计算、特征提取与文本分类的基础会存在较大的误差,因此,在非线性模型的研究方面应该予以重视。

SVM 技术实现方法是利用二元核函数对高危空间内的内积进行计算,将函数坐标作为文本向量,在降维后,处理项空间中不可分的模型问题,对模型中非线性的转换进行有效表达。

与此同时,SVM 也是核方法的典型应用,是降维模型计算的重要技术支持。

在核方法的技术应用阶段,需要使用非线性技术将原本低维空间的不可分问题映射到高维空间中,然后在高维空间中利用线性理论解决问题,提升数据处理与建模的效率。

其中,非线性映射的显式构造极为复杂,但在实际计算的过程中,往往只能依托于核函数对高维内积进行计算,确保非线性关系的转换、计算能够得出具体的结果。

在文本的实际分类技术处理过程中,文本空间具备一定的特殊性,选择线性核函数对模型进行计算、分类,达不到预期的分类效果,因此核函数与非线性计算模型的综合利用是现阶段文本分类的重要研究课题。

(二)数据集偏斜的控制与改进通过机器学习的深入研究发现,在文本分类的过程中,数据集的分布往往存在不均衡、偏斜等方面问题,使得不同类别间的文本数量级可能存在较大的差距,使得分类效果不稳定。

值得注意的是,在以二值分类为主进行文本分类时,正例的比例在数据集的样本中如果所占比例较小,将会导致SVM 技
智者论道
智库时代
·266·
术的泛化性能降低,提高NB 的依赖性。

现阶段,绝大部分计算防范对稀有特征的文本辨别率均在标准以下,控制数据集偏斜的主要方法包括:首先,重取样。

对大类的分类信息进行评比,提升小类别特征分辨的效率性;第二,选择新的分类方式。

如单类SVM,该种方法以原点作为文本分类的中心,建立起围绕训练样本的不同分隔阶层,将小类、特殊类的文本分类问题转换为等价关系。

当前阶段,在稀有文本的识别方面还没有行之有效的技术手段,控制数据集的偏斜问题仍旧是提升文本识别能力的技术难题。

(三)多层分类技术结构
文本分类中,类别间通常是独立的,没有联系的关系,也被称为单层形式的分类(flat)。

但在互联网平台的文本类别较多,且存在复杂的关系,因此,在分类技术方面,需要对不同数据间的组织方式进行多层管理。

具体来讲,多层分类主要是在数据具备多层关系的形势下,对不同类别间的复杂类别结构进行分层处理,以便向用户提供更快捷、高效的浏览、查询服务,将大规模的分类问题通过分层的方式进行系统处理,利用类别间的多层分析,达到快速分类的目的。

对于同一个标签(类别)集合,单层分类设置下的多标签(multi-label,即每个文档
可能属于多个类别)分类与多层类别设置下的分类在效果上也需要有一个比较,这些问题目前还都没有得到很深入的研究。

(四)Web 页面分类结构问题
传统的分类技术数据处理的对象是文本内容,在预处理时期,将文本包含的特征,如HTML 标签、超链接等,进行结构清理。

但在对互联信息进行分类处理时,在页面的信息分类过程中,会通过文本的结构信息对内容来源、归属、相关拓展等进行分析,如通过超链接内容对文本性质进行归类;将页面上超链接显示的锚词(anchorword)、扩展锚词等作为关键字,对文本的指向性内容进行分析等;利用超链接和HTML 标签等信息所表现出的结构和拓扑信息来刻画文本间的联系以及用核函数来表达超链接等。

相较于以往的语料分类,使用结构信息的页面可以更快的提供查询服务,在文本数据分析、处理方面具备优势。

三、结语
以机器学习为基础的文本分类相较于传统分类技术,在文本自动挖掘、处理、生成方面有着较强的灵活性与效率性优势,由于具备动态优化的处理功能,可以更快的处理程序指令,应用形式向着实践方向迈进。

与此同时,网络数据资源的海量、庞杂、偏斜
等特征,也对分类技术的实践应用提出了更高的要求,以机械学习与降维理论为支持的分类技术研究逐步深入,针对现阶段数据流转的计算、分类特征,技术人员应该创新融入前沿技术理念,进一步推进文本分类数据模型、权重计算、检索服务的技术升级。

【作者简介】韦灵,讲师,研究方向为数据挖掘、机器学习。

【基金项目】2018年度广西高校中青年教师基础能力提升项目——基于机器学习的文本分类算法研究与应用(2018KY0879)。

【参考文献】
[1]周青松,范兴容.基于Stacking 融合深度学习模型和传统机器学习模型的短文本情感分类研究[J].无线互联科技,2018,15(24):63-65.
[2]张庆庆,刘西林.基于BPSO 随机子空间的文本情感分类研究[J].数据分析与知识发现,2017,1(5):71-81.
[3]张远,徐逸卿.基于机器学习的Co-training 流量分析系统设计与实现[J].江苏科技信息,2018,35(15):41-44.
[4]谭咏梅,刘姝雯,吕学强.基于CNN 与双向LSTM 的中文文本蕴含识别方法[J].中文信息学报,2018,32(7):11-19.
(上接第264页)
贵的红酒,教师在示范方法上要灵活,可以通过多媒体教学让学生了解和模仿开启红酒的方法,也可以把酒瓶里装满水,然后把酒塞塞进去,让学生可以真正学会开启红酒的技巧,从而完成教学目的。

三、学生实操,教师巡回指导
学生实操期间教师对学生的指导是生本教育的中心环节,也是实操阶段最重要的一个环节,是锻炼学生掌握技能的关键阶段。

首先,在每组学生各自实操练习时,教师要经常走动,来回巡视各组技能训练情况,要检查每个学生的动作是否规范、操作方法是否标准、操作程序是否合理,并逐个指导学生,遇到难题及时解答。

如发现频繁出现的错误,遵循“面向全体”的教学基本原则,要以点到面地指导,培养学生正确的操作能力。

其次,教师要仔细耐心地在现场指导,在指导过程中教师要不厌其烦地多做演示,特别对动手能力较差的学生,要手把手教会学生,或者指定组里已掌握本课技能的学生给较差的学生示范,真正体现了以学生为主的生本教育。

最后,实操阶段的重复训练对于一些缺乏耐心的学生来说会导致他们产生厌学和烦躁的情绪,所以针对学生不同的特点要采取不同的教学方法进行引导教育,例如组织分组比赛,让学生自己当评委进行评价和学习,这样可以激发学生的竞争心理,取长补短,提高对学习的兴趣培养和团队协作精神,从而提高学习效率。

四、学生互评,教师总评
课堂总结教师要讲到实质上,要讲到关键上,这个环节是让学生正确实现实践技能的必要环节。

一堂实训课结束后,首先,让各组学生对实操情况做互相评价,分析找出问题,同时教师以启发式的提问方式引导点拨学生讨论如何解决这些问题,让学生的思维进行碰撞,从而激发学生的内在潜力,让学生真正成为参与评价和解决问题的主体。

其次,教师根据实操情况做总评,总结一定要全面、具体和准确,可以举例分析自己以前成功的经验教训,从而提高学生举一反三的创新能力,鼓励和鞭策全体学生。

点评时教师一定要突出重点和关键的问题上,例如:
红酒的斟倒,先让点酒人尝酒,然后先给女士斟倒,再给男士,无论尝酒人是女士还是男士总是最后给尝酒人倒酒。

最后,表扬和批评也是点评中非常重要的一个环节,达到教学目标的给予表扬,未达到目标的先指出不足再给予鼓励,这样可以有效的促进全体学生努力学习的愿望。

综上所述,“生本教育”既是一种教育方式又是一种教育理念,它在建立在教学内容与企业接轨的基础上进行授课,确实在西餐服务实训课教学方面取得了创新和效果。

本人认为这才是提高西餐服务实训课教学质量和效果的重要途径。

实训教学应以技能培养为核心,紧密结合理论和实践,引导学生进入理论实操一体的学习轨道,采用多种多样的教学手段激发学生的潜力,这样才能为社会培养出迎合高速餐饮发展的新生力量。

【作者简介】潘静(1974-),女,专科,讲师,研究方向为国际邮轮乘务和酒店管理。

【参考文献】
[1]闫文胜.西餐烹调技术[M].北京:高等教育出版社,2004:235.。

相关文档
最新文档