基于KNN模型的藏文文本分类研究与实现
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
引言
当今社会已进入信息化和数字化的时代,传统的信息传输媒介也发生了巨大变化,其中数字化的文本已成为当前主要的信息载体,因此文本分类技术在自然语言处理领域中的关注度越来越高。
藏文作为中文的重要组成部分,其历史悠久、文献丰富,为了有效保护藏文文献资源以及方便人们快速查阅,很多分类技术逐渐被引用到藏文文本分类的研究中,其中西北民族大学的贾会强在“基于KNN 算法的藏文文本分类关键技术研究”一文中就利用KNN 算法对5类新闻语料样本进行分类实验,并指出该模型的分类性能较为良好[1]。
因此,本文选择KNN 模型对藏文文本进行分类研究与实验。
首先构建文本词特征向量并对其进行相关降维处理,然后利用欧式距离算法获取预测样本与训练样本之间的相似度,最后根据K 最近邻投票原理,预测样本类别。
实验表明该模型对藏文文本分类具有良好的分类性能。
基于KNN 模型的藏文文本分类研究与实现
苏慧婧群诺贾宏云
(西藏大学信息科学技术学院西藏拉萨850000)
收稿日期:2019-05-03
第一作者简介:苏慧婧,女,汉族,四川眉山人,西藏大学信息科学技术学院硕士研究生,主要研究方向为自然语言处理。
通讯作者简介:群诺,男,藏族,西藏拉萨人,西藏大学信息科学技术学院副教授,主要研究方向为自然语言处理。
摘要随着文本分类技术的日益成熟,越来越多的分类模型已经被引用到藏文文本分类的研究和实验中,其中KNN 分类模型由于其简单易操作等特点被广泛应用。
文章以新闻类文本为语料,通过KNN 模型对藏文文本进行分类研究与实验。
首先,构建文本词特征向量并对其进行相关降维处理;然后,利用欧式距离算法获取预测样本与训练样本之间的相似度;最后,根据K 最近邻投票原理,预测样本类别。
实验表明KNN 模型对藏文文本的分类性能较好。
关键词藏文文本分类;文本特征;KNN 模型DOI:10.16249/ki.2096-4617.2019.02.013中图分类号TP391.41文献标识码A 文章编号2096-4617(2019)02-088-005
1KNN 分类原理
一个样本在特征空间中,如果k 个最相邻的文本中的大多数样本属于某一个类别,则该文本也属于这个类别[2],并具有这个类别样本的一定特性。
该方法在确定分类决策上只依据最邻近的几个文本类别来决定待分样本所属类别[2]。
当测试文本的特征数据和某一些训练文本的特征数据完全匹配时,便可以对其进行分类。
但是由于所有测试文本不可能都会找到与之完全匹配的训练文本,因此可以通过相似度来判断文本之间的相关性。
本文通过欧氏距离[3]算法计算文本之间的相似度并依据K 最近邻投票原理进行分类决策。
欧式距离计算方法如公式(1)所示。
d ()x ,y =∑k =1n
(x k -y k )2(1)
公式(1)
中,x 和y 分别代表两个文本的特征向量,
n 代表特征向量维度,距离越小,则该文本间的相似度就越高,判断属于同一类别的概率就越大。
2构建特征值向量
藏文文本的特征类型较多,不同特征类型对于文本的定义也不同,其中词特征具有内部字符联系紧密,词与词之间也可独立解释等特性。
因此,本文利用西藏大学构建的现代藏文词典,通过词典匹配方法,统计出文本的特征频度,形成特征值向量数据集如图1所示。
图1特征值向量数据集Fig.1Eigenvalue vector dataset
3特征向量降维处理
通常文本中存在大量的词会导致特征向量维度较长,不仅增加了模型运算的时间,同时也影响了模型的分类性能。
因此本文利用信息增益算法获取特征值向量对应的信息增益值,除去信息增益值较小的特征,从而降低特征维度。
苏慧婧,群诺,贾宏云:基于KNN 模型的藏文文本分类研究与实现··89
信息增益IG(information gain)算法[4]结合信息增益越大、分类效果越好的原理计算对应特征值在不同类别中的信息增益,。
对于文本特征t k 对应类别c i 的信息增益计算方法如公式(2)所示。
IG ()t k ,c i =
∑c ∈{}c I ,c i ∑t ∈{t K ,t k }P (t ,c )log (p (t ,c )p (t )p (c ))(2)
公式(2)中,p (c )代表整个样本集中标记为某类别c 的文本所占概率,p (t ,c )代表某类标记文本中特征t 在整个样本集中所占概率,p (t )是在整个样本集中包含特征t 的文本所占概率[5]。
4分类实验与结果分析
4.1实验语料样本
本次实验所用语料样本类别为7类,共2,450篇,其中70%作为训练样本,剩余30%作为测试样本。
实验语料样本如表1所示。
表1实验语料样本Tab.1Experimental corpus samples
各类别样本数据(篇)
教育类
350时政类
350法律类
350政务类
350人文类
350经济类
350民生类
350
4.2藏文文本词特征降维结果
利用信息增益算法对实验语料样本进行特征降维降维处理结果如表2所示。
由表2实验结果可知,通过词典匹配方法获得1,483个独立的样本特征,构成初始特征向量S1,然后利用信息增益算法较强的降维处理能力,对初始特征向量S1进行降维处理,最终形成维度为425的特征向量S2。
降低藏文文本的词特征维度后,所获得的特征字符向量S2如图2所示。
表2特征降维数据Tab.2The characteristic dimension reduction data
特征降维处理
处理前特征向量维度S1
1,483处理后特征向量维度S2
425
图2特征字符Fig.2The feature characters
高原科学研究2019年第2期(总第7期)
··90
4.3分类测试
由表3分类测试结果可知,KNN 模型对样本的分类精确率和召回率都达到了84%以上,其原因主要在于样本中词特征的内在字符结合较为稳定,不同的词在不同样本类别之间区分度较大。
虽然时政类样本受到其它类别样本一定的干扰,但是模型对样本的词特征处理能力较强,整体分类性较好。
表3分类测试结果(K =5)Tab.3The classification test results (K =5)
教育类
时政类
法律类
政务类
人文类
经济类
民生类
均值精确率
91.8%86.2%97.7%93.2%96.8%93.1%87.5%92.3%召回率98.0%84.0%85.2%90.5%99.0%96.9%91.3%92.1%F1值0.950.850.910.920.980.940.890.92
4.4测试结果均值对比
在KNN 分类模型中,K 值是重要的参数,为了有效的体现出其对模型分类性能的影响,本次实验选取了10个不同的K 值,其对模型的分类性能测试结果均值对比如图3
所示。
图3测试结果均值对比Fig.3Comparison of mean test results
图3实验结果表明,当K 值满足5<K <15时模型的分类性能较好且稳定。
随着K 值增大,分类性能逐渐降低,当K =45时,到达性能的最低点。
因此,文章所用实验语料的基础上,为了提高模型的分类泛化能力,应取K =15时较好。
苏慧婧,群诺,贾宏云:基于KNN 模型的藏文文本分类研究与实现·
·91
5结论文章首先结合藏文文本特点,以词为特征,利用信息增益算法对藏文词特征向量进行降维处理,再引用KNN 分类模型对藏文文本进行分类实验,根据不同的K 值,得出相应的实验结果。
实验表明实验结果显示,信息增益算法对特征向量具有较强的降维处理能力,虽然时政类样本受到其它类别样本一定的干扰,但当K 值满足5<K <15时模型的分类性能较好且稳定,表明该模型对藏文文本具有良好的分类性能。
然而,本实验存在样本规模较小、特征类型较为单一等不足之处。
因此,在以后的研究中,将尽量弥补本次实验中的不足之处,进一步对模型的分类性能进行深入探索。
参考文献
[1]贾会强.基于KNN 算法的藏文文本分类关键技术研究[J].西北民族大学学报(自然科学版),2011,32(3):24-29.[2]朱常宝,程勇,高强.基于半监督深度信念网络的图像分类算法研究[J].计算机科学,2016,43(S1):46-50.[3]李航.统计学习方法[M].北京:清华大学出版社,2012:3.[4]杨玉珍,刘培玉,朱振方,等.应用特征项分布信息的信息增益改进方法研究[J].山东大学学报(理学版),2009,44(11):48-51.[5]陈冲.互联网中文文本分类的研究与应用[D].北京:北京邮电大学,2011.
Implementation and Classification for the Tibetan Text Based on the KNN
SU Hui-jing Qunnuo JIA Hong-yun
(school of information science and technology,Tibet university,Lhasa 850000,China )Abstract:With the increasing maturity of text categorization techniques,more and more classification models have been cited in researches and experiments of Tibetan text categorization.Since a simple and an easy opera⁃tion of KNN classification model,the model is widely used.This paper uses the news text as the corpus to classi⁃fy and experiment the Tibetan text through the KNN model.Firstly,constructed the text word feature vector and performed related dimensionality reduction processing,and then used the Euclidean distance algorithm to obtain the prediction sample and the training sample.Similarity,and finally predict the sample category according to the K nearest neighbor voting principle.Experiments showed that the model fits for Tibetan text classification.Keywords:Tibetan text classification;text feature;KNN model
[责任编辑:张建伟]高原科学研究2019年第2期(总第7期)
·
·92。