基于AdaBoost模型的藏文文本分类研究与实现
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于AdaBoost模型的藏文文本分类研究与实现目前,藏文大量文献资源已数字化和信息化,通过分类技术对文本进行分类,有利于文献工作者对文献的管理,同时阅读者更能快速方便的查询相关文献。由于藏语语言结构复杂,在自然语言处理领域,人们对其研究时间相对较短,在文本分类处理中,目前还没有一个相对成熟的分类体系,其原因主要是用于分类实验的语料和模型相对较少,即使有些模型也做了实验研究,但是分类效果却不是很理想,阻碍了分类技术的发展,因此本文通过网络收集一定规模的语料并结合当前相对成熟的机器学习AdaBoost分类模型对藏文文本进行了研究与实现,实验结果表明该模型提升了对藏文文本的处理能力以及具有良好的分类性能。本文在研究国内外文本分类的基础上,结合藏语语言本身的特点,把数量不同的多类别样本和当前较为认可的多类型特征作为模型的数据来源,以机器学习中相对成熟的分类模型为核心,建立完成了基于AdaBoost模型的藏文文本分类系统,通过测试达到了预期效果,本文研究成果如下。1.由于当前研究与实验的藏文语料相对较少,所以本文70000多篇语料由个人收集所得并分为7个类别,然后通过文本预处理共形成4392个规范样本,最终完成了对样本集的构建工作。2.把N-Gram和词共4种特征作为提取的对象,利用特征频度排序算法、信息增益算法、信息增益添加算法和前向逐步回归算法依次从成千上万个特征中选取了100个左右具有明显类别区分的特征作为本文实验所用特征,提高了模型的分类效率。3.对KNN、GaussianNB、Logistic回归和SVM常规分类模型进行研究和实验,为
本文强分类模型的构建作前期探索,探索中验证了上述分类模型具有
稳定的分类性能。4.通过学习AdaBoost模型对文本分类的原理,提出利用上述(3)所列4种机器学习分类模型替换原AdaBoost分类模型中使用迭代算法获取弱分类模型的方法,同时利用排列组合数学算法,
共生成11种AdaBoost分类模型并通过5-CV实验结果表明,以一码元、二码元和词为特征的11种分类模型的分类精确率和召回率都达到了90%以上,最低的三码元特征模型的分类精确率和召回率也达到了88%,其中以一码元为特征且基于4种机器学习模型共同组合的AdaBoost
模型分类精确率与召回率分别达到了96%和95%,并通过基于AdaBoost模型的多模式分类实验对比,显示出该模型具有良好的分类性能。5.利用AdaBoost分类模型改动算法原理,设计出相对完整的分类系统,以直观的界面对该模型分类性能进行展示。随着自然语言处
理技术的不断发展,文本分类技术也越来越成熟,但对藏文文本分类
的相关研究还处于起步阶段,探索研究实验也相对较少,本文在分类
理论研究的基础上,通过对分类模型进行探索,得出实验数据,因此本
文的研究成果对后续的研究具有一定的参考和借鉴价值。