基于朴素贝叶斯模型的自动引用分类研究_尹莉

合集下载

基于朴素贝叶斯与协同过滤的分布式推荐模型研究

基于朴素贝叶斯与协同过滤的分布式推荐模型研究

基于朴素贝叶斯与协同过滤的分布式推荐模型研究何丽;李熙伟【摘要】针对传统矩阵分解算法在处理海量数据时所面临的性能瓶颈以及大量数据的关键特征缺失问题,本文基于并行化矩阵分解算法对推荐系统效率进行提升,使用朴素贝叶斯分类算法提高推荐的准确率.首先基于TF-IDF算法构建图书评论的情感词典;然后结合朴素贝叶斯算法完善缺失关键特征的数据;最后使用并行化后的协同过滤推荐算法得到推荐结果.本文采用豆瓣读书网站上的真实图书评论数据进行实验验证,实验结果表明,分布式环境下的协同过滤推荐算法与朴素贝叶斯算法能够高效结合,显著提高推荐效率,准确度也有所提升.【期刊名称】《北方工业大学学报》【年(卷),期】2017(029)005【总页数】7页(P87-93)【关键词】分布式推荐系统;Spark;协同过滤;文本情感分析;朴素贝叶斯【作者】何丽;李熙伟【作者单位】北方工业大学计算机学院,100144,北京;北方工业大学计算机学院,100144,北京【正文语种】中文【中图分类】TP311随着互联网信息的快速增长,为满足不同用户、不同平台的信息需求,个性化推荐系统应运而生.一个好的推荐系统不仅能准确地预测用户的偏好,提升用户对产品的体验,同时也能让企业收益颇丰.根据VentureBeat的统计[1],Amazon的推荐系统为自己的网站提供了高达35%的商品销售额.目前推荐算法种类繁多,协同过滤(Collabroative Filtering,简称CF)推荐[2]是推荐算法中较为成熟的一种,该算法通过分析部分用户的偏好,来对未知用户的偏好提供个性化推荐.协同过滤推荐主要分3类:基于用户(User-Based)、基于物品(Item-Based)和基于模型(Model-Based)的协同过滤.由于User-Based和Item-Based的推荐方法的共同缺点是评分矩阵稀疏,相似“用户”或相似“物品”较少,因而导致推荐精度有限.随着互联网数据量的快速增长,大数据时代已经来临,社区用户信息数量不断增长,如此庞大的数据量给社区数据的存储和计算速度带来极大的挑战.因此,分布式协同过滤推荐算法逐渐成为推荐系统研究中的一个新的研究方向[3-4].Su H等人提出了基于两相相似度和加权距离相似性度量并行协同过滤推荐模型,解决了推荐算法冷启动问题[5];Xie L等人提出了一种新的损耗函数,提升了ALS算法的性能[6];Che J等人提出了通过并行化最大化聚类算法提升推荐准确性[7];Gates M等人提出了通过并行批处理内核的使用以提升推荐速度[8].协同过滤推荐算法对数据要求严格,用户、物品、用户对物品的评分缺一不可.然而在真实的社区环境中,用户对物品的评分并不是强制要求的,因此传统的推荐系统不得不将这些数据从训练数据集中清除,从而导致了推荐结果不准确.本文将采用自然语言处理领域中的中文文本情感分析相关算法,将这些不完整的数据进行修补,根据用户对物品的评论信息预测出用户对该物品的评分值,以避免大量数据的浪费,进而提高推荐的准确度.近年来中文文本情感分类在推荐系统研究中越来越引起关注.大部分研究是基于机器学习方法构建出分类器[9],使用不同的特征权值公式、特征选取方法对采集来的语料数据进行分类实验,并比较不同机器学习方法的优缺点和对文本的分类性能,例如比较不同的特征选择和使用多种机器学习构建分类器[10]、利用多种特征选取方法和权值计算方法以及用SVM构建分类器对文本情感类别进行研究[11].基于朴素贝叶斯分类算法对中文文本进行情感分析[12-13],此方法优点是实现简单,分类效率较高,在中文文本分类方面表现较好.由于朴素贝叶斯分类算法需要有极性标注的情感词典来训练分类器,因此本文首先基于TF-IDF算法对豆瓣读书论坛的图书评论语料进行分词和关键词提取,进而构建出针对图书评论的情感词典.之后基于朴素贝叶斯分类算法与情感词典,对图书评论语料进行极性情感分析、训练,最终得到中文文本极性情感分类器,将推荐系统训练集中缺失关键属性的数据用本文所构建的情感分类器进行极性分类,将分类结果整合到推荐系统的训练集中,利用并行化后的协同过滤推荐算法进行推荐,最终实现提高推荐系统的准确度的目的.1 基于朴素贝叶斯算法的中文情感分析情感文本处理和表示是分类器构建的必要条件,包括对训练语料库、测试语料库的文本进行中文分词、特征选取、特征权重计算及文本向量表示等.训练语料和测试语料都需要先进行文本预处理才能输入分类器进行分类.1.1 中文分词与关键词提取本文基于TF-IDF算法对中文文本进行切词和关键字提取,如某个词或短语在1个文档中出现的频率(TF词频)相比于其他词或短语出现的频率较高,并且在其他文档中很少出现(IDF反文档频率),则认为此词或短语具有很好的类别区分力,适合用来分类.计算方法如下:tfidfi,j=tfi,j×idfi其中表示词频,词向量wi,j在本文档中出现的频率为ni,j.其中表示反文档频率,D表示书评语料文档总记录数为,{j:ti∈dj}表示包含该词的所有文档数目.TF-IDF算法是基于字符串匹配的特征加权技术,需要分词词典支持.本文采用的分词词典是国家语言文字工作委员会发布的《现代汉语常用词表(草案)》[14],该词典搜集了日常生活中使用频率较高的56008个词汇,在本文中能够满足分词的需要.对训练预料的中文文本分词处理流程如图1所示.图1 文本分词与关键词提取处理流程1.2 构建情感词典本文自主构建一个基于图书评论的情感词库,从训练预料库中提取等量的不同极性的文本语料进行中文分词与关键词提取,处理流程如图2所示:图2 构建分词矩阵和极性标注向量流程通过图2得到分词文本矩阵后,分析发现分词文本矩阵中存在部分中性词语,此节点可以加入人工干预,将分词文本矩阵按词名合并、按词频排序后即可得到自主定义的情感词库.构建流程如图3所示.图3 构建情感词库流程其中情感词典的数据源为未做任何处理的原始有评价(有情感极性标注)数据,用户对物品的星级评分为1时的数据作为消极数据,用户对物品的星级评分为5时作为积极数据.由于数据集数据较多,文本切分结果数据量庞大,有些频率较低的冷门词语会占用大量系统资源导致后续的朴素贝叶斯算法执行缓慢,并且通过观察这些词语,发现它们并不能作为情感标注的代表性词语,因此先将分词结果进行词名(KEY)合并后再按照词频(VAL)进行降序排列得到结果如表1的情感词典.表1 词频排序情感词典词名词频本书9573喜欢6318……看不下去2414垃圾2400……其中“本书”这样的词汇属于高频词汇,但是这类词并不能很好地成为对文本进行情感分析的依据,因此可以选择人工干预的方式删除这些词汇同时去掉一些低频词汇,以使得后续文本情感分析结果更加准确.人工干预后结果如表2所示.表2 干预后情感词典词名词频喜欢6318不错3025看不下去2414垃圾2400好书1557……1.3 中文情感分类器本文所收集的图书评论语料数据集经过向量化后得到词向量矩阵,为了方便计算,本文将词条向量矩阵转化为基于情感词典的的向量矩阵,其过程如下:1)遍历图书评论文档库d={w1,w2,…,wn},记情感词典向量为vac.2)初始化一个新的词向量wi,赋初始值为wi={0,0,…,0}其长度为vac的长度.3)遍历ki中的每个词vij,若vij存在于vac中,则将wi中第j个元素的值加1.4)最后重新给文本赋值,即d={w1,w2,…,wn}本文采用朴素贝叶斯分类算法来构建情感分类器.朴素贝叶斯分类算法是基于概率学习的算法,基于假设的先验概率,在指定假设的前提下观察不同特征的出现概率.假设词典向量有100个词汇,如果每个特征需要N个样本,那么对于包含100个特征的词汇表需要N100个样本.如果特征之间相互独立,那么样本可以减少到100×N.本文训练算法过程如下:1)设评论文档库d={w1,w2,…,wn}的情感倾向属于C={Cp,Cn},训练语料库中积极评论数量为np,消极数量为nn.2)计算先验概率3)遍历训练文档库d,为防止后验概率为0影响计算结果,本文采用Laplace平滑处理.本文中wi都是独立的特征,则计算后验概率的公式可以展开为:4)最后将测试语料库代入分类公式得到分类计算结果.2 基于Spark的分布式协同过滤推荐本文通过上述操作,对特征完整的训练数据集依次进行了中文分词、关键词提取、构建情感词典、构建中文情感分类器;然后将缺失关键特征项“用户对图书的评分”的数据通过分类器分类,进而预测出用户对图书的评分值;最后将分类后的数据与原始训练数据整合到分布式文件系统HDFS中.在后续的分布式推荐过程中,推荐算法将从HDFS直接获取经过情感分类器分类整合后的训练数据集.2.1 分布式计算框架Spark是基于Hadoop的分布式计算框架,支持内存计算、多迭代处理、流处理与图计算等,是MapReduce分布式计算模型的实现.Spark分布式计算框架可以将任务分解、发送、执行、归并,对开发者而言可以免去定制分布式调度系统.Spark建立在HDFS分布式文件存储系统的基础上,但它计算过程的中间结果可以保存在内存中,硬盘I/O次数因此而减小,从而可以有较高的速度,并且对多步骤和多迭代运算有更好的处理与支持能力.Spark的核心模块是RDD(弹性分布式数据集),在RDD的支持基础上,Spark计算框架开放了很多相对容易使用的API 接口.本文所涉及的数据规模与计算量在Spark计算框架上能够较好的提升效率,因而搭建了Spark分布式计算平台,并在此基础上设计并实现了基于训练模型的协同过滤推荐系统.2.2 基于Spark的协同过滤推荐算法推荐系统中的协同过滤推荐算法是运用较为广泛的一种.协同过滤推荐的核心是分析用户的兴趣,在用户群体中通过多种数据比对,发现与指定用户兴趣相似的用户,进而研究兴趣相似的用户对某一信息的评价,最终预测指定用户对此信息的喜好程度.本文将基于矩阵分解的ALS协同过滤算法在Spark分布式计算框架下以并行化的方式实现,并应用到推荐系统中.本文为构建推荐模型的计算与迭代过程如下:1)构建矩阵R,R=(Rij)m×n为m个用户对n个图书的评分矩阵,设目标矩阵X 为目标矩阵.本算法的目的就是计算出与矩阵R逼近的低秩矩阵X.2)设矩阵X=UVT,U∈Cm×d,V∈Cn×d,d表示特征值的个数,一般d≪r,r≈min(m,n),r表示矩阵的秩,则损失函数为L(U,V)=∑ij,对该式添加二阶正则化项后为3)固定V,对Ui求导,Ui=RiViu(ViuVui+λnuiI)-1i∈[1,m],Ri为用户i对图书的评分向量,Vui为用户i评价过所有图书组成的特征矩阵,nui为用户i评价过图书的数量.4)固定U,对Vj求导,λnmjI)-1,j∈[1,n],Umj表示对图书j评过分的用户组成的特征矩阵.nmj表示对图书j评过分的用户数量.I为一个d×d的单位矩阵.5)交替迭代计算3)、4)中的U、V,直到结果收敛或达到最大迭代次数,结束计算.6)得到逼近矩阵X,使用X进行图书推荐.3 实验结果及分析本文采集了豆瓣读书论坛的真实图书评论数据.获取了7413334条图书评论相关数据,其中935068条不具有图书评分信息,使用情感分析对其处理,其余数据均为包含图书评分、图书评论、用户与图书之间关系的完整数据.用户对图书的评分统计结果如表3所示:表3 用户评分分布评分值=1评分值=2评分值=3评分值=4评分值=5未评分878642264911257239237811025285629350683.1 情感分析实验结果原始数据源中包含935068条未评分数据,这些数据不能作为协同过滤推荐算法的训练数据集,因此采用基于朴素贝叶斯分类算法对这类数据进行加工,得到推荐算法需要的数据,最终整合到推荐算法的训练集中.在情感分析中,人工干预情感词典步骤是可选的,故而将进行人工干预和不进行人工干预的测试结果进行对比.本文进行的人工干预操作为删除前5个词频最高的中性词语,如“本书”这样的词语.训练朴素贝叶斯分类器前抽取出90%训练语料数据作为分类器的训练数据,共5830439条书评;使用剩余647000条书评作为测试数据.通过实验得到结果,经过人工干预情感词典的文本情感预测准确率为0.85,未经过人工干预情感词典的文本情感预测准确率为0.79,结果表明经过人工干预方式的准确率略高一些,如图4所示.图4 情感分析准确率其中部分测试数据分类结果如表4所示:表4 中文文本情感分析结果用户编号图书编号关键词分类结果21541921063738真强/逻辑思维/作者POSITIVErx78012046897文笔/细腻POSITIVE27920752046897经典POSITIVEdoa1491519辛大/失望/一遍/再说/不会NEGATIVE…………3.2 性能分析本文进行了2种实验对比,首先改变协同过滤推荐算法所占用的节点个数,针对相同的训练数据进行训练,将训练算法耗费的时间进行对比分析,其中单节点运行模拟传统的串行协同过滤推荐算法.分别从训练集中选取不同的10000、100000、1000000条数据信息,按批次节点数分别为1、2、3的集群构建推荐模型,其时间消耗对比如图5所示.由图5可以看出,当数据量小于10000时,传统的串行协同过滤推荐所消耗的时间要比分布式集群运行算法所消耗的时间少,这是因为集群的启动和网络通信消耗了一些时间.随着数据量逐渐增大,分布式集群的优势开始显现,所消耗的时间增加的比较缓慢,而串行方式算法运行时间增加较快速,传统的串行推荐方式将难以满足海量数据的处理需求.图5 推荐模型构建耗时对比3.3 推荐准确率分析将集群规模设定为3节点,从原始数据集中随机抽样1000000条数据,经过筛选得到其中有95391条无评分数据,将904609条有评分数据作为训练数据集DA,将95391条无评分数据经过朴素贝叶斯分类算法进行情感分析后得到的结果集与原数据集进行整合作为训练数据集DB.使用均方根误差法(RMSE)如式(1)所示.(1)对推荐结果的准确度进行评判,其对比如表5所示.表5 推荐结果准确率对比数据集RMSEDA0.306913709DB0.281947642由表5可知,将缺失关键信息的数据集进行情感分析后再整合到训练集中,会降低RMSE值,使推荐结果更加准确.4 结语本文主要研究了协同过滤推荐算法在Spark平台上的实现,并对原始数据集中缺失关键特征的数据使用基于朴素贝叶斯的中文文本情感分析进行处理,最终得到完整的训练数据集以供推荐算法使用.通过本文的实验结果可知,Spark分布式计算框架作为数据并行处理平台,在计算效率和稳定性上都有较好的表现,能够有效地解决大数据集的的复杂计算问题,而且随着数据量的增大,这种优势更容易彰显出来.对于Spark平台来说,本文所采用的数据集并不是很庞大,在接下来的工作中,将会扩充训练语料库,继续研究在更大的数据集下如何提升系统内存的使用率和如何对Spark进行调优,并研究更加合适的应用场景.参考文献【相关文献】[1] J. G. Liu, T. Zhou, B. H. Wang. Research progress of personalized recommendation system[J]. Progress in Natural Science. 2009,19(1):1-15[2] Pan R, Zhou Y, Cao B, et al. One-Class Collaborative Filtering[C]//Eighth IEEE International Conference on Data Mining. IEEE Computer Society, 2008:502-511[3] Karydi E, Margaritis K G. Parallel and Distributed Collaborative Filtering: A Survey[J]. 2014,49(2):37[4] Dean J, Ghemawat S. Simplified data processing on large clusters[J].In Proceedings of Operating Systems Design and Implementation OSDI, 2004,51(1):107-113[5] Su H, Lin X, Wang C, et al. Parallel collaborative filtering recommendation model based on two-phase similarity[J].Advanced Materials Research, 2015,989-994(1):1-6[6] Xie L, Zhou W, Li Y. Application of improved recommendation system based on spark platform in big data analysis[J].Cybernetics & Information Technologies, 2017,16(6) [7] Che J, Xie H. Hierarchical collaborative filtering algorithm based onSpark[J].Application of Electronic Technique, 2015[8] Gates M, Anzt H, Kurzak J, et al. Accelerating collaborative filtering using concepts from high performance computing [C] //IEEE Intermational Conference on Big Data. IEEE Computer Society, 2015:667-676[9] 王成.基于半监督机器学习的文本情感分析技术[D].南京:南京理工大学,2015[10] Liu Y, Bi J W, Fan Z P. Multi-class sentiment classification: The experimental comparisons of feature selection and machine learning algorithms[J]. Expert Systems with Applications, 2017,80:323-339[11] Salton G, Buckley C. Term-weighting approaches in automatic text retrieval[J]. Information Processing & Management, 1988,24(5):513-523[12] Chen Z, Shi G, Wang X. Text classification based on naive bayes algorithm with feature selection[J]. International Journal on Information, 2012,15(10):4255-4260[13] Bermejo P, Gámez J A, Puerta J M. Speeding up incremental wrapper feature subset selection with Naive Bayes classifier[J]. Knowledge-Based Systems, 2014,55:140-147 [14] 《现代汉语常用词表》课题组,编.现代汉语常用词表[M].北京:商务印书馆,2008。

朴素贝叶斯在气象预测中的应用(Ⅰ)

朴素贝叶斯在气象预测中的应用(Ⅰ)

朴素贝叶斯在气象预测中的应用气象预测一直是人们关注的焦点之一。

准确地预测天气对于农业、交通、航空等各个领域都具有重要意义。

而在气象预测中,朴素贝叶斯算法的应用逐渐受到了人们的重视。

朴素贝叶斯算法起源于贝叶斯理论,是一种基于概率的分类方法。

它的基本思想是利用已知的数据对未知的数据进行分类,从而实现对未来事件的预测。

在气象预测中,朴素贝叶斯算法也可以发挥重要作用。

首先,气象数据的特点决定了朴素贝叶斯算法在气象预测中的适用性。

气象数据包括大量的观测数据和历史数据,而且这些数据之间存在一定的相关性。

朴素贝叶斯算法正是基于这种相关性,通过对数据的概率分布进行建模,从而实现对未来天气的预测。

其次,朴素贝叶斯算法还可以很好地处理气象数据中的噪声和不确定性。

气象数据受到多种因素的影响,如大气环流、地理位置、气候变化等。

这些因素造成了气象数据的不确定性,而朴素贝叶斯算法正是通过对数据的概率进行建模,可以较好地处理这种不确定性,从而提高了气象预测的准确性。

另外,朴素贝叶斯算法在处理多维数据上也有一定优势。

气象数据通常是多维的,包括温度、湿度、气压、风速等多种变量。

朴素贝叶斯算法可以很好地处理这些多维数据,通过对各个变量之间的相关性进行建模,从而实现对未来天气的准确预测。

除此之外,朴素贝叶斯算法还可以结合其他气象预测方法进行应用。

例如,可以将朴素贝叶斯算法与数值天气预报模型相结合,利用数值模型得到的预测结果作为朴素贝叶斯算法的输入,从而提高了气象预测的准确性和可靠性。

然而,朴素贝叶斯算法在气象预测中也存在一些挑战和局限性。

首先,气象数据的复杂性和多样性使得朴素贝叶斯算法的建模变得较为困难。

其次,气象数据中存在大量的噪声和异常数据,这也给朴素贝叶斯算法的应用带来了一定的困难。

因此,如何克服这些挑战,进一步提高朴素贝叶斯算法在气象预测中的应用效果,仍需要进行更深入的研究和探讨。

总的来说,朴素贝叶斯算法在气象预测中具有一定的优势和潜力。

朴素贝叶斯模型的类别

朴素贝叶斯模型的类别

朴素贝叶斯模型的类别全文共四篇示例,供读者参考第一篇示例:朴素贝叶斯模型的分类主要分为三类:高斯朴素贝叶斯、多项式朴素贝叶斯和伯努利朴素贝叶斯。

接下来分别介绍这三种不同类型的朴素贝叶斯模型及其应用场景。

一、高斯朴素贝叶斯高斯朴素贝叶斯模型假设特征的分布服从高斯分布,即特征的概率密度函数为高斯分布。

这种模型适用于连续型特征,例如数值型数据。

在实际应用中,高斯朴素贝叶斯模型通常用于处理连续型数据的分类问题,如人脸识别、手写数字识别等。

二、多项式朴素贝叶斯多项式朴素贝叶斯模型假设特征的分布服从多项式分布,即特征是离散型的且取值范围有限。

这种模型适用于文本分类等问题,其中特征通常是单词或短语的出现次数或权重。

在实际应用中,多项式朴素贝叶斯模型常用于文本分类、垃圾邮件过滤等问题。

朴素贝叶斯模型是一种简单且高效的分类算法,具有快速的训练速度和较好的分类性能。

不同类型的朴素贝叶斯模型适用于不同类型的特征分布和问题类型,可以根据具体情况选择合适的模型来解决分类问题。

在实际应用中,朴素贝叶斯模型被广泛应用于文本分类、垃圾邮件过滤、情感分析等领域,并取得了不错的效果。

第二篇示例:朴素贝叶斯是一种被广泛使用的机器学习分类算法,其原理简单但却非常有效。

它的原理基于贝叶斯定理,通过对已知数据集的特征进行概率推断来对未知数据进行分类。

朴素贝叶斯模型最初是由英国数学家托马斯·贝叶斯提出的,它的核心思想是基于特征之间的独立性假设。

朴素贝叶斯模型的类别主要可以分为三种:高斯朴素贝叶斯、多项式朴素贝叶斯和伯努利朴素贝叶斯。

1. 高斯朴素贝叶斯高斯朴素贝叶斯是一种适用于连续型数据的分类算法。

在高斯朴素贝叶斯中,假设特征的概率符合高斯分布,通过计算每个特征在每个类别下的概率密度函数来进行分类。

因为高斯分布在实际数据中很常见,因此高斯朴素贝叶斯在实际应用中有着广泛的应用。

伯努利朴素贝叶斯也适用于离散型数据的分类问题,但与多项式朴素贝叶斯不同的是,伯努利朴素贝叶斯适用于二值型数据,即特征只有两种取值。

朴素贝叶文本分类

朴素贝叶文本分类

朴素贝叶文本分类朴素贝叶斯文本分类是一种常用的机器学习算法,它在文本分类任务中表现出色。

本文将介绍朴素贝叶斯文本分类的原理、应用场景以及优缺点。

一、朴素贝叶斯文本分类的原理朴素贝叶斯是一种基于概率的分类算法,其核心思想是利用贝叶斯定理计算给定特征的条件下目标变量的概率。

在文本分类中,我们将文本看作是一组特征的集合,通过计算每个特征对于目标分类的概率,可以得到最终的分类结果。

朴素贝叶斯分类器假设每个特征之间是相互独立的,这种假设在实际应用中可能并不成立,但在很多情况下,朴素贝叶斯仍然能够取得较好的分类效果。

具体而言,朴素贝叶斯分类器计算每个特征在每个分类下的概率,并将所有特征的概率相乘得到最终的分类概率,然后选择概率最大的分类作为预测结果。

二、朴素贝叶斯文本分类的应用场景朴素贝叶斯文本分类广泛应用于自然语言处理领域,特别是文本分类任务。

具体的应用场景包括但不限于以下几个方面:1. 垃圾邮件过滤:通过训练一个朴素贝叶斯分类器,可以将垃圾邮件和正常邮件进行有效区分,提高用户的邮件过滤体验。

2. 情感分析:朴素贝叶斯分类器可以用于对文本进行情感分类,判断文本是正面情感、负面情感还是中性情感,对于舆情监控等应用具有重要意义。

3. 文本主题分类:通过对文本进行分类,可以将不同主题的文本进行自动化归类,帮助用户快速找到感兴趣的信息。

4. 信息抽取:朴素贝叶斯分类器可以用于从大量文本中抽取特定信息,如从新闻报道中提取关键人物、地点等信息。

三、朴素贝叶斯文本分类的优缺点朴素贝叶斯文本分类具有以下优点:1. 算法简单、易于实现:朴素贝叶斯算法基于概率计算,理论基础清晰,算法实现相对简单,适合处理大规模的文本分类任务。

2. 分类性能稳定:尽管朴素贝叶斯分类器假设特征之间相互独立,但在实际应用中,它仍然能够处理很多实际问题,并且具有较好的分类性能。

3. 对缺失数据不敏感:朴素贝叶斯算法对于缺失数据具有较好的鲁棒性,即使在存在缺失数据的情况下,仍然能够进行有效的分类。

svm 朴素贝叶斯 lda 数值

svm 朴素贝叶斯 lda 数值

支持向量机(SVM)、朴素贝叶斯(N本人ve Bayes)、线性判别分析(LDA)和数值计算等是机器学习和数据挖掘领域中常用的方法和技术。

本文将就这些主题展开深入探讨,并对它们的原理、应用和优缺点进行详细阐述。

一、支持向量机(SVM)支持向量机是一种二分类模型,其基本原理是找到一个超平面,使得两类数据点距离超平面的间隔最大化。

SVM通过寻找最优超平面来进行分类,具有较强的泛化能力,对于高维数据和非线性数据有较好的分类效果。

SVM也可以通过核技巧来处理非线性分类问题。

但是,SVM的缺点是在处理大规模数据集时性能较差,且对参数的选择比较敏感。

二、朴素贝叶斯(N本人ve Bayes)朴素贝叶斯是一种基于贝叶斯定理和特征条件独立性假设的分类方法,适用于文本分类、垃圾邮件过滤等领域。

朴素贝叶斯方法简单、高效,对较小规模的数据集有很好的分类效果。

但是,朴素贝叶斯方法忽略了特征之间的相关性,因此对于非独立的特征,分类效果会有所下降。

三、线性判别分析(LDA)线性判别分析是一种经典的监督学习方法,用于减少数据的维度并保留最大类别间差异。

LDA通过最大化类间散布矩阵和最小化类内散布矩阵来寻找最佳投影方向,实现了数据的降维和有效分类。

LDA适用于高维数据的降维和特征提取,但要求数据满足正态分布和各类别具有相同的协方差矩阵。

四、数值计算数值计算是指利用计算机对数学问题进行数值求解和分析的过程,涉及到数值模拟、数值优化、数值插值等多个领域。

在数据处理和模型求解中,常常需要进行数值计算来获得近似解。

数值计算的基础包括数值稳定性和数值精度,计算方法包括二分法、牛顿迭代法、高斯消去法等。

支持向量机、朴素贝叶斯、线性判别分析和数值计算是机器学习和数据挖掘领域中常用的方法和技术,它们在不同领域有着广泛的应用。

深入理解这些方法的原理和特点,对于数据分析和模型建立非常重要。

而在实际应用中,需要根据具体问题的特点来选择适合的方法,并对其进行合理调参和优化,以获得最佳的分类效果和预测结果。

朴素贝叶斯分类算法的改进及应用

朴素贝叶斯分类算法的改进及应用

类算法。该算法首先根据灰色相关度对缺失数据一个估计, 估计值作为执行 EM 算法的初始值, 迭代执行 E 步 M 步后完成缺失数 据的填补, 然后用朴素贝叶斯分类算法对样本进行分类。实验结果表明, 改进算法具有较高的分类准确度。并将改进的算法应 用于高校教师岗位等级的评定。 关键词: 贝叶斯分类; EM 算法; 缺失数据; 预测模型 DOI: 10.3778/j.issn.1002-8331.2011.15.037 文章编号: 1002-8331 (2011) 15-0134-04 文献标识码: A 中图分类号: TP301.6
[2]
(随着变量的增加, 指数级增加) , 网络维护代价昂贵, 而且它 的估计参数较多, 会为系统带来高方差, 影响了它的预测精度。 波兰人 Pawlak 提出的粗糙集理论, 基于粗集理论的填充方法 寻找含有缺失值的对象的相容对象集, 然后用相容对象集中 出现次数最多的一个值来替代缺失值, 若相容对象集只有一 个对象, 则用其对应的值来替换缺失值, 粗糙集的方法主要使 用在条件属性缺失的处理方面[4]。 EM 算法有坚定的理论基础和简单、 稳定的特点, 已被广 泛地应用于缺损数据, 截尾数据, 成群数据, 带有讨厌参数的 数据等所谓的不完全数据的处理。该算法不仅可以对条件属 性进行填补, 还可以对类别属性进行填补。目前针对 EM 算法 存在不足的改进都是集中在加速收敛[5-7]和针对大数据集[8-9]方 面进行的。EM 算法初始值的估计, 对该算法的效果影响也是 不可忽略的, 只有选择合适的初值才能获得满意的最大 EM 收 敛值和加速收敛。 为了解决以上问题提出一种基于改进 EM 算法的朴素贝 叶斯分类算法, 来提高分类的准确率。根据灰色相关度给缺 失属性一个估计值作为 EM 算法的初始值, 由 EM 算法给出极

针对朴素贝叶斯文本分类方法的改进

针对朴素贝叶斯文本分类方法的改进

针对朴素贝叶斯文本分类方法的改进
漆原;乔宇
【期刊名称】《电子科学技术》
【年(卷),期】2017(004)005
【摘要】自动文本分类是计算机自然语言处理领域的一个重要应用.本文立足于基本的朴素贝叶斯理论,在应用于自动文本分类领域,提出了一些提高其机器学习模型分类精确度的方法,包括特征权重的互信息计算、零概率的拉普拉斯平滑、加入自然对数提高计算稳定性等.最后采用Python编程语言设计并实现改进前后文本分类模型性能的测试评估结果对比.
【总页数】4页(P114-116,129)
【作者】漆原;乔宇
【作者单位】福建师范大学,福建福州,350117;福建师范大学,福建福州,350117【正文语种】中文
【中图分类】TP181
【相关文献】
1.一种改进的朴素贝叶斯文本分类方法 [J], 梁宏胜;徐建民;成岳鹏
2.一种改进的朴素贝叶斯文本分类方法 [J], 陈叶旺;余金山
3.基于MapReduce的朴素贝叶斯算法文本分类方法 [J], 张晨跃;刘黎志;邓开巍;刘杰
4.基于MapReduce的朴素贝叶斯算法文本分类方法 [J], 张晨跃;刘黎志;邓开巍;
刘杰
5.针对低频词进行改进的中文短文本分类方法 [J], 罗孝波;林佳瑜;梁祖红;王漳因版权原因,仅展示原文概要,查看原文内容请购买。

基于朴素贝叶斯的文本分类

基于朴素贝叶斯的文本分类

1 文本 分 类
在文本分类 系统中, 我们使用的文本都是非结构
化 的 自然 文 本 , 因此 要 对这 些 文 本 进 行 预处 理 , 提 取
然后将特征根据权重 由大到小排序 , 根据 向量 的维数
选择排序后前面的特征 。各特征权重的计算具体方 法为 :
1 . 2 . 1特 征预 处理
朴 素 贝叶斯 分类 器是 一 种最 常见 且 原理 简单 , 实
个 向量 表示 出来 ,那 么文 本 是一 个 m个 词 条 组 成
际应用很成功的方法 。 朴素贝叶斯分类器 中的“ 朴素” 主要是指假设各属性间相互独立 , 每个节点只与类节 点关联。朴素贝叶斯分类器简单高效 , 适合属性较多 的模型。将朴素贝叶斯方法应用在文本分类中, 通过 对训练文本的学习,得到 了根节点和各属性节点 , 以 及 网络 中的参数。进而使用该 网络对文本进行分类 , 得到 了比较好 的结果。
s a t i s f a c t o r y r e s u l t i s a c h i e v e d . Ke y wo r d s : n a i v e b a y e s i a n, c l a s s i i f e r , t e x t c a t e g o r i z a t i o n , f e a t u r e
Ab s t r a c t :Na i v e B a y e s i a n i s a me t h o d u s e d i n u n c e r t a i n t y i n f e r e n c e . i t i s s i mp l e , b u t v e r y s t r o n g

5 8 ・

副本计算机专业教师报题

副本计算机专业教师报题

是 是 是 是 是 是 是 是 是 是 是 是 是 是 是 是 是 是 是 是 是 是 是 是 是
许峰 许峰 毛莺池 毛莺池 毛莺池 毛莺池 曹敬 曹敬 曹敬 曹敬 曹敬 王志坚 王志坚 王志坚 王志坚 娄渊胜 娄渊胜 娄渊胜 娄渊胜 娄渊胜 娄渊胜 刘文婷 刘文婷 刘文婷 刘文婷
xufeng@ xufeng@ yingchimao@ yingchimao@ yingchimao@ yingchimao@ jcao@ jcao@ jcao@ jcao@ jcao@ w51178@ w51178@ w51178@ w51178@ wise.lou@ wise.lou@ wise.lou@ wise.lou@ wise.lou@ wise.lou@ lwt8807_cn@ lwt8807_cn@ lwt8807_cn@ lwt8807_cn@
19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43
水资源管理系统—用水量评价系统 水资源管理系统—地下水水资源评价系统 水资源管理系统—来水量评价系统 手机资费套餐语义查询系统的设计与实现 RDF流视图查询重写系统的设计与实现——流视图定义器 RDF流视图查询重写系统的设计与实现——连续查询重写器 轻量级办公系统(发文管理子系统)设计与开发 轻量级办公系统(任务交办子系统)设计与开发 轻量级办公系统(请示呈批子系统)设计与开发 轻量级办公系统(收文管理子系统)设计与开发 轻量级办公系统(宣传工作子系统)设计与开发 基于JAVAEE的车辆信息管理系统 Android智能手机平台上的车辆定位与追踪展示系统 基于FLEX技术的车辆轨迹回放展示系统 基于GPS定位坐标的区域判断算法研究与实现 Linux平台上短信通信网关设备的相关研究与应用 基于EGG图文法可视化操作平台的无向图扩充 二进前向人工神经网络学习算法的实现—用户界面以及输入和输出功能模块实现 二进前向人工神经网络学习算法的实现—网络权参数自适应调节模块实现 数字图像中椭圆检测算法的设计与实现 基于EGG图文法可视化操作平台的测试及完善 CUDA环境下OPENCL计算实践 CUDA计算负载平衡分析 CUDA图形渲染计算实践 CUDA多GPU计算实践

朴素贝叶斯模型原理

朴素贝叶斯模型原理

朴素贝叶斯模型原理一、前言贝叶斯定理是概率论中的一个重要定理,朴素贝叶斯模型就是基于贝叶斯定理的一种分类算法。

朴素贝叶斯模型具有简单、快速、高效等优点,在文本分类、垃圾邮件过滤等领域得到广泛应用。

二、贝叶斯定理贝叶斯定理是概率论中的一个重要定理,它描述了在已知先验条件下,通过新的证据来更新概率估计值的过程。

P(A|B) = P(B|A) * P(A) / P(B)其中,P(A|B)表示在已知B发生的情况下A发生的概率;P(B|A)表示在已知A发生的情况下B发生的概率;P(A)表示A发生的先验概率;P(B)表示B发生的先验概率。

三、朴素贝叶斯模型朴素贝叶斯模型是基于贝叶斯定理和条件独立假设而建立起来的一种分类算法。

所谓条件独立假设就是指,在给定类别C的情况下,每个特征xi之间相互独立。

P(C|x1,x2,...,xn) = P(x1,x2,...,xn|C) * P(C) / P(x1,x2,...,xn)其中,P(C|x1,x2,...,xn)表示在已知特征x1,x2,...,xn的情况下类别C发生的概率;P(x1,x2,...,xn|C)表示在已知类别C的情况下特征x1,x2,...,xn同时发生的概率;P(C)表示类别C的先验概率;P(x1,x2,...,xn)表示特征x1,x2,...,xn的先验概率。

四、条件独立假设条件独立假设是朴素贝叶斯模型中的核心假设。

它指出,在给定类别C的情况下,每个特征xi之间相互独立。

这个假设虽然过于简化了实际问题,但是在实际应用中却表现出良好的效果。

五、参数估计朴素贝叶斯模型需要估计三个参数:类别先验概率、各个特征在各个类别下的条件概率和样本空间中所有可能事件发生的先验概率。

(一)类别先验概率类别先验概率指每个类别出现的概率。

可以通过统计训练集中每个类别出现次数并除以总样本数来估计。

例如,在一个二分类问题中,如果训练集中正样本数为3000,负样本数为7000,则正类别的先验概率为0.3,负类别的先验概率为0.7。

一种新型朴素贝叶斯文本分类算法

一种新型朴素贝叶斯文本分类算法

实 验 结 果表 明 , 分 类 时 不计 算 先 验概 率 对 分 类 精 度 影 响 甚 微 但 可 以 明 显 加 快 分 类 的 速 度 , 在后 验概 率的计 算 中
引入 放 大 系数 减 少 了误 差 传 播 的影 响 , 提 高 了分 类 精 度 。
关键 词 : 文本分类 ; 朴 素 贝叶 斯 ; 先验 概 率 ; 后验概 率
Ab s t r a c t :Ac c o r di n g t o t h e p he n om e na t ha t t he c a l c u l a t i on of pr i o r pr o b a bi l i t y i n t e x t c l a s s i f i c a — t i o n i S t i me — c o ns u mi n g a nd h a s l i t t l e e f f e c t o n t he c l a s s i f i c a t i o n r e s u l t 。 a nd t he a c c u r a c y l O S S of p os t e r i o r p r ob a bi l i t y a f f e c t s t he a c c u r a c y o f c l a s s i f i c a t i on,t he c l a s s i c a l na i v e Ba y e s a l g or i t h m i s i mpr o ve d a nd a n e w t e x t c l a s s i f i c a t i o n a l go r i t hm i s pr o po s e d whi c h r e s t r a i ns t he e f f e c t o f pr i o r p r o ba bi l i t y a nd a mpl i f i e s t h e e f f e c t of p os t e r i or pr o ba b i l i t y .I n t he ne w a l go r i t h m ,t he c a l c ul a — t i on o f pr i or pr o ba b i l i t y i s r e mov e d a nd a n a mp l i f i c a t i o n f a c t or i s a dd e d t o t h e c a l c ul a t i on of p os t e r i or p r ob a bi l i t y.Th e e xp e r i me nt s p r ov e t h a t r e mo v i ng t he c a l c ul a t i o n o f pr i o r p r o ba b i l i t y i n t e xt c l a s s i f i c a t i o n c a n a c c e l e r a t e t he c l a s s i f i c a t i on s pe e d a nd ha s l i t t l e e f f e c t o n t h e c l a s s i f i c a — t i on a c c u r a c y,a n d a d di n g a n a mp l i f i c a t i on f a c t or i n t he c a l c ul a t i o n of p os t e r i o r p r ob a bi l i t y c a n

一种基于朴素贝叶斯分类的性能预测方法

一种基于朴素贝叶斯分类的性能预测方法

m eh d,a tan n e s c le td usn h e u fpe om a c e to ppi ain s se . Nav Ba s m eh d i ito u e o tan t to ri i g s ti ol ce i g t e r s h o r r n e ts fa lc t y tm f o ie ye t o s n r d c d t ri he casi e l sf r,a d t e he ta n d c a sfe s p c a e o a p e c in mo l nd mb dd d i t h y tm o r d c a iu p ro ma c i n h n t ri e l si ri a k g d t r dito du e a e e e n o t e s se t p e it v ro s e fr n e i
p o et s s c st e rs o s i ,ec rp ri u h a h e p n e t e me t .C mp r d w t r dt n lme h d ,o rmeh d s o a it f u e ir is n ld n ih a — o ae i ta i o a h i t o s u t o h wsa v r y o p ro i e ,i cu i gh g c e s t
贝叶斯分 类方法训练分 类器 , 再将该分类器包装成 预测模 块嵌入 应用 系统 , 响应 时间等 多种性 能属性进 行预 测。与传 统方法相 对 比, 该方法具有准确度高 、 构造 简单 、 效率高 、 鲁棒 性强 、 松耦合等优 势。在针 对金 融报表 系统 的对 比实验 中准确 率达 到 6 % 以上 , 5

1. 朴素贝叶斯算法模型介绍

1. 朴素贝叶斯算法模型介绍

朴素贝叶斯算法是一种基于贝叶斯定理和特征独立性假设的概率分类算法。

它被广泛应用于文本分类、垃圾邮件过滤、情感分析等任务。

朴素贝叶斯算法的基本思想是基于训练数据中的特征和标签之间的概率关系,通过计算后验概率来进行分类预测。

朴素贝叶斯模型有三种基本类型,分别是高斯朴素贝叶斯、多项式朴素贝叶斯和伯努利朴素贝叶斯。

对于这三种模型,都需要对特征进行概率计算,从而得到分类结果。

高斯朴素贝叶斯假设特征服从高斯分布(正态分布),通过计算特征的平均值和方差来计算概率。

多项式朴素贝叶斯假设特征服从多项式分布,通过计算特征的频率来计算概率。

伯努利朴素贝叶斯假设特征服从伯努利分布,通过计算特征的胜率来计算概率。

朴素贝叶斯的优点在于其简单、易于理解和实现。

同时,由于其对数据的稀疏性和噪声具有较强的鲁棒性,因此适用于处理大规模数据集。

然而,朴素贝叶斯的缺点在于其假设特征之间相互独立,这在实际应用中往往难以满足,因此会影响模型的分类性能。

总的来说,朴素贝叶斯算法是一种基于概率论的分类算法,具有简单、易于理解和实现等优点,适用于处理大规模数据集,但需要注意特征的独立性问题。

基于自助平均的朴素贝叶斯文本分类器

基于自助平均的朴素贝叶斯文本分类器

基于自助平均的朴素贝叶斯文本分类器
白莉媛;黄晖;刘素华;阎秋玲
【期刊名称】《计算机工程》
【年(卷),期】2007(033)015
【摘要】针对单词簇上训练朴素贝叶斯文本分类器概率估计偏差较大所导致的分类精度较低问题,在概率分布聚类算法得到的单词簇的基础上,根据单词与簇间互信息建立有序单词子序列,采用有放回随机抽样对序列构造规模相当的样本集,并将估计出的参数的平均值作为训练得到的参数对未知文本进行分类.公共文本实验数据集上的实验结果表明,该文提出的训练方法相对于传统的朴素贝叶斯分类器训练方法能够获得更高的分类精度且过程相对简单.
【总页数】3页(P190-192)
【作者】白莉媛;黄晖;刘素华;阎秋玲
【作者单位】河南工业大学信息科学与工程学院,郑州,450052;河南工业大学理学院,郑州,450052;河南工业大学信息科学与工程学院,郑州,450052;河南工业大学信息科学与工程学院,郑州,450052
【正文语种】中文
【中图分类】TP391
【相关文献】
1.基于朴素贝叶斯的渔业文本分类器研究 [J], 邵乐;于红;刘溪婧;綦孝姬;梁晓娜
2.基于单词簇的朴素贝叶斯文本分类器 [J], 闫秋玲;王二暖
3.基于 MapReduce 的平均多项朴素贝叶斯文本分类 [J], 何敏;武德安;吴磊
4.基于朴素贝叶斯分类器的朝鲜语文本分类的研究 [J], 周国强;崔荣一
5.基于n-gram语言模型和链状朴素贝叶斯分类器的中文文本分类系统 [J], 毛伟;徐蔚然;郭军
因版权原因,仅展示原文概要,查看原文内容请购买。

朴素贝叶斯分类算法及其应用研究

朴素贝叶斯分类算法及其应用研究

2 应 用 实 例
在本节我们给 出一个使用朴素贝叶斯算法进行数据分类的
la ig d t ae er n a bss 【BO 1 ht:w wi . i d/mer/ n a E / E. t / w .s c. u ̄ l n p/ cu e a
其 中, ( 和 P aI ) 以通过如下 的公式来估计 : P e) (,.可 c
(= i c c=的基本原理 ,在此基础上给 出 了一个朴素贝叶斯 分类算法 的应用实例。实际应用的结果表 明 了朴素贝叶斯分类 算法 是一种有效 的分类方法 ,因此具有 广阔
文献 标 识 码 : A
Na v y s Cl s i c t o g r t m nd i s Ap lc t o s a c i e Ba e a s f a i n Al o ih i a t p a i n Re e r h i
SHI Le, HU a — n , XI i Xi o ho g Le i
的应 用 前 景 。
i— I ) l : ll
m +
() 4
∑N 。
其中 N 表示 类 c 中的样本数 目, 为特征项 a 在类 c中 i . N . 出现 的词频总数。 对样本 d进行 分类 , . 就是按公式 ( ) 1计算所有样本类在给定 情况下 的概率 , 概率值最大的那个类就是 d所在的类 , j 即:
1 朴素 贝叶斯 分类算 法
假设 d为一任 意样 本 , 的特征为 aa …,r 其 中 a 表示 . 它 l a , ,, r ) 。 该样本 中出现的第 i 个特征项。预定义的样本类别为 C { 一 =c , Cl k 。假设在给定的条件下 , 特征项之间都是相互独立 的 , 不存在

朴素贝叶斯情感分类

朴素贝叶斯情感分类

朴素贝叶斯情感分类朴素贝叶斯情感分类是一种常用的文本分类算法,其原理基于贝叶斯定理和特征条件独立假设。

在情感分类中,朴素贝叶斯算法可以帮助我们将文本数据分为不同的情感类别,如正面、负面或中性。

下面将介绍朴素贝叶斯情感分类的基本原理及其在文本分类中的应用。

朴素贝叶斯算法的基本原理是基于贝叶斯定理,通过计算文本数据在各个情感类别下的概率来进行分类。

在情感分类中,我们可以将文本数据表示为词袋模型,即将文本中的词语进行提取并转化为特征向量。

然后,我们可以根据训练数据集中各个情感类别下的词语频率来计算文本数据在各个类别下的概率,进而判断文本所属的情感类别。

在朴素贝叶斯算法中,有一个重要的假设是特征之间的条件独立性假设,即假设文本数据中的特征(词语)在类别确定的情况下是相互独立的。

虽然这个假设在现实情况下并不完全成立,但在实际应用中,朴素贝叶斯算法仍然可以取得不错的分类效果。

在文本分类中,朴素贝叶斯算法可以应用于情感分析、垃圾邮件过滤、文档分类等领域。

以情感分析为例,我们可以利用朴素贝叶斯算法对用户评论、社交媒体数据等进行情感分类,从而快速了解用户对产品或事件的态度和情感倾向。

在实际应用中,我们通常会将文本数据进行预处理,包括分词、去停用词、词干提取等操作,以提取文本数据的特征。

然后,我们可以利用朴素贝叶斯算法对预处理后的文本数据进行训练,构建分类模型,并对新的文本数据进行分类预测。

总的来说,朴素贝叶斯情感分类是一种简单而有效的文本分类算法,其基本原理清晰易懂,且在情感分析等领域有着广泛的应用。

通过对文本数据的特征提取和概率计算,朴素贝叶斯算法可以帮助我们实现文本数据的情感分类,从而更好地理解用户的情感倾向和态度。

希望本文能对朴素贝叶斯情感分类算法有所了解,并对其在文本分类中的应用有所启发。

云计算环境下基于朴素贝叶斯的数据分类

云计算环境下基于朴素贝叶斯的数据分类

云计算环境下基于朴素贝叶斯的数据分类张红蕊;张永;于静雯【期刊名称】《计算机应用与软件》【年(卷),期】2015(000)003【摘要】Aiming at the character of Na ve Bayesian classification algorithm,we propose an improved feature selection method.Modern large-scale data classification consumes too long time on a single computer for training and testing,in view of this,we design and implement on hadoop distributed platform the Na ve Bayesian-based data classification algorithm.Experimental results show that the improved algorithm can effectively improve the classification accuracy;the designed parallel Na ve Bayes data classification algorithm has higher execution efficiency,and is suitable for mass data processing and analysis.%针对朴素贝叶斯分类算法的特点,提出一种改进的特征选择方法。

现代大规模数据分类在单机计算机上训练和测试时间过长,对此,在 hadoop 分布式平台下设计并实现了基于朴素贝叶斯的数据分类算法。

实验结果表明,改进的算法能有效提高分类的正确率,所设计的并行朴素贝叶斯数据分类算法具有较高的执行效率,适用于海量数据的处理与分析。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1引言引文索引实质上是对引文进行编目的过程。

目前引文索引所采用的是自动引用匹配的方式,它们所关注的只是识别出文章中的引文,将它们与相应的参考文献对应起来,然后使人们能够从参考文献部分搜索到引用。

现在大多数数字图书馆如Ci⁃teSeer 、搜索引擎如谷歌学术等都采用的是这种方式。

引文分析是建立在参考文献的引用关系基础上的。

然而,由于引用行为本身是一个复杂的行为,包括很多因素,有的引用真正对作者的写作有借鉴意义的,有的引用则是转述别人的,有的引用则是批判性的,等等。

目前的引文分析将所有的引用视为等同,并没有识别引用所属的类型,对其进行标注。

如果我们要快速、有效地从参考文献中找到真正有用的文献,就需要对引用进行分类。

分类的目的就是要让机器学会一个分类函数或者分类模型,这个分类模型能够把引用的类型映射到已存在的多个类别中的某一类。

实际上就是需要定义一个引用类型集合,然后把不同的引用分别放在对应的类型中。

由于工作的复杂性,手动分类是耗费时间的,所以我们需要自动分类的便捷方法。

建立一个自动分类器,输入带有参考文献的论文,然后输出对参考文献的引用进行分类好的论文。

这种输出的结果将会包含更多有用的信息,对科学研究有帮助,而且也会提高文献检索技术。

本文将介绍一种新的引用分类计划,既能很容基于朴素贝叶斯模型的自动引用分类研究尹莉(长安大学图书馆,陕西西安710064)摘要:以贝叶斯公式为基础,用朴素贝叶斯分类器的原理构建了一个新的引用分类计划,用以进行引用类型的自动识别。

通过对分类模型的实验,表明概率分类网络用于引用分类是可行的,但要对数据实现好的自动标注需要进一步改进。

关键词:引用分类;贝叶斯公式;朴素贝叶斯分类器中图分类号:G254.3文献标识码:A文章编号:1007-7634(2015)02-50-04Research on Automatic Classification Reference Based on Naive BayesModelYIN Li(Library of Chang`An University ,Xi'an 710064,China)Abstract:This paper is based on the Bias formula,using the principle of Naive Bayes classifier to the new classification scheme.It is used to recognize the type of.Citation toautomatically.Based on the classification model experiment,showing that probabilistic classification network for classification ofcitation is feasible,but in order to realize the automatic annotation ,we needs further improvement for data.Key words:citation classification ;bayes fomula ;naive bayes classifier情报科学第33卷第2期2015年2月·理论研究·收稿日期:2013-12-21基金项目:长安大学中央高校基本科研业务费专项资金资助项目(310850140189)作者简介:尹莉(1982-),女,陕西蓝田人,博士,馆员,主要从事科技信息组织、信息分析、科学技术史研究.--50易获得分类,又能快速地进行自动标注。

2理论基础引用分类是将引文作为信息进行编目,识别其类别的过程。

因此,在引用分类中需要涉及一些常用的概念。

(1)信息检索。

贝泽-耶茨(Baeza-Yates)等人把信息检索描述成信息的表示、存储、组织和处理【1】。

在引用分类中,引用类型就是信息,对每一个引用类型或引用类来说,信息检索系统是一个二进制引用分类器。

因此能够将信息检索的一些评价标准用于引用分类(参见表1)。

准确率=(检索到的相关文献)/(检索到的所有文献)召回率=(检索到的相关文献)/(所有相关文献)F测度=2×(准确率×召回率)/(准确率+召回率)表1二进制分类的混淆矩阵Real True FalseClassifiedTrueTrue Positive(TP)False Positive(FP)FalseTrue Negative(TN)False Negative(FN)这样一来,精确度=TPTP+FP,召回率= TPTP+FN,F测度=准确率×召回率。

(2)词义消歧。

自然语言固有的模糊性。

同一个词在不同的语境中可能有许多不同的意思,而词义消歧要把这些词的不同意思根据语境精确地区分开来。

引用分类工作非常类似于词义消歧,一个合适的引用分类器的训练应当以包含词义消歧任务为先决条件。

本研究中,利用贝叶斯概率分类器来完成词义消歧的工作。

概率网络通过学习词的不同意思来进行词义消歧的训练。

将包含模糊词义的句子反馈给分类器,从这些句子中进行学习。

这个过程称为指导性学习,这是一个非常流行的词义消歧方法,不需要人类专家给分类器提炼出一些规则。

(3)贝叶斯网络与贝叶斯分类器。

贝叶斯网络是一个带有概率注释的有向无环图,图中的每一个结点均表示一个随机变量X,图G中两结点间如果存在着一条弧,则表示这两结点相对应的随机变量是概率相依的,反之则说明这两个随机变量是条件独立的。

整个贝叶斯网络就是随机变量X={x1,x2...x j}的联合概率分布P(X)的表现形式。

这种类型的网络并不存储随机变量的联合概率分布,而是存储随机变量的局部条件概率。

随机变量X的联合概率分布能够通过下面的公式(1)由其局部条件概率分布计算出来:P(X)=∏i=1n p(x i|Pa i)(1)这里Pa i是结点xi的父结点。

这样一来,网络中任意一个结点X均有一个相应的条件概率表(Conditional Probability Table,CPT),用以表示结点X在其父结点取各可能值时的条件概率。

如果结点X无父结点,则X的CPT为其先验概率分布。

贝叶斯网络的结构及各结点的CPT定义了网络中各变量的概率分布。

贝叶斯分类器是用于分类的贝叶斯网络。

该网络中应包含类结点C,其中C的取值来自于类集合(c1,c2,......c m),还包含一组结点X={X1,X2...X N},表示用于分类的特征。

对于贝叶斯网络分类器,若某一待分类的样本D,其分类特征值为X={X1,X2...X N},则样本D属于类别c i的概率P(C=ci|X1=x1,X2=x2,...,Xn=xn)(i=1,2,...,m)应满足下式:P(C=ci|X=x)=Max{P(C=c1|X=x),P(C=c2|X=x),...,P(C=cm|X=x)}(2)而由贝叶斯公式:P(C=ci|X=x)=P(C=c i|X=x)=P(X=x|C=c i)*P(C=ci)/P(X=x)(3)其中,P(C=ci)可由领域专家的经验得到,而P(X=x|C=c i)和P(X=x)的计算则较困难。

应用贝叶斯网络分类器进行分类主要分成两阶段。

第一阶段是贝叶斯网络分类器的学习,即从样本数据中构造分类器,包括结构学习和CPT学习;第二阶段是贝叶斯网络分类器的推理,即计算类结点的条件概率,对分类数据进行分类。

(4)朴素贝叶斯网络与朴素贝叶斯分类器。

朴素贝叶斯模型(Naive Bayesian Model,NBC)发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。

它是一个仅拥有一个父节点的网络,其枝叶都与这个父节点相连,如图1。

在这个模型中,以及在引用分类的背景下,每一个引用环境ci(即包含引用的句子)都包含一个来自于词汇表V的词汇集合wn∈V=<w1,w2...w||V>,这是由参数tj∈T=(t1,t2...t||T}的集合的概率分布所情报科学第33卷第2期2015年2月·理论研究·--51产生的。

引用类型用混合部分t j ∈T =(t 1,t 2...t ||T }表示。

它假定当一个引用环境c i 存在时,P (t j |θ)表示第一次选择一个混合部分的概率,P (c j |t j )表示这个混合部分选择引用内容的概率。

这个模型假设在给定的引用类型t j 下,一个引用环境c i 中的词w n 都是相互独立的。

这就是朴素贝叶斯假设:P (c j ||||t j )=P (w 1,w 2...w n |||t j )=∏i =1n P (w L |t j )(4)这一假设使得朴素贝叶斯网络中的推理非常简单。

假设我们有一个引用环境P (t j |c i ;θ),想找出它属于哪一种引用类型,实际上就是要找到P (t j |c i ;θ)。

P (t j |c i ,θ)=P (t j |w 1,w 2...w n ;θ)=P (t j |θ)P (w 1,w 2...w n |t j ;θ)P (w 1,w 2...w n |θ)(5)同时,NBC 模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。

理论上,NBC 模型与其他分类方法相比具有最小的误差率。

图1简单的朴素贝叶斯网络3新的自动引用分类模型(1)分类模型。

本研究中我们将EM 算法(最大期望算法)应用于引用分类,这个算法的基本步骤如下:将数据分成有标注的引用集合C l 和无标注的引用集合C μ。

利用公式,P (w l ||||t j ;θ)=#(w l ,t j )#(t j ),P (t j ;θ)=#(t j )||C (6)建立起集合C l内的极大似然估计,利用公式P (w l ||||t j ;θ)=1+#(w l ,t j )||V +#(t j ),P (t j ;θ)=1+#(t j )||T +||C (7)建立起集合C l 内的后验估计最大值。

进行E 步骤、M 步骤直到对数没有显著变化为止。

E-步骤:使用现有的分类器对集合C μ中的无标注引用文本进行分类。

M-步骤:使用公式(6)估计极大似然值,使用公式(7)取后验估计最大值。

对数似然法可以估计数据与模型的符合度,可以如下表示:LL (θ||||D )=log(∏t j∈T P (w l |t j ;θ)+∑∑log(P (t j|θ)P (c i|t j;θ))(8)(2)实验过程。

在SCI 数据库中选择下载了900篇生物医学领域论文,将其中9462条引文构成一个引用集合。

相关文档
最新文档