朴素贝叶斯分类模型
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
两种最广泛的分类模型——决策树模型和朴素贝叶斯模型。该模型是由贝叶斯公式延伸而来。讲到贝叶斯公式先要看条件概率公式
该公式说明了如何计算已知B发生的前提下A还要发生的概率。A和B是随机事件,是否独立事件都适合这个公式。举个例子比喻就是你宿舍哥们在北师找了个女朋友,之后分手了,那么在他已经在北师成功一次的条件下再次去北师找女朋友成功的概率。如果是独立事件呢,那就是问在他分手之后,你去北师找女朋友成功的概率(在他不参与指导的前提下)跟他找女朋友是两码子事。
回正题,之后出场了贝叶斯公式
公式很简单,但是该公式真的超级有用,它揭示了在某种未发生条件下和已发生条件下概率的计算关系,即根据B发生条件下A发生的概率可以推理出A发生下B发生的概率。在真实生活中我们很难获得P(B|A)的概率,但是根据我们已知的P(A|B)就可以获得它,所以该定理的用途十分广大,可以用作数据的预测分类等。
贝叶斯分类算法有很多如朴素贝叶斯算法,TAN算法等
朴素贝叶斯是一种很简单的分类思想,对于给出的带分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大就认为该待分类项属于哪个类别。简单点说,就是你在学院路上发现一个学生摸样的美女,让你猜这美女是哪的。大家十有八九会猜是北师的,因为北师有美女的概率更高,在没有其他更多信息的条件下,我们就将这个美女分类到了北师里。这就是朴素贝叶斯的思想。
朴素贝叶斯分类的正式定义如下:
1、设为一个待分类项,而每个a为x的一个特征属性。
2、有类别集合。
3、计算。
4、如果,则。
对于贝叶斯的分类步骤说明如下,那病毒检测分类,对于一个病毒的定义可能会是包含多个向量的一个病毒的特征就是一个X,它包含N个特征向量,而对于学习集即N++个各种病
毒样本集可以分类为M个分类Y1,Y2....。为了将某一个病毒样本放入这M个类中,我们必须按个计算P(Y1|X),P(Y2|X)等N个计算,并找出其中最大的然后这个样本就归类完了。
但是我们如何计算P(Y1|X)呢,我如何知道这个病毒出现的状况下,它是Y1类病毒的概率呢。这就用到了贝叶斯公式了,根据贝叶斯公式我们可以得知,
P(Yi|X) = P(X|Yi)*P(Yi)/P(X),由于对于每个概率都要除以一个P(X)然后再比较大小,所以没有影响,关键的影响在于分子,又因为X是含有N个特征向量的空间,朴素贝叶斯分类器认为每个向量对于一个病毒的概率影响是相互独立的所以分子就中的乘项可以分解为:P(N1|Yi)*P(N2|Yi)*......*P(Yi)。
也就是说我只需要计算出每一个特征向量在某一种分类的累乘然后乘以这个分类的概率。这样算出的最大值所在的分类则为需要的分类。
再捋一捋哈,也就是说如果我要想将一个未知的病毒分类,那么我需要计算每个特征在每个类别中的特征出现的概率的累乘然后乘以该分类出现的概率,最后选取最大的则为该分类。贝叶斯的重要和利害在于把先验概率改成了后验概率,给力啊。