Bayes分类器原理
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
贝叶斯分类器
一、朴素贝叶斯分类器原理
目标:
计算(|)j P C t 。注:t 是一个多维的文本向量
分析:
由于数据t 是一个新的数据,(|)j P C t 无法在训练数据集中统计出来。因此需要转换。根据概率论中的贝叶斯定理
(|)()(|)()
P B A P A P A B P B =
将(|)j P C t 的计算转换为: (|)()
(|)()j j j P t C P C P C t P t = (1)
其中,()j P C 表示类C j 在整个数据空间中的出现概率,可以在训练集中统计出来(即用C j 在训练数据集中出现的频率()j F C 来作为概率()j P C 。但(|)j P t C 和()P t 仍然不能统计出来。
首先,对于(|)j P t C ,它表示在类j C 中出现数据t 的概率。根据“属性独立性假设”,即对于属于类j C 的所有数据,它们个各属性出现某个值的概率是相互独立的。如,判断一个干部是否是“好干部”(分类)时,其属性“生活作风=好”的概率(P(生活作风=好|好干部))与“工作态度=好”的概率(P(工作态度=好|好干部))是独立的,没有潜在的相互关联。换句话说,一个好干部,其生活作风的好坏与其工作态度的好坏完全无关。我们知道这并不能反映真实的情况,因而说是一种“假设”。使用该假设来分类的方法称为“朴素贝叶斯分类”。
根据上述假设,类j C 中出现数据t 的概率等于其中出现t 中各属性值的概率的乘积。即: (|)(|)j k j k P t C P t C =∏
(2)
其中,k t 是数据t 的第k 个属性值。
其次,对于公式(1)中的()P t ,即数据t 在整个数据空间中出现的概率,等于它在各
分类中出现概率的总和,即:
()(|)
j
j
P t P t C
=∑(3)
其中,各(|)
j
P t C的计算就采用公式(2)。
这样,将(2)代入(1),并综合公式(3)后,我们得到:
(|)()
(|),
(|)
(|)(|)
j j
j
j
j
j k j
k
P t C P C
P C t
P t C
P t C P t C
⎧
=
⎪
⎪
⎨
⎪=
⎪⎩
∑
∏
其中:
(4)
公式(4)就是我们最终用于判断数据t分类的方法。其依赖的条件是:从训练数据中
统计出(|)
k j
P t C和()
j
P C。
当我们用这种方法判断一个数据的分类时,用公式(4)计算它属于各分类的概率,再取其中概率最大的作为分类的结果。
改进的P(t | C j )的计算方法:
摒弃t(t1, t2 , t3,)中分量相互独立的假设,
P(t1, t2 , t3,| C j) = P(t1 | C j) * P(t2 | t1, C j) * P(t3| t1, t2 ,C j) 注意:
P(t3| t1, t2 ,C j)
=
)
t2
P(t1,
)
C
t3,
,
t2
P(t1,j
此结果的含义是在某类C j 中 在t 1 、t 2后t 1 、t 2、t 3出现的概率
主要思想:在大规模的语料(或整个门户网站的分类结果中)上寻找支持度和置信度均大于其各自的阈值的频繁项集(关键词组),从而进一步去确定这些频繁项集(关键词组)的概率,对于小于阈值的项集中的关键字认为则认为是相互独立的。
注:分析的结果中的每个频繁项集中的关键词不宜太多(这个可以通过阈值来限制);分析的结果在一定时间内是比较稳定的而且是收敛的;分析结果可以形成多个“相关性词袋”。
‘相关性词袋’比‘近义词词袋’更接近人的思维也更接近客观实际同时不依赖于人的主观思维和大量的标注劳动,如:姚明,篮球 不同属于一个近义词词袋,但很有可能在同一个相关性词袋。克服了人标注的不完备性。
二、文本分类的具体方法
文本分类中,数据是指代表一篇文本的一个向量。向量的各维代表一个关键字的权重。 注意:权重可以通过TF/IDF 方法来确定
训练文本中,每个数据还附带一个文本的分类编码。对此我们有两个方面的工作:
(1) 分类器学习:即从训练数据集中统计(|)k j P t C 和()j P C ,并保存起来。(保存到一个数据文件中,可以再次加载)。在分类器的程序中,需要有表达和保存这些概率数据的变量或对象。
(2) 分类识别:从一个测试文档中读取其中的测试数据项,识别他们的分类,并
输出到一个文件中。
但文本分类有一个特殊情况:各属性的值不是标准值,不像“性别”这样的属性。因此在查找(|)k j P t C 时会遇到麻烦:新数据的k t 值可能在训练数据中从未出现过。这个问题的另一方面是:训练数据中各属性(分别对应一个关键词)的值太分散,几乎不可能出现某个关键词在多篇文章中的权重相同的情况。这样,(|)k j P t C 太多、太分散,没有统计上的意义。
这一问题的处理方法是:将各关键词的权重分段:即将权重的值域分成几个段,每段取其中数值的平均值作为其标准值。第一种方法是,直接对所有训练数据的属性值进行分段,如对第k 个属性,将其值域分为(0~0.1), (0.1~0.2), …, (0.9~1),各段分别编号为0,1,…9。一