大道至简: 朴素贝叶斯分类器

万物之始, 大道至简, 衍化至繁.

--ifelse(is.element(this, 道德经), 道德经, unknown)

一, 背景

提到贝叶斯分类, 首先来看下贝叶斯其人, 贝叶斯 (Thomas Bayes,1701-1761) 英国牧师, 业余数学家. 可别小看了欧洲的牧师, 孟德尔, 被誉为 "遗传学之父" 也曾为一名神父, 假如你不记得孟德尔是谁, 那么你肯定记得高中生物上那个著名的豌豆实验.

具有讽刺意味的是, 当初贝叶斯发明概率统计理论是为了证明上帝的存在, 而至死这个愿望都没有实现, 不过感谢伟大的贝叶斯, 因为他的无心插柳, 才有了今天的贝叶斯公式. 接下来, 来一睹贝叶斯公式的风采,

公式看起来是不是很简洁, 看起来很有对称美. 记得上学那会数学老师的一句话, 假如你算出来的答案不够简洁, 那么多半这道题你算错了. 贝叶斯公式有什么意义呢? 它解决了两个事件条件概率的转换问题. 比如说, 已知感冒导致流鼻涕的概率, 那么流鼻涕有多大的概率感冒呢? 贝叶斯可以解决这类问题.

二, 贝叶斯分类

贝叶斯可以解决条件概率转换, 可是它怎么与分类联系起来的呢?

让我以一个例子加以说明, 假设有这样一个数据集(本例来自朴素贝叶斯分类器的应用 http://www.ruanyifeng.com/blog/2013/12/naive_bayes_classifier.html ),

症状(A1) 职业(A2) 疾病(B)

打喷嚏护士感冒

打喷嚏农夫过敏

头痛建筑工人脑震荡

头痛建筑工人感冒

打喷嚏教师感冒

头痛教师脑震荡

那么一个打喷嚏的建筑工人是感冒还是没感冒呢? 根据贝叶斯定理,

P(感冒 | 打喷嚏 x 建筑工人) = P(打喷嚏 x 建筑工人 | 感冒) x P(感冒) / P(打喷嚏 x 建筑工人)

假定 "打喷嚏" 和 "建筑工人" 这两个特征是独立的, 因此, 上面的等式就变成了

P(感冒 | 打喷嚏 x 建筑工人) = P(打喷嚏 | 感冒) x P(建筑工人 | 感冒) x P(感冒) / P(打喷嚏) x P(建筑工人) = 0.66 x 0.33 x 0.5 / 0.5 x 0.33 = 0.66

同理,

P(非感冒 | 打喷嚏 x 建筑工人) = P(打喷嚏 | 非感冒) x P(建筑工人 | 非感冒) x P(非感冒) / P(打喷嚏) x P(建筑工人) = 0.33 x 0.33 x 0.5 / 0.5 x 0.33 = 0.33

因为 P(感冒 | 打喷嚏 x 建筑工人)> P(非感冒 | 打喷嚏 x 建筑工人) , 所以我们更愿意相信一个打喷嚏的建筑工人是感冒的.

从上面的例子可以看出, 贝叶斯分类的步骤是这样的:

说到贝叶斯分类, 还有几个需要注意的问题:

1, 如果已知条件不止一个属性, 二是多个呢, 这个时候贝叶斯公式可以写作

上述公式假设特征属性 a1,a2 相互独立, 这也是 "朴素" 一词的由来. 另外, 可以看到对于不同的分类, 分母都是恒定的, 而我们只想找到概率最大的类别, 因此可以把分母省略, 求条件概率的相对值,

2, 不知道大家有没有注意到, 上面的已知条件都是离散值, 如果是连续值呢, 对于连续值通常有两种办法, 一是将连续值截取为离散值, 然后求概率, 二是假定离散值服从高斯分布, 即

因为我们只需求概率的相对值, 所以这里只需计算属性的概率密度值即可.

3, 还有一个问题, 当某些类别下某个特征值计数为 0, 即 P(ai|yj)=0, 这会使某些分类最终的概率为 0, 会降低分类器的准确性, 为了解决这个问题, 引入 Laplace 校准, 就是对这些类别的某些特征值计数加 1, 这样如果训练样本集数量充分大时, 并不会对结果产生影响.

如果想更详细的了解贝叶斯分类, 请参考这两篇文章分类算法之朴素贝叶斯分类 http://www.cnblogs.com/leoo2sk/archive/2010/09/17/naive-bayesian-classifier.html 和朴素贝叶斯分类器的应用 http://www.ruanyifeng.com/blog/2013/12/naive_bayes_classifier.html .

接下来, 我用 R 语言实现一个分类器并用一些数据集测试分类效果.

三, 算法实现

程序主要由三部分组成:

分类器主要由下面几个函数组成, 具体的代码见 GitHub https://github.com/pingao777 .

R
# 1. 求各个分类概率 P(ycol)
get.ytable <- function(ycol, trainset)
# 2.1 求离散属性 xcol 的条件概率 P(xcol|ycol)

get.discrete.xtable <- function(xcol, ycol, trainset)

# 2.2 求连续属性 xcol 的概率密度, 假设服从高斯分布

get.continout.xdensity <- function(xcol, ycol, trainset)

# 3. 对于某些概率为零的类别, 采用 Laplace 校准设置默认值
get.defaultx <- function(ycol, trainset)
# 注: xcol 特征属性, ycol 类别属性, trainset 训练集
# 1. 求各个分类概率 P(ycol)get.ytable <- function(ycol, trainset)# 2.1 求离散属性 xcol 的条件概率 P(xcol|ycol)get.discrete.xtable <- function(xcol, ycol, trainset) # 2.2 求连续属性 xcol 的概率密度, 假设服从高斯分布 get.continout.xdensity <- function(xcol, ycol, trainset)# 3. 对于某些概率为零的类别, 采用 Laplace 校准设置默认值 get.defaultx <- function(ycol, trainset)# 注: xcol 特征属性, ycol 类别属性, trainset 训练集

下面以基础包里的 iris (注 1)数据集验证一下分类器的效果, 选取前四列为特征, 预测鸢尾花的种类,