# | 大小 | 颜色 | 形状 | 标签 |
---|---|---|---|---|
1 | 小 | 青色 | 非规则 | 否 |
2 | 大 | 红色 | 非规则 | 是 |
3 | 大 | 红色 | 圆形 | 是 |
4 | 大 | 青色 | 圆形 | 否 |
5 | 大 | 青色 | 非规则 | 否 |
6 | 小 | 红色 | 圆形 | 是 |
7 | 大 | 青色 | 非规则 | 否 |
8 | 小 | 红色 | 非规则 | 否 |
9 | 小 | 青色 | 圆形 | 否 |
10 | 大 | 红色 | 圆形 | 是 |
测试集上要预测的某个样本如下:
# | 大小 | 颜色 | 形状 | 标签 |
---|---|---|---|---|
11 | 大 | 青色 | 圆形 |
采用拉普拉斯修正后的先验概率P(c)的计算公式:
基于类c和类外的依赖属性pai的条件概率计算公式如下:
属性的依赖关系定义如下:
则先验概率 P(c) ,
P(c = 好果)= (4+1) / (10+2) = 5/12
P(c = 一般) = (6+1) / (10+2) = 7/12
带有依赖属性的类条件概率:
P(大小=大 | c=好果,形状=圆形) = (2+1)/(3+2) = 3/5
P(颜色=青色 | c=好果) = (0+1)/(4+2) = 1/6
P(形状=圆形 | c=好果,大小=大) = (2+1) / (3+2) = 3/5
P(大小=大 | c=一般,形状=圆形) = (1+1) /( 2+2) = 2/4
P(颜色=青色 | c=一般) = (5+1)/(6+2) = 6/8
P(形状=圆形 | c=一般,大小=大) = (1+1)/(3+2) = 2/5
因此:
P(c=好果) * P(大小=大 | c=好果,形状=圆形) * P(颜色=青色 | c=好果) * P(形状=圆形 | c=好果,大小=大)
= 5/12 * 3/5 * 1/6 * 3/5
= 0.025
P(c=一般) * P(大小=大 | c=一般,形状=圆形) * P(颜色=红色 | c=一般) * P(形状=圆形 | c=一般,大小=大)
= 7/12 * 2/4 * 6/8 * 2/5
= 0.0875
来源: https://mp.weixin.qq.com/s?__biz=MzI3NTkyMjA4NA==&mid=2247484312&idx=1&sn=d2586d826450e254348a5287f1689bca&chksm=eb7c2e53dc0ba74572716285019bb67989919a1e82e921ea7567901e8aed3dbcf92aef9e8412#rd