机器学习西瓜书 Day08 贝叶斯分类器 (下)

今天首先先把昨天贝叶斯分类器剩下的部分看完

第七章贝叶斯分类器

7.5 贝叶斯网

是一个 DAG

以西瓜为实例: P157 图 7.2

7.5.1 结构

基于贝叶斯网的联合概率分布定义

贝叶斯网中三个变量之间的典型依赖关系: 同父, V 型, 顺序.

如何分析贝叶斯网中变量间的条件独立性?

有向分离法

首先先将 DAG 转变成无向图:

1) 找出 DAG 中所有 V 型结构, 在 V 的两个父节点之间加上一条无向边.

2) 将所有有向边改为无向边.

由此得到的无向图称为 "道德图", 令父节点先连的过程称为 "道德化"

在道德图上, 若 x,y 能被 z 分开, 即变量 z 去除后, x,y 分属两个连通分量, 则称 x,y 能被 z 有向分离, 即在 z 已知情况下, x,y 独立.

7.5.2 学习

若贝叶斯网已知, 则剩下的就是计数问题了.

所以贝叶斯网学习的首要任务就是根据训练集来找出结构最恰当的贝叶斯网.

定义一个评分函数, 以此来评价贝叶斯网和实验数据的契合程度.

具体过程 p159-160.(涉及信息论

7.5.3 推断

贝叶斯网训练好就能用来推断.

最理想的就是直接根据贝叶斯网定义的联合概率分布来精确计算后验概率.

但这样的精确计算是 NP 难的.

所以需要进行近似计算.

具体见 p161-162

使用了马尔科夫链的思想.

7.6 EM 算法

取值未知的变量: 学名 -- 隐变量

如瓜的根没了, 无法看出是 "蜷缩" 还是 "硬挺".

EM 算法是常用的估计参数隐变量的利器.

迭代算法.

基本想法:

若参数θ已知, 则可根据训练数据推断出最优隐变量 Z 的值 (E 步)

若 Z 已知, 则可方便地对参数做极大似然估计.(M 步)

EM 算法的步骤 (两个角度) p163.

简要来说, EM 算法使用两个步骤交替计算:

第一步是期望, 利用当前估计的参数值来计算对数似然的期望值.

第二步是最大化, 寻找能使 E 步产生的似然期望最大化的参数值.

然后今天就看到这了:)

要不然接下来每天都要发两篇, 先下后上, 多不好:)

来源: http://www.jianshu.com/p/68d4a494dd46

暂无,快来抢沙发吧！

机器学习 西瓜书 Day08 贝叶斯分类器 (下)