人类很多时候的决策, 也都是基于对于事物的预测. 比如,"出门要不要带雨伞?" 解答这个问题需要查天气预报. 人类为了预测天气, 古时用的是夜观星象, 月亮长毛必有雨. 而今天用的是统计预测和经验预测方法. 但气象局天气预报也经常会发生不准的情况. 佛系的说, 世界上本没有绝对的东西, 我们算的只是个概率.
在概率领域有一个很重要的学派 -- 贝叶斯学派. 其核心是贝叶斯定理, 由英国数学家贝叶斯 ( Thomas Bayes 1702-1761 ) 发明的. 贝叶斯当时的论文只是对 "逆概率" 这个问题的一个直接的求解尝试, 这哥们当时并不清楚这里面这里面包含着的深刻思想.
贝叶斯学派认为世界是不确定的, 人们对世界先有一个预判, 而后通过观测数据对这个预判做调整. 因为这种方式过于主观, 导致贝叶斯学派不受待见, 被概率的另外一个 "频率学派" 所鄙视. 频率学派认为事物发生的频率应该是客观的.
贝叶斯代理论是对事物发生的 "可能性" 的推理, 并不需要这件事情发生后再测量. 例如, 某地可能发生地震的概率为 3%, 它的推断源自于观测了地震波, 气象, 鸡飞狗跳等现象. 这种方式区别于 "频率学派" 抛硬币的测量方式, 我们不可能测了 100 次, 结果发生了 3 次地震.
贝叶斯理论上去更像一个哲学问题. 他告诉人们, 我们通过经验是可以推断出事物是否发生的相信程度. 这笛卡尔的 "我思故我在" 哲学问题相似, 将艰难的看似不可测的问题, 变成简单的可以测的问题!
一, 对贝叶斯公式的简单理解
如上图, 有 A,B 两个事件集合, 已知事件 A 发生的概率为 P(A), 事件 B 发生的概率为 P(B), 既满足 A 又满足 B 的时间集合是 A∩B, 概率为 P(A∩B) (也可以写成 P(A,B)或 P(AB)).
相对联合概率 P(A∩B)来说, P(A)和 P(B)被称为 边缘概率 , 意思这个事件仅代表自己, 而与其它事件无关.
如上图, 如果我们只看集合 A, 在 A 又符合 B 概率是 P(B|A), 简单的说就是在 A 中找 B, 因为有 A 发生作为前提条件, 所以被称为 条件概率 .(注意:"|" 后面的 A 是前提条件, 有点像分数 "B/A","/" 后面代表的是分母)
P(A∩B)的样本总体是 A∪B, 意思在全的样本中, 考虑 AB 都满足的概率事件, 简单的说就是 A 和 B 里面找 AB 都有的.
如上图, 不论是 P(B|A)还是 P(A∩B)从集合的角度看都是 A∩B, 只是一个总体样本范围大小不同.
如果 P(A),P(B ),P(B|A)是已知的, 那我们称之为 先验概率 ; 如果 P(A|B)是未知的, 需要我们计算推导而出, 我们称之为 后验概率.
有以下的简化的贝叶斯公式:
用文字表述就是, 在 B 出现的前提条件下 A 出现的概率, 等于 A 和 B 都出现的概率除以 B 出现概率.
但为什么要 "A 和 B 都出现的概率除以 B 出现概率"?
上面提到过, P(A|B)是以 B 发生作为前提条件, 也就是说我们要在 B 的样本空间中计算 A∩B 发生的概率. 所以分子是 A∩B, 分母是 B:
二, 举个形象的例子
上面的讲得有点抽象, 举个例子:
假设: 小学年级有共 100 , 其中有男生 30 . 穿袜的数共有 20 个, 这 20 个人里面有 5 个是男.
1. 男生的概率 P(男生)= 男生数 / 总人数 = 30/100;
2. 穿白袜的概率 P(白袜) = 穿白袜人数 / 总人数 = 20/100 ;
如果我们只研究穿白袜的男生的概率, 我们会以下三个不同的视角:
A: 以 30 个男生作为总体样本, P(白袜 | 男生)= 穿白袜男生数 / 男生数 = 5/30;
B: 以 20 个穿白袜的学生作为总体样本, P(男生 | 白袜)= 穿白袜男生数 / 穿白袜学生 = 5/20;
C: 以一年级学生作为总体样本, P(白袜∩男生)= 穿白袜的男生数 / 总人数 = 5/100;
因为穿白袜子的男生始终还是那 5 个人, 只是 总体样本不同导致的 分母不同,
如果要让三个数值相等那么 "参考系" 就要保持统一. 我们选取一年级全体学生作为总体样本. 如下图:
假设我们不知道 C 的计算结果, 我们从视角 A 或者视角 B, 重新推导在一年级总体样本中,"找出" 穿白袜的概率:
如上图, 如紫色箭头所示, 有两种方式:
视角 A: 先找出男生再找出穿白袜者, P(男生)P(白袜 | 男生);
视角 B: 先找出穿白袜的人再找出男生, P(白袜)P(男生 | 白袜);
通过计算发现 A 和 B 的结果和 C 是相等的:
对于这个结果也并不意外, 因为通过概率相乘的方式, 统一了 "参考系", 所以就有以下关系
通过移项则可以获得下面式子:
也就是说, 贝叶斯公式有如下关系:
因此, 我们只要知道先验概率 P(B|A),P(A)和 P(B)就可以求出 P(A|B).
二, 全概率公式
还是举小学校的例子:
已知男生穿白袜的概率 P(白袜 | 男生)为 1/6,P(白袜 | 女生)的概率为 3/14. 某个小学有一年学生 100 人, 男生 30 人, 女生 70 人, 求这一年级学生穿白袜的概率 P(白袜).
为了更好的理解, 我们把之前的图在视觉上做一下调整, 如下面右边图所示:
通过上图我们可以很直观的看出, 穿白袜的学生可以分成女生和男生, 那么我只要分别计算一年级的男生和女生穿白袜的概率, 再将他们相加, 就可以达到目的.
那如果再复杂一点呢?
假设这是家国际学校, 我们不按照性别划分, 按照国籍划分.
某小学是国际学校, 一年级的 100 位学生中, 有来自中国, 美国, 英国等国. 这些将这些学生按照国籍分成 n 组, 得到一个学生国籍的集合 A{A1, A2, A3...An}, 每个国籍 An 所代表的人数都不尽相同. 已知不同国籍的学生穿白袜的概率 P(白袜 | A1),P(白袜 | A2)......P(白袜 | An). 求这个国际学校一年级穿白袜的学生 P(白袜).
国籍和穿白袜学生的关系如下图:
和上面的案例类似, 我们只要分别计算不同国籍学生穿白袜的概率, 然后进行求和即可. 如下图:
也就是说, 我们将一个较大的概率集合, 拆分成每一小块分别计算, 然后再求和. 这个解题思路就是 全概率公式 .
全概率公式 将对一个复杂事件的概率求解问题转化为了在不同情况下发生的简单事件的概率的求和问题. 内如果事件 A1,A2,A3...An 构成一个完备事件组, 即它们两两互不相容, 其和为全集; 并且 P(Ai)大于 0, 则对任一事件 A 有: P(B)=P(B|A1)P(A1) + P(B|A2)P(A2) + ... +P(B|An)P(An) .
三, 完整版的贝叶斯公式
还是上面国际小学的例子
假设中国学生穿白袜的概率是 0.2, 美国学生穿白袜的概率是 0.1, 英国学生穿白袜的概率是 0.5. 此一年级的 100 位学生可以分为中美英三个国籍, 中国国籍学生 60 人, 美国国籍学生 30 人, 英国国籍学生 10 人. 求白袜学生中, 出现美国学生的概率 P(美国 | 白袜).
根据 全概率公式 , 我们将 P(白袜)拆解到各个国籍的穿白袜学生出现的概率, 再求和:
- P(白袜)=P(美国∩白袜)+P(中国∩白袜)+P(英国∩白袜)
- = P(白袜 | 美国)P(美国)+P(白袜 | 中国)P(中国)+P(白袜 | 英国)P(英国)
所以根据上面式子, 可以计算 P(美国 | 白袜)的概率:
各国学生概率: P(中国)=0.6; P(美国)=0.3; P(英国)=0.1
如果, 我们把国籍替换成 Ai, 白袜替换成 B, 就可以得到完整版的贝叶斯公式了:
上面这样写太长了, 我们换个写法, 用 "∑" 表示求和:
上面这个就是我们的完整的贝叶斯公式了.
四, 使用贝叶斯公式搜寻失事飞机
如上图, 一架飞机失踪了, 推测它可能落在 3 个区域, R ( =1,2,3)表示飞机坠落在第 区域. 令 1-β ( =1,2,3), 表示飞机事实上落在第 个区域且被发现的概率 (β 称为忽略概率, 因为它表示忽略飞机的概率, 通常由该区域的地理和环境条件决定). 已知对于区域 1 的搜索没有飞机, 求在此条件下, 飞机坠落在第 ( =1,2,3) 个区域的条件概率.
因为
那么我们可以先求 P(E)的全概率, 在 1 区没有搜寻到的原因分三种情况:
所以 P(E)的全概率:
因为 P(R | E)= P(R ∩E)/P(E), 所以:
假设我们二区搜索了还是没有搜到, 那在区域 3 搜索到的概率又是多少呢? 这个问题留在下一次解答.
五, 贝叶斯在人工智能上的应用
经常在网上搜索东西的朋友知道, 当你不小心输入一个不存在的单词时, 搜索引擎会默认按照正确的词帮你搜索, 比如当你在 Google 中输入 "Julw" 时, 系统会猜测你的意图是搜索 "July". 谷歌在墙外, 我们暂时百度做为案例 (ㄟ( ▔, ▔ ) ㄏ), 如下图所示:
来源: http://www.tuicool.com/articles/EvumqeU