经济学中的基尼系数和决策树中的基尼杂质 (不纯度) 是不同的概念.
基尼系数 Gini coefficient
基尼指标 Gini index 或基尼系数 Gini coefficient 是意大利统计学家科拉多. 基尼 Corrado Gini 在 1912 年制定的分布的统计指标.
也有硬把基尼指标称为基尼指数的, 从英文上看 index 和指数无关, 应该是翻译的笔误成为习惯了吧.
基尼系数通常被用来衡量经济不平等或收入分配, 或者不均匀的财富分配.
基尼系数范围从 0(或 0%)到 1(或 100%),0 表示完全均衡, 1 表示完全不均衡. 但理论上讲, 由于负收入或负财富, 超过 1 的值是可能的.
一个国家, 如果每个人的都收入都相等, 基尼系数就是 0, 最均等; 如果这个国家 1 个人拥有全部财富, 而其他所有人都一无所有, 那么基尼系数就变为 1, 最不均等.
从上图可以理解基尼系数的数学含义. 横向是人口百分比例, 从左侧 0 个人到右侧 100% 全国人口; 竖向是人口所对应的财富占比. 比如说图中深蓝色线玻利维亚 Bolivia 国家的 50% 人口拥有 19.52% 的财富; 而在海地 Haiti 这个国家同样 50% 的人口却只拥有 11.89% 的财富(图中未标示); 感性上说玻利维亚更均等些.
如果某个国家的财富分布是最上面的浅蓝色直线那样, 那么它正好是 50% 的人拥有 50% 的财富, 60% 的人拥有 60% 的财富... 人均财富相等的完美状态.
基尼系数就是指完美均等斜线下面的面积 L, 减去曲线下的面积 C, 然后再除以 A 的值, 即:
很明显它的值在 0 到 1 之间, 0 即表示和直线重合, 1 就是极端不均等状态.
这条描述人口和财富比例变化的曲线就叫做洛伦兹曲线, 它是美国经济学家马克斯洛伦兹在 1905 年创造的.
错误分类率 Incorrect Classification
假设我们有三种水果共 12 个, 其中三个苹果 Apple, 三个香蕉 Banana, 六个樱桃 Cherry, 表示为下:
如果我们从其中取出任意一个草莓, 然后随机的给它贴一个种类标签,"苹果","香蕉" 或者 "草莓", 那么, 我贴错的可能性是多少?-- 我有 50% 的可能性贴错, 或者是我有 可能贴对.
同样, 任意取一个苹果, 随机贴标签, 错误的概率就大很多,会搞错, 取香蕉任意贴的错误率也是.
好了, 我们在考虑任意在 12 个水果里面取一个, 会取到樱桃的概率是多少?, 一半的概率. 同样取到苹果或者香蕉的概率都是.
综上, 对于 3 个 A,3 个 B 和 6 个 C 的一组数据, 随机分类的错误率是下面的算式:
先不急着计算, 仔细看就会注意到 ,, 这意味着, 某个种被随机贴错标签的概率 等于 1 减去这个种类可能被随机取到概率, 即:
基尼杂质 Gini Impurity
在机器学习中提及的 Gini 基尼其实是指基尼杂质 Gini Impurity 或者说是基尼不纯度, 当然也经常被稀里糊涂的称之为基尼系数 Gini index.
在这里, 基尼杂质就是指所有分类的可能错误分类率之和, 按照上面水果的例子来说, 就是上面的算式的结果:
计算基尼杂质的公式就是将所有分类占比 乘以分类错误率 之积叠加:
这里的 J 是指所有可能分类的总数, 即有 J 个种类, 在上面水果分类中 J=3. 这里的 k 表示的是错误贴上去的标签.
我们接下来对这个公式简化一下:
注意:
利用了我们上面说到的;
, 苹果, 香蕉, 樱桃所有种类的可能性之和当然是 1;
最后我们把基尼杂质公式写下来就是:
怎么讲? 还是以 12 水果的例子来看:
与我们上面的方法一致.
属性的基尼杂质
上面我们计算的是系统最终输出的基尼杂质, 下面我们来看一下在上一篇信息增益 - 3 中的女生择偶数据的例子:
"颜值属性" 的基尼杂质怎么计算?
我们从基尼杂质的基本概念出发, 先看颜值高的分类情况:
颜值只有两个类别, 高或低;
共 8 个高颜值, 随机选一个, 选中高的概率;
选到高, 然后随机贴, 50% 概率贴 "嫁", 有 5 个搞错, 那么错误率是
选到高, 然后随机贴, 50% 概率贴 "否", 有 3 个搞错, 那么错误率是
所以高分类的分类错误率是:
我们再看颜值低的分类情况:
共 4 个低颜值, 随机选一个, 选中低的概率;
选到低, 然后随机贴, 50% 概率贴 "嫁", 有 1 个搞错, 那么错误率是
选到高, 然后随机贴, 50% 概率贴 "否", 有 3 个搞错, 那么错误率是
所以总的基尼杂质是:
注意, 基尼杂质越高就代表越容易分类错误, 也就越不好, 所以应该优先选择杂质低的属性作为决策树的上层分类节点.
基尼杂质和 AOC,ROC 指标有着很多相似特性, 后续我们再继续学习.
来源: http://www.jianshu.com/p/95a4f076513c