基于 sklearn 的分类器实战

已迁移到我新博客, 阅读体验更佳基于 sklearn 的分类器实战 https://brooksj.com/2019/05/23/classifiers/

完整代码实现见 GitHub:click me

一, 实验说明

1.1 任务描述

1.2 数据说明

一共有十个数据集, 数据集中的数据属性有全部是离散型的, 有全部是连续型的, 也有离散与连续混合型的. 通过对各个数据集的浏览, 总结出各个数据集的一些基本信息如下:

连续型数据集:

diabets(4:8d-2c)
 mozilla4(6:5d-2c)
 pc1(7:21d-2c)
 pc5(8:38d-2c)
 waveform-5000(9:40d-3c)

离散型数据集:

1. breast-w(0:9d-2c-?)

离散 - 连续混合型数据集:

colic(1:22d-2c-?)
 credit-a(2:15d-2c-?)
 credit-g(3:20d-2c)
 hepatitis(少量离散属性)(5:19d-2c-?)

举一个例子说明, colic(1:22d-2c-?)对应 colic 这个数据集, 冒号前面的 1 表示人工标注的数据集序号(在代码实现时我是用序号来映射数据集的),22d 表示数据集中包含 22 个属性, 2c 表示数据集共有 3 种类别,'?'表示该数据集中含有缺失值, 在对数据处理前需要注意.

二, 数据预处理

由于提供的数据集文件格式是 weka 的. arff 文件, 可以直接导入到 weka 中选择各类算法模型进行分析, 非常简便. 但是我没有借助 weka 而是使用 sklearn 来对数据集进行分析的, 这样灵活性更大一点. 所以首先需要了解. arff 的数据组织形式与结构, 然后使用 numpy 读取到二维数组中.

具体做法是过滤掉. arff 中'%'开头的注释, 对于'@'开头的标签, 只关心'@attribute'后面跟着的属性名与属性类型, 如果属性类型是以'{}'围起来的离散型属性, 就将这些离散型属性映射到 0,1,2......, 后面读取到这一列属性的数据时直接用建好的映射将字符串映射到数字. 除此之外就是数据内容了, 读完一个数据集的内容之后还需要检测该数据集中是否包含缺失值, 这个使用 numpy 的布尔型索引很容易做到. 如果包含缺失值, 则统计缺失值这一行所属类别中所有非缺失数据在缺失属性上各个值的频次, 然后用出现频次最高的值来替换缺失值, 这就完成对缺失值的填补. 具体实现可以参见 preprocess.py 模块中 fill_miss 函数.

三, 代码设计与实现

实验环境:

python 3.6.7
configparser 3.7.4
scikit-learn 0.20.2
numpy 1.15.4
matplotlib 3.0.3

各个分类器都要用到的几个模块在这里做一个简要说明.

交叉验证: 使用 sklearn.model_selection.StratifiedKFold 对数据作分层的交叉切分, 分类器在多组切分的数据上进行训练和预测

AUC 性能指标: 使用 sklearn.metrics.roc_auc_score 计算 AUC 值, AUC 计算对多类 (二类以上) 数据属性还需提前转换成 one hot 编码, 使用了 sklearn,preprocessing.label_binarize 来实现, 对于多分类问题选择 micro-average

数据标准化: 使用 sklearn.preprocessing.StandardScaler 来对数据进行归一标准化, 实际上就是 z 分数

3.1 朴素贝叶斯 Naive Bayes

由于大部分数据集中都包含连续型属性, 所以选择 sklearn.naive_bayes.GaussianNB 来对各个数据集进行处理

clf = GaussianNB()
skf = StratifiedKFold(n_splits=10)
skf_accuracy1 = []
skf_accuracy2 = []
n_classes = np.arange(np.unique(y).size)
for train, test in skf.split(X, y):
    clf.fit(X[train], y[train])
    skf_accuracy1.append(clf.score(X[test], y[test]))
    if n_classes.size < 3:
        skf_accuracy2.append(roc_auc_score(y[test], clf.predict_proba(X[test])[:, 1],               average='micro'))
    else:
        ytest_one_hot = label_binarize(y[test], n_classes)
        skf_accuracy2.append(roc_auc_score(ytest_one_hot, clf.predict_proba(X[test]),               average='micro'))
accuracy1 = np.mean(skf_accuracy1)
accuracy2 = np.mean(skf_accuracy2)