前言
在介绍了数据挖掘的一般流程, 常用方法, 应用功能和数据可视化之后, 在本篇博文中, 笔者想要分享一些在数据挖掘开始之前要做的一些事 -- 数据预处理. 在第二部分中, 笔者整理了数据挖掘中的十大经典算法, 与读者们共享. 两部分分别从《数据挖掘中数据预处理的方法与技术》一文与网络中引用而来, 作为自己和读者朋友们的学习笔记. 在第三部分阶段小结中, 笔者对近期的学习进行了阶段性的总结.
一, 数据预处理
现实中数据大多数都是不完整, 不一致的, 无法直接进行数据挖掘, 或直接影响了挖掘结果. 为了提高数据挖掘质量和数据挖掘效率, 产生了数据预处理技术. 对数据进行预处理, 不但可以节约大量的空间和时间而且得到的挖掘结果能更好地起到决策和预测作用. 数据预处理一般包括: 数据清理, 数据集成, 数据变换, 数据归约等方法. 这些数据预处理技术根据数据挖掘项目的需要和原始数据的特点, 在数据挖掘之前有选择的单独使用或综合使用, 可大大提高数据挖掘模式的质量, 降低实际挖掘所需要的时间. 数据预处理技术整理如下:
1, 数据清理
数据清理是数据预处理中最花费时间, 最乏味的, 但也是最重要的一步. 该步骤可以有效地减少学习过程中可能出现相互矛盾的情况. 数据清理主要处理缺失数据, 噪声数据, 识别, 删除孤立点. 数据清理的基本方法有:
(1)缺失数据处理: 目前最常用的方法是使用最可能的值填充缺失值, 比如可以用回归, 贝叶斯形式化方法工具或判定树归纳等确定缺失值. 这类方法依靠现有的数据信息来推测缺失值, 使缺失值有更大的机会保持与其他属性之间的联系. 还有其他一些方法来处理缺失值, 如用一个全局常量替换缺失值, 使用属性的平均值填充缺失值或将所有元组按某些属性分类, 然后用同一类中属性的平均值填充缺失值. 如果缺失值很多, 这些方法可能误导挖掘结果. 如果缺失值很少, 可以忽略缺失数据.
来源: http://www.jianshu.com/p/de9445776b63