数据预处理有四种技术: 数据合并, 数据清洗, 数据标准化, 以及数据转换.
数据合并技术:(1) 横向或纵向堆叠合数据 (2) 主键合并数据 (3) 重叠合并数据
1. 堆叠合并数据:
堆叠就是简单的把两个表拼接在一起, 也被称作轴向连接, 绑定, 或连接. 依照连接轴的方向, 数据堆叠可分为横向堆叠和纵向堆叠.
(1) 横向堆叠, 即将两个表在 x 轴向拼接在一起, 可以使用 concat 函数完成. 基本语法为 pandas.concat(). 当两个表索引不完全一样时,
, 可以使用 join 参数选择是内连接还是外连接. 在内连接的情况下, 仅仅返回索引重叠部分; 在外连接的情况下, 则显示索引的并集部分数
据, 不足的地方则使用空值填补. 原理如下:
(2) 纵向堆叠, 是将两个数据表在 y 轴向上拼接. concat 函数和 append 方法两者都可以实现纵向堆叠. 使用 concat 函数时, 默认情况下, 即 axis=0 时, concat 做列对齐, 将不同索引的两张或多张表纵向合并. axis=1 是横向对齐, 将不同列名称的两张或多张表合并. 使用 append 方法有一个前提条件, 就是两张表的列名需要完全一致. 原理如下:
(3) 主键合并数据, 即通过一个或多个键将两个数据集的行连接起来. pandas 库中的 merge 函数和 join 方法都可以实现主键合并. 但是使用 join 方法, 两个主键的名字必须相同, 基本原理如下:
(4) 重叠合并数据: 使用 combine_first() 方法. 基本原理如下:
来源: http://www.bubuko.com/infodetail-2935007.html