一, 处理缺失值
pandas 使用浮点值 NaN(Not a Number)来显示缺失值, 并将缺失值称为 NA(not available(不可用)).
NA 常用处理方法:
dropna: 根据每个标签的值是否是缺失数据来筛选轴标签, 并根据允许丢失的数据量来确定阈值.
fillna: 用某些值填充的数据或使用插值方法(如'ffill' 或'bfill').
isnull: 返回表明哪些值是缺失值的布尔值.
notnull:isnull 的反函数.
1, 过滤(data.dropna())
删除包含缺失值的行 (默认):data.dropna() 等价于 data[data.notnull()], 默认会删除包含缺失值的行
通过传入参数方式, 可以
删除所有值均为 NA 的行: data.dropna(how='all')
删除所有值均为 NA 的列 :data.dropna(axis=1,how=all)
保留包含一定数量的观察值的行: data.dropna(thresh=2)
2, 补全(data.fillna())
二, 数据转换
1, 删除
2, 转换
3, 替代
三, 字符串操作
1, 字符串对象方法
2, 正则表达式
3, 向量化字符串函数
来源: http://www.bubuko.com/infodetail-3279876.html