这一篇, 我们来学习如何处理和操作数据:
1.Map
Map 方法适用于序列数据, 所以在我们的栗子中将用它来转变数据框的某列, 当我们觉得类别的名字太长了, 我们想要将它替换, 这个时候我们便可以使用 Map 函数:
我们在 Class 的这一列运行了 Map 函数对原来的字符串进行了替换.
2.Apply
我们继续用 iris_data 的数据, 给这个数据新增一列, 即花瓣宽度超过平均值的时候, 我们判定它为宽花瓣, 用 1 来表示, 否则用 0 来表示:
首先计算得到 Petal Width 的平均值:
接下来我们开始为其进行分类:
以上是在列上使用 apply, 下面, 我们看如何在数据框上使用:
这里要注意 axis=1 是对行进行操作, 因为我们是对这个数据框操作, 所以我们要加上这个条件才能继续执行.
3.Applymap
当我们想对数据框整体进行操作时, 我们便可以使用这个函数:
这行代码表示, 我们在数据框上调用了 applymap 函数, 如果某个值是 float 类型, 那么就返回该值的对数, 因此, 我们可以将 applymap 视为根据一定的条件标准来转变或者格式化每一个单元.
4.Groupby
基于某些你所选择的类别对数据进行分组:
系统按照类别对数据进行了划分, 并提供了每个特征的均值.
用. describe() 来获得全部的统计信息
groupby 是难点也是重点, 在以后遇到的时候也会着重在博客中记录一下思路以及做法!
来源: http://www.bubuko.com/infodetail-2775403.html