(1) 读入 CSV 数据集
pd.DataFrame.from_csv("csv_file")
或者:
pd.read_csv("csv_file")
(2) 读入 Excel 数据集
pd.read_excel("excel_file")
(3) 直接把数据写入 CSV
如数据以逗号分隔, 且没有索引:
df.to_csv("data.csv", sep=",", index=False)
(4) 基础数据集特征信息
df.info()
(5) 基础数据集统计结果
print(df.describe())
(6) 以表格形式打印数据
print(tabulate(print_table, headers=headers))
其中 "print_table" 是一列 list,"headers" 是一列字符串抬头
(7) 列出列名称
df.columns
基本数据处理
(8) 删除缺失的数据
df.dropna(axis=0, how='any')
返回给定轴上标签的对象, 逐个丢掉相应数据.
(9) 替换丢失的数据
df.replace(to_replace=None, value=None)
用 "value" 的值替换 "to_replace" 中给出的值.
(10) 检查 NAN
pd.isnull(object)
检测缺失值 (有数值数组中的 NaN, 对象数组中的 None 和 NaN)
(11) 删除特征
df.drop('feature_variable_name', axis=1)
轴为 0 代表行, 1 代表列
(12) 将对象类型转换为 float
pd.to_numeric(df["feature_name"], errors='coerce')
将对象类型转换为数字型以便计算 (如果它们是字符串的话)
(13) 将数据转换为 Numpy 数组
df.as_matrix()
(14) 获取数据的头 "n" 行
df.head(n)
(15) 按特征名称获取数据
df.loc[feature_name]
(16) 将函数应用于数据
这个函数将数据里 "height" 一列中的所有值乘以 2
df["height"].apply(*lambda* height: 2 * height)
或:
- def multiply(x):
- return x * 2
- df["height"].apply(multiply)
(17) 重命名数据列
这里我们将数据的第 3 列重命名为 "size"
df.rename(columns = {df.columns[2]:'size'}, inplace=True)
(18) 单独提取某一列
df["name"].unique()
(19) 访问子数据
我们从数据中选择 "name" 和 "size" 两列
new_df = df[["name", "size"]]
(20) 总结数据信息
- # 数据之和 df.sum()
- # 数据中的最小值 df.min()
- # 数据中的最大值 df.max()
- # 最小值的索引 df.idxmin()
- # 最大值的索引 df.idxmax()
- # 数据统计信息, 有四分位数, 中位数等 df.describe()
- # 平均值 df.mean()
- # 中位数值 df.median()
(21) 对数据进行排序
df.sort_values(ascending = False)
(22) 布尔索引
这里我们过滤 "size" 的数据列, 以显示等于 5 的值:
df[df["size"] == 5]
(23) 选择某值
选择 "size" 列的第一行:
df.loc([0], ['size'])
来源: http://www.mzh.ren/pandas-basics.html