当前位置：

首页
/
IT
/
程序
/
Python
/
Pandas 基本操作

Pandas 基本操作

(1) 读入 CSV 数据集

pd.DataFrame.from_csv("csv_file")

或者:

pd.read_csv("csv_file")

(2) 读入 Excel 数据集

pd.read_excel("excel_file")

(3) 直接把数据写入 CSV

如数据以逗号分隔, 且没有索引:

df.to_csv("data.csv", sep=",", index=False)

(4) 基础数据集特征信息

df.info()

(5) 基础数据集统计结果

print(df.describe())

(6) 以表格形式打印数据

print(tabulate(print_table, headers=headers))

其中 "print_table" 是一列 list,"headers" 是一列字符串抬头

(7) 列出列名称

df.columns

基本数据处理

(8) 删除缺失的数据

df.dropna(axis=0, how='any')

返回给定轴上标签的对象, 逐个丢掉相应数据.

(9) 替换丢失的数据

df.replace(to_replace=None, value=None)

用 "value" 的值替换 "to_replace" 中给出的值.

(10) 检查 NAN

pd.isnull(object)

检测缺失值 (有数值数组中的 NaN, 对象数组中的 None 和 NaN)

(11) 删除特征

df.drop('feature_variable_name', axis=1)

轴为 0 代表行, 1 代表列

(12) 将对象类型转换为 float

pd.to_numeric(df["feature_name"], errors='coerce')

将对象类型转换为数字型以便计算 (如果它们是字符串的话)

(13) 将数据转换为 Numpy 数组

df.as_matrix()

(14) 获取数据的头 "n" 行

df.head(n)

(15) 按特征名称获取数据

df.loc[feature_name]

(16) 将函数应用于数据

这个函数将数据里 "height" 一列中的所有值乘以 2

df["height"].apply(*lambda* height: 2 * height)

或:

def multiply(x):
 return x * 2
df["height"].apply(multiply)

(17) 重命名数据列

这里我们将数据的第 3 列重命名为 "size"

df.rename(columns = {df.columns[2]:'size'}, inplace=True)

(18) 单独提取某一列

df["name"].unique()

(19) 访问子数据

我们从数据中选择 "name" 和 "size" 两列

new_df = df[["name", "size"]]

(20) 总结数据信息

# 数据之和 df.sum()
# 数据中的最小值 df.min()
# 数据中的最大值 df.max()
# 最小值的索引 df.idxmin()
# 最大值的索引 df.idxmax()
# 数据统计信息, 有四分位数, 中位数等 df.describe()
# 平均值 df.mean()
# 中位数值 df.median()

(21) 对数据进行排序

df.sort_values(ascending = False)

(22) 布尔索引

这里我们过滤 "size" 的数据列, 以显示等于 5 的值:

df[df["size"] == 5]

(23) 选择某值

选择 "size" 列的第一行:

df.loc([0], ['size'])

来源: http://www.mzh.ren/pandas-basics.html

与本文相关文章

暂无,快来抢沙发吧！