在机器学习中,可以通过 python 对数据进行获取与读写操作.通过以下代码可轻松实现:
import pandas 不用说了,使用 Python 做数据处理需要装好 pandas, numpy 和 scipy 等几个包.
import pandas as pd
df = pd.read_csv('./data/train.csv')
label = df['TARGET']
df = df.drop(['ID','TARGET'], axis=1)
df = pd.read_csv('./data/train.csv')
是读取数据集,
label = df['TARGET']
是将数据集中的标签即分类结果单独取出来放到 label 中.
df = df.drop(['ID', 'TARGET'], axis = 1)
是删除不需要的特征,ID 是数据集的顺序,本身并不带有信息量,TARGET 之前我们已经放到 label 里面了,都可以去掉.使用 pandas 中的 drop 方法,axis=1 就是把整列去掉
来源: http://www.jianshu.com/p/7fcff8c6b6ad