不输给名词! 特征工程基本概念

机器学习

基本概念:

人工智能 > 机器学习 > 深度学习

机器学习:

机器学习是从数据中自动分析获得规律 (模型), 并利用规律对未知数据进行预测.

根据用户喜好信息, 智能推荐商品 (淘宝首页推荐)

分析客服问答模型, 替代人工客服 (JD 客服)

分析客户信用数据, 计算信贷额度 (蚂蚁金服)

特征

对于人类个体而言姓名, 年龄, 性别, 都是其自身的特征

特征值, 目标值

判定男女

特征值 (已知的): 身高, 体重, 头发长度, 体征 (很多)

目标值 (未知的): 男, 女

样本

如果对全班学生成绩进行分析, 一个学生就是一个样本

特征工程:

特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程，从而提高了对未知数据的预测准确性

特征抽取
特征预处理
特征降维

1. 特征抽取

1.1 字典特征抽取: 万能的 0 和 1 之字典特征抽取 (one-hot 编码)

1.2 文本特征抽取: 对自然语言进行情感分析 (CountVectorizer, TfidfVectorizer)

one-hot 编码 (字典, 列表类型均可)
机器会将所有样本中, 出现过的特征统统列举出来, 然后每个样本挨个比对所有特征, 如果存在对应的特征则取 1, 不存在则取 0

one-hot

from sklearn.feature_extraction.text import CountVectorizer
import jieba
# 肖申克影评
xsk_text = """
豆瓣有人问，为啥肖申克评价这么高？他是不是只是从一个满是泥泞的臭水沟的监牢逃出而已？其实救赎是对自己的破茧成蝶，每个人眼前都有一个模版，一个完美的人的样子，很美，很有灵魂，很有姿态，得到很多人爱。为什么自己总是做不好，自己总是不美？自己总是如此多的陋习？但是最后这一个人还是只能从自己的茧里面冲破而出，或许学会了飞，或许意境忘了怎么飞，但这个速度的快慢不会影响最早的结果，最终你还是要学会怎么从丑陋变得自信和自强～ 接受一个事实，在某个层面上，在三维时空看起来，蝴蝶都是一样的美，蝴蝶其实根本上长得一样～
"""
# 中文分词
xsk = jieba.cut(xsk_text)
xsk_list = [x for x in xsk]
# 实例化文本特征抽取
countvec = CountVectorizer()
# 填充并转换数据
data = countvec.fit_transform(xsk_list)
# 打印抽取的特征名
print(countvec.get_feature_names())
# 将数据以类one_hot编码方式展示
print(data.toarray())

2. 特征预处理

通过特定的统计方法（数学方法）将数据转换成算法要求的数据

2.1 归一化

将某一列类型的数据, 缩放到特定的范围 (一般为缩放到 0 至 1 之间), 相当于把满分为 100 分转换成满分为 1 分, 原来百分制能考 95 分, 现在只能算作 0.95 分

原始数据	归一化后
[0, 0, 10]	[0, 0, 0]
[3, 3, 13]	[0.3, 0.15, 0.3]
[5, 5, 15]	[0.5, 0.25, 0.5]
[8, 8, 18]	[0.8, 0.4, 0.8]
[10, 20, 20]	[1, 1, 1]

from sklearn.preprocessing import MinMaxScaler
# 创建实例
mm = MinMaxScaler()
# 原始数据
lee = [[0, 0, 10], [3, 3, 13], [5, 5, 15], [8, 8, 18], [10, 20, 20]]
# 为实例填充并转换数据
data = mm.fit_transform(lee)
# 打印转换后的结果
print(data)

归一化

缺点: 如果最大值过大或最小值过小异常, 就容易影响准确性

2.2 标准化

通过对原始数据进行变换, 把数据变换到均值为 0, 方差为 1 范围内

rom sklearn.preprocessing import StandardScaler
# 标准化实例化对象
std = StandardScaler()
# 创建数据
lee = [[0, 0, 10], [3, 3, 13], [5, 5, 15], [8, 8, 18], [10, 20, 20]]
# 填充并转换数据
data = std.fit_transform(lee)
# 打印转换后的数据
print(data)

均值为 0, 方差小于等于 1

填充缺失值

import numpy as np
from sklearn.preprocessing import Imputer
# 实例化填补缺失值的对象
imp = Imputer(missing_values="NaN",strategy="mean", axis=0)
# 创建存在缺失值的数据
lee = [[np.nan, 8, 4],[8, 9, np.nan], [2, 8, 1]]
# 填充并转换数据
data = imp.fit_transform(lee)
# 打印转换结果
print(data)

填补缺失值

3. 数据降维

3.1 特征选择: 将某些低于特定方差的特征值过滤掉 (特征较少时采用)

from sklearn.feature_selection import VarianceThreshold
def var():
    """
    数据降维
    """
    var_thr = VarianceThreshold()
    # 第一列和第四列数据方差均为0, 会被消除
    lee = [
        [0, 2, 0, 10],
        [0, 1, 400, 10],
        [0, 1, 100, 10]]
    data = var_thr.fit_transform(lee)
    # 默认降维效果
    print("消除方差为0的特征列之后:")
    print(data)
    # 实例化variancethreshold,消除方差小于10的特征列
    var_thr2 = VarianceThreshold(threshold=10)
    # 填充并转换数据
    data2 = var_thr2.fit_transform(lee)
    # 打印结果
    print("消除方差小于10的特征列之后:")
    print(data2)
if __name__ == '__main__':
    var()

过滤式降维

3.2 主成分分析 (PCA)

特征较多时采用

用低维度表示高维度, 例如用二维的照片表现出三维世界的立体感 (尽可能损失较少的信息)

from sklearn.decomposition import PCA
def my_pca():
    lee = [[10, 15, 20, 25],
           [11, 16, 21, 26],
           [20, 25, 30, 35]]
    # n_components为整数时,表示结果保留的特征数量, n_components为小数时,表示保留的特征信息的百分比
    i_pca = PCA(n_components=2)
    data1 = i_pca.fit_transform(lee)
    print("保留两个特征的结果为:")
    print(data1)
    f_pca = PCA(n_components=0.95)
    data2 = f_pca.fit_transform(lee)
    print("保留95%信息的结果为:")
    print(data2)
if __name__ == '__main__':
    my_pca()

PCA

来源: http://www.jianshu.com/p/c7ba2524ff2e

与本文相关文章

暂无,快来抢沙发吧！