基本概念:
人工智能 > 机器学习 > 深度学习
机器学习:
机器学习是从数据中自动分析获得规律 (模型), 并利用规律对未知数据进行预测.
- 根据用户喜好信息, 智能推荐商品 (淘宝首页推荐)
- 分析客服问答模型, 替代人工客服 (JD 客服)
- 分析客户信用数据, 计算信贷额度 (蚂蚁金服)
特征
对于人类个体而言姓名, 年龄, 性别, 都是其自身的特征
特征值, 目标值
判定男女
- 特征值 (已知的): 身高, 体重, 头发长度, 体征 (很多)
- 目标值 (未知的): 男, 女
样本
如果对全班学生成绩进行分析, 一个学生就是一个样本
特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程,从而提高了对未知数据的预测准确性
- from sklearn.feature_extraction.text import CountVectorizer
- import jieba
- # 肖申克影评
- xsk_text = """
- 豆瓣有人问,为啥肖申克评价这么高?他是不是只是从一个满是泥泞的臭水沟的监牢逃出而已?其实救赎是对自己的破茧成蝶,每个人眼前都有一个模版,一个完美的人的样子,很美,很有灵魂,很有姿态,得到很多人爱。为什么自己总是做不好,自己总是不美?自己总是如此多的陋习?但是最后这一个人还是只能从自己的茧里面冲破而出,或许学会了飞,或许意境忘了怎么飞,但这个速度的快慢不会影响最早的结果,最终你还是要学会怎么从丑陋变得自信和自强~ 接受一个事实,在某个层面上,在三维时空看起来,蝴蝶都是一样的美,蝴蝶其实根本上长得一样~
- """
- # 中文分词
- xsk = jieba.cut(xsk_text)
- xsk_list = [x for x in xsk]
- # 实例化文本特征抽取
- countvec = CountVectorizer()
- # 填充并转换数据
- data = countvec.fit_transform(xsk_list)
- # 打印抽取的特征名
- print(countvec.get_feature_names())
- # 将数据以类one_hot编码方式展示
- print(data.toarray())
通过特定的统计方法(数学方法)将数据转换成算法要求的数据
将某一列类型的数据, 缩放到特定的范围 (一般为缩放到 0 至 1 之间), 相当于把满分为 100 分转换成满分为 1 分, 原来百分制能考 95 分, 现在只能算作 0.95 分
原始数据 | 归一化后 |
---|---|
[0, 0, 10] | [0, 0, 0] |
[3, 3, 13] | [0.3, 0.15, 0.3] |
[5, 5, 15] | [0.5, 0.25, 0.5] |
[8, 8, 18] | [0.8, 0.4, 0.8] |
[10, 20, 20] | [1, 1, 1] |
- from sklearn.preprocessing import MinMaxScaler
- # 创建实例
- mm = MinMaxScaler()
- # 原始数据
- lee = [[0, 0, 10], [3, 3, 13], [5, 5, 15], [8, 8, 18], [10, 20, 20]]
- # 为实例填充并转换数据
- data = mm.fit_transform(lee)
- # 打印转换后的结果
- print(data)
缺点: 如果最大值过大或最小值过小异常, 就容易影响准确性
- rom sklearn.preprocessing import StandardScaler
- # 标准化实例化对象
- std = StandardScaler()
- # 创建数据
- lee = [[0, 0, 10], [3, 3, 13], [5, 5, 15], [8, 8, 18], [10, 20, 20]]
- # 填充并转换数据
- data = std.fit_transform(lee)
- # 打印转换后的数据
- print(data)
- import numpy as np
- from sklearn.preprocessing import Imputer
- # 实例化填补缺失值的对象
- imp = Imputer(missing_values="NaN",strategy="mean", axis=0)
- # 创建存在缺失值的数据
- lee = [[np.nan, 8, 4],[8, 9, np.nan], [2, 8, 1]]
- # 填充并转换数据
- data = imp.fit_transform(lee)
- # 打印转换结果
- print(data)
- from sklearn.feature_selection import VarianceThreshold
- def var():
- """
- 数据降维
- """
- var_thr = VarianceThreshold()
- # 第一列和第四列数据方差均为0, 会被消除
- lee = [
- [0, 2, 0, 10],
- [0, 1, 400, 10],
- [0, 1, 100, 10]]
- data = var_thr.fit_transform(lee)
- # 默认降维效果
- print("消除方差为0的特征列之后:")
- print(data)
- # 实例化variancethreshold,消除方差小于10的特征列
- var_thr2 = VarianceThreshold(threshold=10)
- # 填充并转换数据
- data2 = var_thr2.fit_transform(lee)
- # 打印结果
- print("消除方差小于10的特征列之后:")
- print(data2)
- if __name__ == '__main__':
- var()
- 特征较多时采用
用低维度表示高维度, 例如用二维的照片表现出三维世界的立体感 (尽可能损失较少的信息)
- from sklearn.decomposition import PCA
- def my_pca():
- lee = [[10, 15, 20, 25],
- [11, 16, 21, 26],
- [20, 25, 30, 35]]
- # n_components为整数时,表示结果保留的特征数量, n_components为小数时,表示保留的特征信息的百分比
- i_pca = PCA(n_components=2)
- data1 = i_pca.fit_transform(lee)
- print("保留两个特征的结果为:")
- print(data1)
- f_pca = PCA(n_components=0.95)
- data2 = f_pca.fit_transform(lee)
- print("保留95%信息的结果为:")
- print(data2)
- if __name__ == '__main__':
- my_pca()
来源: http://www.jianshu.com/p/c7ba2524ff2e