python 机器学习预测分析核心算法: 惩罚回归算法与集成方法基本特性

参见原书 1.1-1.4 节

一惩罚线性回归模型

基本特性:

1. 训练时间快, 使用训练好的模型进行预测的时间也快

2. 应用于高速交易互联网广告的植入等

3. 解决回归分类问题

最重要的特性:

能明确指出, 哪个变量对预测结果最重要

普通最小二乘法 (ordinary least squares,OLS)-> 惩罚回归方法

(OLS 主要问题: 过拟合)

惩罚回归方法: 使自由度与数据规模问题的复杂度相匹配

核心概念:

1. 特征工程 / 特征提取

选择哪些变量用于对结果的预测

2. 自由度

统计学名词, 当以样本的统计量估计总体的参数时, 样本中独立或能自由变化的自变量的个数

如, 一条直线的自由度为 2, 即需要 2 个独立的参数才能确定唯一的一条直线

表示方式: 与 Y 轴的交点与斜率

利用 2 点确定自由度为 2 的一条直线, 可信度并不高

二集成方法

构建多个不同的预测模型(基学习器), 然后将其输出做某种组合作为最终的输出

某些机器学习算法输出结果不稳定 ->集成方法

通常, 将二元决策树作为基学习器

如, x<5?(y=2):(y=1)

Q: 判断值 5 如何产生? 输出值 y=1,y=2 如何产生?

A: 基于输入数据的二元决策树的训练

关键在于: 如何产生大量的独立预测模型

一种方法投票(自举集成方法 boosting aggregating): 先对训练数据随机取样, 基于随机数据子集进行训练

确定哪些特征作为预测模型的输入?

试错法, 多次迭代

早期阶段, 特征过程阶段:

利用惩罚线性回归模型训练, 提供基本参考: 哪些变量是重要的

核心概念:

1. 基学习器

单个预测模型

2. 问题的复杂度

数据科学家的任务, 如何平衡问题的复杂度预测模型的复杂度和数据集规模, 以获得一个最佳的可部署模型

数据集的规模通常是自由度的倍数关系

因为数据集的规模固定, 需要调整模型的自由度

来源: https://www.cnblogs.com/feinaio2017/p/8504127.html

暂无,快来抢沙发吧！