数据科学简化: 统计学习的关键概念

在本文中, 我将深入探讨数据科学中的统计学习概念.

首先, 我将定义什么是统计学习. 然后, 我们将深入研究统计学习中的关键概念.

什么是统计学习?

根据维基百科, 统计学习理论是从统计学和功能分析领域中提取的机器学习的框架.

机器学习是通过软件应用程序实现的统计学习技术的表现.

这在实践中意味着什么? 统计学习是指能够使我们更好地理解数据的工具和技术. 理解数据是什么意思?

在统计学习的背景下, 有两种类型的数据:

可以直接控制的数据被称为自变量.

无法直接控制的数据被称为因变量.

无法控制的数据, 即因变量需要预测或估计.

更好地理解数据是根据自变量来表示因变量. 让我用一个例子来说明它:

假设我想根据我为电视, 广播和打印分配的广告预算来衡量销售额. 我可以控制可以分配给电视, 广播和打印的预算. 我无法控制的是它们将如何影响销售. 我想用我无法控制的数据 (销售) 作为我可以控制的数据 (广告预算) 的函数.

统计学习揭示隐藏的数据关系. 依赖数据和独立数据之间的关系.

参数和模型

运营管理中著名的商业模式之一是 ITO 模型. 它代表输入 - 转换 - 输出模型. 这些输入经历了一些转换创建一个输出.

统计学习也应用了类似的概念. 有输入数据, 输入数据被转换, 生成输出(需要预测或估计的数据).

转换引擎称为模型. 这些是估算输出的函数.

这个转换是数学上的. 将数学成分添加到输入数据中以估计输出. 这些成分称为参数.

让我们来看一个例子:

是什么决定了一个人的收入? 收入是由一个人的教育和多年的经验决定的. 估计收入的模型可以是这样的: 收入 = c +β0 * 教育 +β1 * 经验

β0 和β1 是表示收入与教育和经验相关的参数.

教育和经验是可控的变量. 这些可控变量具有不同的同义词. 它们被称为自变量. 它们也被称为特征.

收入是无法控制的变量. 它们被称为目标.

训练和测试

当我们准备考试时, 我们该怎么办? 研究, 学习, 接受, 做笔记, 练习, 模拟测试. 这些是学习和准备未知测试的工具.

机器学习也使用类似的学习概念. 数据是有限的, 可用的数据需要谨慎使用. 构建的模型需要进行验证. 验证它的方法如下:

将数据拆分为两部分.

一部分进行训练. 让模型从中学习, 让模型使用数据. 此数据集称为训练数据.

另一部分进行测试. 使用未知的数据对模型进行 "测试". 此数据集称为测试数据.

在竞争性考试中, 如果准备充分, 学习合理, 那么最后的考试成绩也会令人满意. 类似地, 在机器学习中, 如果模型从训练数据中很好地学习, 则它将在测试数据上表现良好.

类似地, 在机器学习中, 一旦在测试数据集上测试了模型, 就会评估模型的性能. 它是根据估计的输出与实际值的接近程度来评估的.

方差和偏差

英国著名统计学家乔治. 博克斯曾引用过:

"All models are wrong, but some are useful."

来源: http://bigdata.51cto.com/art/201908/601483.htm

暂无,快来抢沙发吧！