今天, 让我们来谈谈线性回归没错, 作为数据科学界元老级的模型, 线性回归几乎是所有数据科学家的入门必修课抛开涉及大量数统的模型分析和检验不说, 你真的就能熟练应用线性回归了么? 未必!
宝刀不老的线性回归
时至今日, 深度学习早已成为数据科学的新宠即便往前推 10 年, SVMboosting 等算法也能在准确率上完爆线性回归
为什么我们还需要线性回归呢?
一方面, 线性回归所能够模拟的关系其实远不止线性关系线性回归中的线性指的是系数的线性, 而通过对特征的非线性变换, 以及广义线性模型的推广, 输出和特征之间的函数关系可以是高度非线性的另一方面, 也是更为重要的一点, 线性模型的易解释性使得它在物理学经济学商学等领域中占据了难以取代的地位
那么, 如何用 Python 来实现线性回归呢?
由于机器学习库 scikit-learn 的广泛流行, 常用的方法是从该库中调用 linear_model 来拟合数据虽然这可以提供机器学习的其他流水线特征 (例如: 数据归一化, 模型系数正则化, 将线性模型传递到另一个下游模型) 的其他优点, 但是当一个数据分析师需要快速而简便地确定回归系数 (和一些基本相关统计量) 时, 这通常不是最快速简便的方法
下面, 我将介绍一些更快更简洁的方法, 但是它们所提供信息量和建模的灵活性不尽相同
8 种方法实现线性回归
方法一: Scipy.polyfit( ) or numpy.polyfit( )
这是一个最基本的最小二乘多项式拟合函数(least squares polynomial fit function), 接受数据集和任何维度的多项式函数(由用户指定), 并返回一组使平方误差最小的系数这里给出函数的详细描述对于简单的线性回归来说, 可以选择 1 维函数但是如果你想拟合更高维的模型, 则可以从线性特征数据中构建多项式特征并拟合模型
方法二: Stats.linregress( )
这是一个高度专业化的线性回归函数, 可以在 SciPy 的统计模块中找到然而因为它仅被用来优化计算两组测量数据的最小二乘回归, 所以其灵活性相当受限因此, 不能使用它进行广义线性模型和多元回归拟合但是, 由于其特殊性, 它是简单线性回归中最快速的方法之一除了拟合的系数和截距项之外, 它还返回基本统计量, 如 R2 系数和标准差
方法三: Optimize.curve_fit( )
这与 Polyfit 方法是一致的, 但本质上更具一般性这个强大的函数来自 scipy.optimize 模块, 可以通过最小二乘最小化将任意的用户自定义函数拟合到数据集上
对于简单的线性回归来说, 可以只写一个线性的 mx + c 函数并调用这个估计函数不言而喻, 它也适用于多元回归, 并返回最小二乘度量最小的函数参数数组以及协方差矩阵
方法四: numpy.linalg.lstsq
这是通过矩阵分解计算线性方程组的最小二乘解的基本方法来自 numpy 包的简便线性代数模块在该方法中, 通过计算欧几里德 2 - 范数 |" b-ax||2 最小化的向量 x 来求解等式 ax = b
该方程可能有无数解唯一解或无解如果 a 是方阵且满秩, 则 x(四舍五入)是方程的精确解
你可以使用这个方法做一元或多元线性回归来得到计算的系数和残差一个小诀窍是, 在调用函数之前必须在 x 数据后加一列 1 来计算截距项这被证明是更快速地解决线性回归问题的方法之一
方法五: Statsmodels.OLS ( )
Statsmodels 是一个小型的 Python 包, 它为许多不同的统计模型估计提供了类和函数, 还提供了用于统计测试和统计数据探索的类和函数每个估计对应一个泛结果列表可根据现有的统计包进行测试, 从而确保统计结果的正确性
对于线性回归, 可以使用该包中的 OLS 或一般最小二乘函数来获得估计过程中的完整的统计信息
一个需要牢记的小技巧是, 必须手动给数据 x 添加一个常数来计算截距, 否则默认情况下只会得到系数以下是 OLS 模型的完整汇总结果的截图结果中与 R 或 Julia 等统计语言一样具有丰富的内容
方法六和七: 使用矩阵的逆求解析解
对于条件良好的线性回归问题 (其中, 至少满足数据点个数> 特征数量), 系数求解等价于存在一个简单的闭式矩阵解, 使得最小二乘最小化由下式给出:
这里有两个选择:
(a)使用简单的乘法求矩阵的逆
(b)首先计算 x 的 Moore-Penrose 广义伪逆矩阵, 然后与 y 取点积由于第二个过程涉及奇异值分解(SVD), 所以它比较慢, 但是它可以很好地适用于没有良好条件的数据集
方法八: sklearn.linear_model.LinearRegression( )
这是大多数机器学习工程师和数据科学家使用的典型方法当然, 对于现实世界中的问题, 它可能被交叉验证和正则化的算法如 Lasso 回归和 Ridge 回归所取代, 而不被过多使用, 但是这些高级函数的核心正是这个模型本身
八种方法效率比拼
作为一名数据科学家, 应该一直寻找准确且快速的方法或函数来完成数据建模工作如果模型本来就很慢, 那么会对大数据集造成执行瓶颈
简单矩阵逆求解的方案更快
作为数据科学家, 我们必须一直探索多种解决方案来对相同的任务进行分析和建模, 并为特定问题选择最佳方案
在本文中, 我们讨论了 8 种简单线性回归的方法大多数都可以扩展到更一般化的多元和多项式回归建模中
本文的目标主要是讨论这些方法的相对运行速度和计算复杂度我们在一个数据量持续增加的合成数据集 (最多达 1000 万个样本) 上进行测试, 并给出每种方法的运算时间
令人惊讶的是, 与广泛被使用的 scikit-learnlinear_model 相比, 简单矩阵的逆求解的方案反而更加快速
via: 人工智能爱好者俱乐部
来源: https://juejin.im/post/5a7d0d62f265da4e90169f1a