机器学习基础知识点 Q&A

逻辑回归, Lasco 回归, Ridge 回归和 ElasticNet

Q: 逻辑回归比线性回归好吗? 为什么?

A: 并不能说在任意场景下, 逻辑回归一定会比线性回归好. 由 NFL 定理可知, 如果存在使用 LR 比使用线性回归表现更好的场景, 就一定存在使用线性回归比使用 LR 表现更好的场景.

Q: 介绍一下 Lasco 回归, Ridge 回归和 ElasticNet 和它们之间的异同

A: Lasco 回归使用 L1 正则化, 岭回归使用 L2 正则化, ElasticNet 使用 L1 和 L2 的加权. L1 正则化的好处是可以压缩系数, 能把系数压缩到 0. L2 正则化因为可导, 计算更方便, 表现更加平滑和稳定. L1 和 L2 的加权实际上是一种折中. 在一个特征和另外一个特征相关时, Lasco 通常只选择一个, ElasticNet 往往会两个都选择. 同时也集成了 Ridge 回归的稳定性.

Q: 为什么 L1 能够压缩系数? 为什么 L2 做不到?

A: 我们可以从损失函数, 优化, 以及对数似然等角度去理解.

我们可以从损失函数 L 与某个参数 w 之间的关系与理解. 在没有正则化前, 参数对于损失函数的极值点可能是 w0. 因为正则化项都是在 w=0 处为 0 的非负偶函数. 加入正则化项以后, 无论 w0 大于 0 还是小于 0, 新的极值点都会往 0 更靠近. 然而如果是加入 L1 正则项, 在系数大的时候, 损失函数可能就变成了尖峰状. 若损失函数在 w=0 处本来就为 0, 并且有 | L(w0)|<|w0|. 那么加了 L1 正则项后极小值点就是 0 点了. 这也是系数能被压缩至 0 的条件. 对于 L2 正则化来讲, 0 点附近的值是很小的, 一般 | L(w0)|>|w0|^2, 所以很难把极小值点拖到 0 点处.

从优化的角度上看, 在加了正则项后, 我们需要满足损失函数最小, 同时参数要在正则项构成的区域内. 有正则项的表达式我们能看到 L1 是有角的, L2 是个球. 对于 L1 交点常在坐标轴上, 自然就把一些系数压缩成 0 了.

如果从分布的角度讲. L1 和 L2 实际上是代表了的先验知识. 如果我们认为数据是服从某种分布, 应该在损失函数中加入对数似然, L1 和 L2 就分别对应了 Laplace 分布和高斯分布

Q: 为什么 L2 会更平滑

A: 跟上面解释一样, 加了 L2 正则后, 极值点倾向靠近 0 的小数值, 所以会更平滑.

Q: L1 正则化不可导, 问题如何求解?

A: 近端梯度下降 (Proximal Gradient Descent, PGD)

贝叶斯

Q: 介绍下朴素贝叶斯的原理?

A: 首先, 我们可以定义分类错误的损失, 然后根据样本分类的后验概率得到对样本分类的期望损失, 也就是条件风险. 这样, 我们的分类任何就是要找到一个映射, 来最小化风险. 这样我们就有一个贝叶斯判定准则: 为最小化总体风险, 只要在每个样本选择那个能使条件风险最小的类别标记即可. 对应的分类器就称为贝叶斯最优分类器. 我们可以根据分类的

Q: 朴素贝叶斯的 "朴素" 有什么意义?

A: 因为它假定样本的各个属性是相互独立的. 这样就可以避免直接估计所有属性的联合分布了.

Q: 举个例子描述朴素贝叶斯?

A: 以单词纠正来讲, 我们知道错误的单词 w, 想要知道最可能的正确的单词 c, 也就是要求 P(c|w) 最大. 按照贝叶斯定理, 我们可以通过正确单词的分布 P(c) 和给定正确单词 c 后错误单词 w 的分布 P(w|c) 来计算.

Q: 在朴素贝叶斯中, 如果重复了一个特征, 最发生什么事?

A: 预测的精度会降低. 因为联合概率变小了.

kNN

Q: 简单介绍下 kNN?

A: kNN 就是根据给定测试样本, 基于某种距离度量找出训练集中 k 个与它最近的邻居, 然后基于这 k 个邻居的类别对该样本的类别进行判断.

Q: kNN 有哪些要素?

A: 主要有 K 值的选择, 距离度量和分类决策规则三个要素

K 值选择: 若 K 值大, 偏差小, 但方差大; 若 K 值大, 方差小, 但偏差大. 一般我们通过交叉验证来选取.

距离度量: 距离度量一般有欧式距离, 曼哈顿距离, 和特征中最大值. kNN 的结果对距离十分敏感, 特征一定要归一化.

分类决策规则: 一般有投票法和加权投票法.

另外, 样本的输入顺序, 类初始中心的选取, 也会影响分类结果.

Q: 使用 kNN 有什么需要注意的?

A: K 值和距离度量很重要, 特征一定要归一化

Q: kNN 的搜索过程很慢, 如何优化?

A: 可以使用 KD 树. KD 树通过特征中位数和对维度取模实现划分. 每次划分取方差大的. KD 树是主存数据结构, 用的时候要整个加载进内存

Q: 如何寻找 kNN 的全局最优解?

A: 可以尝试不同的质心初始化, 可以调整迭代次数, 可以去找 K 最佳大小.

Q: 介绍下 kNN 中的距离度量?

A: 一般有闵氏距离, 马氏距离 (Mahalanobis Distance), 巴氏距离 (Bhattacharyya Distance), 相关系数, 等等.

闵氏距离包括欧氏距离, 曼哈顿距离, 切比雪夫距离

马氏距离有不受量纲影响, 尺度变换不变性, 基于卡方分布, 可以用于检测离群点

来源: http://www.jianshu.com/p/06efa13f4254

与本文相关文章

暂无,快来抢沙发吧！