摘要: 本文简单总结了机器学习的几大任务及其对应的方法, 方便初学者根据自己的任务选择合适的方法. 当掌握机器学习基本知识以及清楚自己所要处理的任务后, 应用机器学习就不会那么难了.
机器学习一直是一个火热的研究领域, 深度学习方法的提出又为这个领域添了一把火, 使得很多人对该领域感兴趣并想投身于该领域的研究之中. 那么, 对于想从事机器学习领域的人来说, 有哪些是应该首先了解的内容呢? 本文将简单的介绍下机器学习的基本相关知识.
机器学习是指使计算机系统使用统计技术学习数据的过程, 而不需要具体的编程程序. 该方法是一个主动学习的算法, 使得它能够从数据中学习并进行预测. 机器学习与计算统计, 数学优化以及数据学习密切相关, 通常被用来进行预测, 分析等任务. 机器学习一般用于处理两类任务:
有监督学习: 输入给计算机的示例带有标签 (期望输出), 基于标签调整建立的模型, 以学习输入到输出的映射规则.
无监督学习: 输入给计算机的示例没有标签, 建立的模型必须通过自身学习产生输出. 无监督学习涉及到从数据中发现隐藏的模式, 包含特征学习.
机器学习这个术语对于大多非该领域的人来说听起来很高级, 但其实不然. 只要你清楚机器学习的基本概念以及相关方法后, 机器学习其实很简单, 即根据相关任务, 选择合适的机器学习方法, 让机器学习并处理特征以完成相应的任务. 因此, 在学习和应用机器学习之前, 我们首先应该明确自己的任务是什么, 以及适合使用哪种机器学习方法来完成.
如果我们想了解算法背后的基本理论以及其工作原理, 那么精通概率与统计, 线性代数和微积分对我们而言显得至关重要. 此外, 了解诸如 Python 等编程语言将使你能够容易得实现相关算法, 理论基础与编程能力二者在手, 机器学习我有. 此外, 理解相关的数学知识和应用也是很有必要的, 无论是通过线下自学或者是网络在线培训等学习方法, 都必须实践, 实践可以增加自己对基本知识的理解, 同时也能锻炼其编程能力.
在学习机器学习之前, 掌握以下知识是很有必要的:
1, 线性代数
2, 微积分
3, 概率论
4, 程序设计
5, 最优化理论
下面是一些最常见的机器学习任务以及相关方法, 对其理解后方便在后续工程中应用.
回归
回归主要涉及连续变量或数值变量的估计, 比如估计房价, 股票价格, 产品价格等使用回归估计. 即根据相关的数据建立回归曲线, 对新的数据进行预测估计. 以下机器学习方法用于解决回归问题:
核回归 (Kernel regression)
支持向量回归 (Support vector regression)
高斯过程回归 (Gaussian process regression)
线性回归 (Linear regression)
LASSO 回归 (Least absolute shrinkage and selection operator)
回归树 (Regression tree)
分类
分类与离散变量或数据类别的预测有关. 比如区分垃圾邮件, 病人患有哪种疾病, 交易是否属于欺诈行为等任务, 都是使用分类方法处理的. 以下方法可以用于解决分类问题:
核判别分析 (Kernel discriminant analysis)
人工神经网络 (Artificial neural networks)
K 邻近算法 (K-nearests neighbors)
Boosted trees
随机森林 (Random forests)
逻辑回归 (Logistic regression)
支持向量机 (Support vector machine)
深度学习 (Deep learning)
朴素贝叶斯 (Naive Bayes)
决策树 (Decision trees)
聚类
聚类一般应用于数据自然分组. 比如产品特征识别, 客户细分等任务都是聚类的一些应用场景. 以下机器学习方法用于聚类问题:
均值漂移 (Mean-shift)
K - 均值 (K-means)
主题模型 (Topic models)
层次聚类 (Hierarchical clustering)
多元查询
多元查询是用来寻找相似目标. 下面的方法可用于解决与多元查询有关的问题:
近邻取样 (Nearest neighbors)
最远邻居 (Farthest neighbors)
范围搜索 (Range search)
降维
降维是指降低多个随机变量的维度, 将其分为特征提取和特征选择. 常用的降维方法如下:
流线学习方法 / 核主成分分析 (Manifold learning/KPCA)
独立分量分析 (Independent component analysis)
主成分分析 (Principal component analysis)
非负矩阵分解 (Non-negative matrix factorization)
压缩感知 (Compressed sensing)
高斯图模型 (Gaussian graphical models)
来源: http://www.jianshu.com/p/21d2a4e34aab