机器学习是一种数据分析技术, 让计算机执行人和动物与生俱来的活动: 从经验中学习机器学习算法使用计算方法直接从数据中学习信息, 而不依赖于预定方程模型当可用于学习的样本数量增加时, 这些算法可自适应提高性能
一.机器学习为什么那么重要?
随着大数据应用增加, 机器学习已成为解决以下领域问题的一项关键技术:
. 1. 计算金融学, 用于信用评估和算法交易
. 2. 图像处理和计算机视觉, 用于人脸识别运动检测和对象检测
. 3. 计算生物学, 用于肿瘤检测药物发现和 DNA 序列分析
. 4. 能源生产, 用于预测价格和负载
. 5. 汽车航空航天和制造业, 用于预见性维护
. 6. 自然语言处理, 用于语音识别应用
更多数据更多问题更好的解答
机器学习算法能够在产生洞察力的数据中发现自然模式, 帮助你更好地制定决策和做出预测医疗诊断股票交易能量负荷预测及更多行业每天都在使用这些算法制定关键决策例如, 媒体网站依靠机器学习算法从数百万种选项中筛选出为你推荐的歌曲或影片零售商利用这些算法深入了解客户的购买行为
何时应该使用机器学习?
当你遇到涉及大量数据和许多变量的复杂任务或问题, 但没有现成的处理公式或方程式时, 可以考虑使用机器学习例如, 如果你需要处理以下情况, 使用机器学习是一个很好的选择:
二.机器学习的工作原理:
机器学习采用两种技术: 监督式学习和无监督学习监督式学习根据已知的输入和输出训练模型, 让模型能够预测未来输出; 无监督学习从输入数据中找出隐藏模式或内在结构
监督式学习:
监督式机器学习能够根据已有的包含不确定性的数据建立一个预测模型监督式学习算法接受已知的输入数据集 (包含预测变量) 和对该数据集的已知响应(输出, 响应变量), 然后训练模型, 使模型能够对新输入数据的响应做出合理的预测如果你尝试去预测已知数据的输出, 则使用监督式学习
监督式学习采用分类和回归技术开发预测模型
分类技术可预测离散的响应 例如, 电子邮件是不是垃圾邮件, 肿瘤是恶性还是良性的分类模型可将输入数据划分成不同类别典型的应用包括医学成像语音识别和信用评估
如果你的数据能进行标记分类或分为特定的组或类, 则使用分类例如, 笔迹识别的应用程序使用分类来识别字母和数字在图像处理和计算机视觉中, 无监督模式识别技术用于对象检测和图像分割
用于实现分类的常用算法包括: 支持向量机 (SVM)提升 (boosted) 决策树和袋装 (bagged) 决策树
k - 最近邻
朴素贝叶斯 (Naïve Bayes)判别分析逻辑回归和神经网络
回归技术可预测连续的响应 例如, 温度的变化或电力需求中的波动典型的应用包括电力系统负荷预测和算法交易
如果你在处理一个数据范围, 或你的响应性质是一个实数(比如温度, 或一件设备发生故障前的运行时间), 则使用回归方法
常用回归算法包括: 线性模型非线性模型规则化逐步回归提升 (boosted) 和袋装 (bagged) 决策树神经网络和自适应神经模糊学习
小例子: 使用监督式学习预测心脏病发作
假设临床医生希望预测某位患者在一年内是否会心脏病发作他们有以前就医的患者的相关数据, 包括年龄体重身高和血压他们知道以前的患者在一年内是否出现过心脏病发作因此, 问题在于如何将现有数据合并到模型中, 让该模型能够预测新患者在一年内是否会出现心脏病发作
无监督学习:
无监督学习可发现数据中隐藏的模式或内在结构这种技术可根据未做标记的输入数据集得到推论
聚类是一种最常用的无监督学习技术这种技术可通过探索性数据分析发现数据中隐藏的模式或分组聚类分析的应用包括基因序列分析市场调查和对象识别
例如, 如果移动电话公司想优化他们手机信号塔的建立位置, 则可以使用机器学习来估算依赖这些信号塔的人群数量一部电话一次只能与一个信号塔通信, 所以, 该团队使用聚类算法设计蜂窝塔的最佳布局, 优化他们的客户群组或集群的信号接收
用于执行聚类的常用算法包括:
k - 均值和 k - 中心点
(k-medoids)层次聚类高斯混合模型隐马尔可夫模型自组织映射模糊 c - 均值聚类法和减法聚类
如何确定使用哪种机器学习算法?
选择正确的算法看似难以驾驭需要从几十种监督式和无监督机器学习算法中选择, 每种算法又包含不同的学习方法
没有最佳方法或万全之策找到正确的算法只是试错过程的一部分即使是经验丰富的数据科学家, 也无法说出某种算法是否无需试错即可使用但算法的选择还取决于你要处理的数据的大小和类型你要从数据中获得的洞察力以及如何运用这些洞察力
下面是选择监督式或者无监督机器学习的一些准则:
. 1. 在以下情况下选择监督式学习: 你需要训练模型进行预测 (例如温度和股价等连续变量的值) 或者分类(例如根据网络摄像头的录像片段确定汽车的技术细节)
. 2. 在以下情况下选择无监督学习: 你需要深入了解数据并希望训练模型找到好的内部表示形式, 例如将数据拆分到集群中
三.MATLAB 机器学习:
你如何借助机器学习的力量, 使用数据做出更好的决策? MATLAB 让机器学习简单易行借助用于处理大数据的工具和函数, 以及让机器学习发挥作用的应用程序, MATLAB 是将机器学习应用于你的数据分析的理想环境
使用 MATLAB, 工程师和数据科学家可以立即访问预置的函数大量的工具箱以及用于分类回归和聚类的专门应用程序
MATLAB 可以做到:
. 1. 比较各种方法, 例如逻辑回归分类树支持向量机集成方法和深度学习
. 2. 使用模型精化和缩减技术创建能够最好地捕捉预测能力的精确模型
. 3. 将机器学习模型集成到企业系统集群和云中, 并且将模型定位于实时嵌入式硬件
. 4. 为嵌入式传感器分析工具执行自动代码生成
. 5. 支持从数据分析到部署的集成工作流程
来源: http://click.aliyun.com/m/43021/