摘要: 本文是该系列内容的第 2 部分内容, 主要介绍人工智能, 机器学习和深度学习三者的差别, 着重介绍机器学习中的有监督学习和无监督学习.
本篇是系列博客的第二部分, 如果没有看过第一部分内容的读者建议阅读一下.
在第 I 部分内容中, 主要是讲解人工智能的历史以及它现在高速发展的原因;
在今天的第 II 部分内容中, 将讨论一下人工智能, 机器学习和深度学习之间的区别;
在第 III 部分中, 将深入研究深度学习以及在为新项目选择数据库时需要评估的关键事项;
在第 V 部分中, 将讨论深度学习为何使用 MongoDB, 并提供相关使用实例;
由于本文内容是第 II 部分内容, 主要介绍人工智能, 机器学习和深度学习之间的区别. 如果读者想快速将四部分的内容全部看完, 可以下载本文的附件.
人工智能, 机器学习和深度学习之间的区别
在很多情况下, 人工智能, 机器学习和深度学习可以互换使用. 但实际上, 机器学习和深度学习都是人工智能的子集. 人工智能作为计算机科学研究领域中的一个分支, 其重点是建立能够具有智能行为的机器, 而机器学习和深度学习则是利用算法筛选数据, 并从数据中学习, 预测或采取自主行动的实践. 因此, 这些算法不需要根据特定的约束进行编程, 而是使用大量数据进行训练, 使其能够独立学习, 推理和执行特定的任务.
那么, 机器学习和深度学习之间存在哪些区别呢? 在定义深度学习之前 (第 III 部分内容), 先深入地理解机器学习吧.
机器学习: 有监督 VS. 无监督
机器学习方法主要分成两大类: 有监督学习和无监督学习.
有监督学习: 目前, 有监督学习是机器学习中最为常用的算法. 在有监督学习的情况下, 相关算法的输入是开发人员和分析人员手动标记的数据, 即有标记的数据, 这些标记就是数据的期望输出值, 使用这些数据来训练模型并生成预测. 监督学习任务又可以分为两大类: 回归和分类问题.
上图演示了一个简单的回归问题. 从图中可以看到, 存在两个输入或特征 (平方英尺和价格), 被用于生成拟合曲线, 并预测未来的房地产价格. 这个模型相当简单, 只考虑了房子的面积这一个特征对房价的影响, 在国内的话, 如果只考虑这房子面积这一个特征就去购买或投资房产的话, 将会闹出笑话. 因此, 一般而言, 考虑的特征越多, 模型会越复杂, 预测也会更加准确.
上图演示了一个有监督分类问题. 使用的数据集是有标记为良性肿瘤和恶性肿瘤的乳腺癌患者. 有监督分类算法试图通过将数据拟合成直线将肿瘤划分为两种不同的类别. 当算法学习好后, 即划分直线确定, 将来的数据可以之间通过这条划分直线来确定患者的肿瘤是良性或恶性. 分类问题导致离散输出, 但不一定限制固定数据集的输出数量, 上图中只有两个离散输出, 但可以有更多分类类别 (1 表示良性, 2 表示恶性, 3 表示待定等).
无监督学习. 在有监督学习的示例中, 可以看到使用的数据集都具有标记 (良性或恶性分类), 数据标记有助于算法确定正确的答案是什么, 进而调整模型参数以使得模型输出尽可能与标记相近. 而在无监督学习中, 数据集是不具有标记的, 需要依赖于算法来发现数据中的结构和模型.
从上图中可以看到, 每个数据点代表的信息不明确, 因此要求算法在不受任何监督的情况下查找数据中存在的结构信息. 图中的无监督学习算法可以确定两个不同的集群, 并在集群之间进行直线分类. 无监督学习广泛应用于新闻, 社会网络分析, 市场分割及银河系周围的天文分析等许多应用案例中.
以上是第 II 部分的全部内容, 在第 III 部分内容中, 将深入介绍深度学习, 以及在为新项目选择数据库时需要评估的关键事项.
作者信息
Mat Keep, 产品营销总监, 目前就职于 MongoDB 团队.
本文由阿里云云栖社区组织翻译.
文章原标题《Deep Learning and the Artificial Intelligence Revolution: Part 2》, 作者: Mat Keep
来源: http://www.jianshu.com/p/48139e90fb59