腾讯 AI 主管带你深度实践 Spark 机器学习

前言

大数据, 人工智能正在改变或颠覆各行各业, 包括我们的生活. 大数据, 人工智能方面的人才已经供不应求, 但作为人工智能的核心一机器学习, 因涉及的知识和技能比较多, 除了需要具备一定的数学基础, 相关业务知识外, 还要求有比较全面的技术储备, 如操作系统, 数据库, 开发语言, 数据分析工具, 大数据计算平台等, 无形中提高了机器学习的门槛.

如何降低机器学习的门槛, 让更多有志于机器学习, 人工智能的人能更方便或顺畅地使用, 驾驭机器学习?

如何使原本复杂, 专业性强的工作或操作简单化?

封装是一个有效方法. 封装降低了我们操作照相机的难度, 降低了我们维护各种现代设备的成本, 同时也提升了我们使用这些设备的效率. 除封装外, 过程的标准化, 流程化同样是目前现代企业用于提升生产效率, 降低成本, 提高质量的有效方法.

硬件如此, 软件行业同样如此. 目前很多机器学习的开发语言或平台, 正在这些方面加大力度, 比如: 对特征转换, 特征选择, 数据清理, 数据划分, 模型评估及优化等算法的封装; 对机器学习过程的进行流程化, 标准化, 规范化; 给大家比较熟悉的语言或工具提供 API 等方法或措施, 以简化机器学习中间过程, 缩短整个开发周期, 使我们能更从容地应对市场的变化. Spark 在这方面可谓后来居上, 尤其是最近发布的版本, 明显加大了这方面的力度, 我们可以从以下几个方面看出这种趋势:

1)Spark 机器学习的 API, 正在由基于 RDD 过渡到基于 Dataset 或 DatalFrame, 基于 RDD 的 API 在 Spark2.2 后处于维护阶段, Spark3.0 后将停止使用 (来自 Spark 官网);

2) 建议大家使用 Spark ML, 尤其是它的 Pipeline;

3) 增加大量特征选择, 特征转换, 模型选择和优化等算法;

4) 丰富, 增强 Spark 与 Java,Python. R 的 API, 使其更通用.

深度实践 Spark 机器学习

限于平台篇幅原因, 小编只截取了一部分, 为了方便大家更好的阅读, 小编把相关的资料都整理好了, 有感兴趣的朋友可以帮忙转发文章后, 关注私信回复 [学习] 来获取

第 1 章了解机器学习

第 2 章构建 Spark 机器学习系统

第 3 章 ML Pipeline 原理与实战

第 4 章特征

提取, 转换和选择

第 5 章模型选择和优化

第 6 章 Spark MLlib 基础

第 7 章构建 Spark ML 推荐模型

第 8 章构建 Spark ML 分类模型

第 9 章构建 Spark ML 回归模型

第 10 章构建 Spark ML 聚类模型

第 11 章 PySpark 决策树模型

第 12 章 SparkR 朴素贝叶斯模型

第 13 章使用 Spark Streaming 构建在线学习模型

第 14 章 ensorFlowOnSpark 详解

来源: http://www.bubuko.com/infodetail-3327387.html

与本文相关文章

暂无,快来抢沙发吧！