4.1RDD 的算子分类
? ?? ???Transformation(转换): 根据数据集创建一个新的数据集, 计算后返回一个新 RDD; 例如: 一个 rdd 进行 map 操作后生了一个新的 rdd.
Action(动作): 对 rdd 结果计算后返回一个数值 value 给驱动程序;
例如: collect 算子将数据集的所有元素收集完成返回给驱动程序.
4.2Transformation
RDD 中的所有转换都是延迟加载的, 也就是说, 它们并不会直接计算结果. 相反的, 它们只是记住这些应用到基础数据集 (例如一个文件) 上的转换动作. 只有当发生一个要求返回结果给 Driver 的动作时, 这些转换才会真正运行. 这种设计让 Spark 更加有效率地运行.
常用的 Transformation:
4.3Action
来源: http://www.bubuko.com/infodetail-3202724.html