在本章中, 我们将讨论如何将 Apache Kafka 与 Spark Streaming API 集成.
关于 Spark
Spark Streaming API 支持实时数据流的可扩展, 高吞吐量, 容错流处理. 数据可以从注入 Kafka,Flume,Twitter 等许多源中提取, 并且可以使用复杂的算法来处理. 例如地图, 缩小, 连接和窗口等高级功能. 最后, 处理的数据可以推送到文件系统, 数据库和活动仪表板. 弹性分布式数据及 (RDD) 是 Spark 的基本数据结构. 它是一个不可变的分布式对象集合. RDD 中的每个数据集划分为逻辑分区, 可以在集群的不同节点上计算.
与 Spark 集成
Kafka 是 Spark 流式传输的潜在消息传递和集成平台. Kafka 充当实时数据流的中心枢纽. 并使用 Spark Streaming 中的复杂算法进行处理. 一旦数据被处理, Spark Streaming 可以将结果发布到另一个 Kafka 主题或存储在 HDFS, 数据库或仪表板中, 下图描述概念流程.
来源: http://www.bubuko.com/infodetail-2943070.html