详解 Kafka: 大数据开发最火的核心技术

大数据时代来临, 如果你还不知道 Kafka 那你就真的 out 了! 据统计, 有三分之一的世界财富 500 强企业正在使用 Kafka, 包括所有 TOP10 旅游公司, 7 家 TOP10 银行, 8 家 TOP10 保险公司, 9 家 TOP10 电信公司等等.

LinkedIn,Microsoft 和 Netflix 每天都用 Kafka 处理万亿级的信息. Kafka 主要应用于实时信息流的大数据收集或者实时分析(或者两者兼有).Kafka 既可以为内存微服务提供持久性服务, 也可以用于向复杂事件流系统和 IoT/IFTTT 式自动化系统反馈事件.

为什么是 Kafka?

Kafka 常用于实时流数据结构的实时分析. 由于 Kafka 是一种快速, 可扩展, 可持久和高容错的发布 - 订阅消息系统 (publish-subscribe messaging system), 所以 Kafka 对于一些 Use Case(有大数据量和高响应需求) 的支持远好于 JMS,RabbitMQ 和 AMQP. 相比于那些工具, Kafka 支持更高的吞吐量, 更高的稳定性和副本 (replication) 特性. 这使得它比传统的 MOM 更加适合跟踪服务调用 (可以跟踪每次调用) 或跟踪 IoT 传感器数据.

Kafka 可以与 Flume/Flafka,Spark Streaming,Storm,HBase,Flink 以及 Spark 配合使用, 用于实时获取, 分析和处理流数据. Kafka 可以为 Hadoop 大数据湖 (Hadoop BigData lake) 提供数据流. Kafka Broker 支持在 Hadoop 或 Spark 中低延时地处理和分析海量信息流. 此外, Kafka 子项目 KafkaStreaming 可用于实时分析.

什么是 Kafka Use Case?

简而言之, Kafka 用于流处理, 网站活动跟踪, 度量收集和监视, 日志聚合, 实时分析, CEP, 将数据注入 Spark 和 Hadoop,CQRS, 重放消息, 错误恢复以及分布式提交内存计算 (微服务) 的日志.

来源: http://www.jianshu.com/p/855bc5ef4819

与本文相关文章

暂无,快来抢沙发吧！