一, 需求
1, 对于所有任务产生的实时数据, 通过 Kafka 及时推送.
2, 对于新加任务需要去历史全量数据表中获取该任务已有的历史数据.
3, 爬虫集群在生产数据时需要去全量数据中进行下匹配, 如果不存在才会推送给 Kafka.
二, 架构设计图
Kafka+MySQL 架构设计
三, 结语
欢迎相关人员一起交流.
来源: http://www.jianshu.com/p/be7ef1e723cc