日均百亿级日志处理: 微博基于 Flink 的实时计算平台建设

精简版

云栖社区 > 阿里云实时计算 > 博客 > 正文

巴蜀真人 2019-10-30 14:36:40 浏览 1021

大数据

监控

微博

日志

配置

数据仓库

stream

存储

数据存储

日志处理

实时计算

ApacheFlink

计算方案

展开阅读全文

作者: 微博广告数据平台

随着微博业务线的快速扩张, 微博广告各类业务日志的数量也随之急剧增长. 传统基于 Hadoop 生态的离线数据存储计算方案已在业界形成统一的默契, 但受制于离线计算的时效性制约, 越来越多的数据应用场景已从离线转为实时. 微博广告实时数据平台以此为背景进行设计与构建, 目前该系统已支持日均处理日志数量超过百亿, 接入产品线, 业务日志类型若干.

一. 技术选型

相比于 Spark, 目前 Spark 的生态总体更为完善一些, 且在机器学习的集成和应用性暂时领先. 但作为下一代大数据引擎的有力竞争者 - Flink 在流式计算上有明显优势, Flink 在流式计算里属于真正意义上的单条处理, 每一条数据都触发计算, 而不是像 Spark 一样的 Mini Batch 作为流式处理的妥协. Flink 的容错机制较为轻量, 对吞吐量影响较小, 而且拥有图和

来源: https://yq.aliyun.com/articles/723877

与本文相关文章

暂无,快来抢沙发吧！