精简版
0
0
0
云栖社区 > 阿里云实时计算 > 博客 > 正文
巴蜀真人 2019-10-30 14:36:40 浏览 1021
大数据
监控
微博
日志
配置
数据仓库
stream
存储
数据存储
日志处理
实时计算
ApacheFlink
计算方案
展开阅读全文
作者: 微博广告数据平台
随着微博业务线的快速扩张, 微博广告各类业务日志的数量也随之急剧增长. 传统基于 Hadoop 生态的离线数据存储计算方案已在业界形成统一的默契, 但受制于离线计算的时效性制约, 越来越多的数据应用场景已从离线转为实时. 微博广告实时数据平台以此为背景进行设计与构建, 目前该系统已支持日均处理日志数量超过百亿, 接入产品线, 业务日志类型若干.
一. 技术选型
相比于 Spark, 目前 Spark 的生态总体更为完善一些, 且在机器学习的集成和应用性暂时领先. 但作为下一代大数据引擎的有力竞争者 - Flink 在流式计算上有明显优势, Flink 在流式计算里属于真正意义上的单条处理, 每一条数据都触发计算, 而不是像 Spark 一样的 Mini Batch 作为流式处理的妥协. Flink 的容错机制较为轻量, 对吞吐量影响较小, 而且拥有图和
来源: https://yq.aliyun.com/articles/723877