祎休 2019-04-01 14:59:12 浏览 59 评论 1
云栖社区
消息队列
日志
配置
测试
Image
数据同步
离线分析
MaxCompute
摘要: 通过 DataWorks 归档日志服务数据至 MaxCompute
通过 DataWorks 归档日志服务数据至 MaxCompute
官方指导文档: https://help.aliyun.com/document_detail/68322.html
但是会遇到大家在分区上或者 DataWorks 调度参数配置问题, 具体拿到真实的 case 模拟如下:
创建数据源:
步骤 1 进入数据集成, 点击作业数据源, 进入 Tab 页面.
步骤 2 点击右上角
新增数据源, 选择消息队列 loghub.
步骤 3 编辑 LogHub 数据源中的必填项, 包括数据源名称, LogHub
Endpoint,Project,AK 信息等, 并点击 测试连通性.
创建目标表:
步骤 1 在左侧 tab 也中找到临时查询, 并右键 > 新建 ODPS SQL 节点.
步骤 2 编写建表 DDL.
步骤 3 点击
执行 按钮进行创建目标表, 分别为 ods_client_operation_log,ods_vedio_server_log,ods_web_tracking_log.
步骤 4 直到日志打印成本, 表示三条 DDL 语句执行完毕.
步骤 5 可以通过 desc 查看创建的表.
其他两张表也可以通过 desc 进行查询. 确认数据表的存在情况.
创建数据同步任务
数据源端以及在 DataWorks 中的数据源连通性都已经配置好, 接下来就可以通过数据同步任务进行采集数据到 MaxCompute 上.
操作步骤
步骤 1 点击
新建业务流程 并 确认提交, 名称为 直播日志采集.
步骤 2 在业务流程开发面板中依次创建如下依赖并命名.
依次配置数据同步任务节点配置: web_tracking_log_syn,client_operation_log_syn,vedio_server_log_syn.
步骤 3 双击
web_tracking_log_syn 进入节点配置, 配置项包括数据源 (数据来源和数据去向), 字段映射 (源头表和目标表), 通道控制.
根据采集的时间窗口自定义参数为:
当然其消费点位也可以按照自定义设置 5 分钟调度一次, 从 00:00 到 23:59,startTime=$[yyyymmddhh24miss-10/24/60] 系统前 10 分钟到
endTime=$[yyyymmddhh24miss-5/24/60] 系统前 5 分钟时间 (注意与上图消费数据定位不同), 那么应该配置为 ds=[yyyymmdd-5/24/60],hr=[hh24-5/24/60],min=[mi-5/24/60].
步骤 4 可以点击高级运行进行测试.
可以分别手工收入自定义参数值进行测试.
步骤 3 使用 SQL 脚本确认是否数据已经写进来. 如下图所示:
日志服务的日志正式的被采集入库, 接下来就可以进行数据加工.
比如可以通过上述来统计热门房间, 地域分布和卡顿率, 如下所示:
具体 SQL 逻辑不在这里展开, 可以根据具体业务需求来统计分析. 依赖关系配置如上图所示.
欢迎入群进行产品资料获取以及获取帮助:
来源: https://yq.aliyun.com/articles/696219