参考
进入,创建 project(注意:首次使用的用户需要申请开通)
Docker 官方说明了在不同操作系统下安装 Docker 的方法,您可以查看。
在阿里云 ECS 上,以 CentOS 7.2 为例,安装方式如下:
- sudo yum install docker
- sudo systemctl enable docker
- sudo systemctl start docker
以 web 服务器 Nginx 的日志采集为例,假设 Nginx 的日志在服务器的路径为 / var/www/all.log,日志样例如下所示:
- 192.168.1.6 - - [10/Feb/2017:10:51:09 +0800] "GET /ubuntu.iso HTTP/1.0" 0.000 129 404 168 "-" "Wget/1.11.4 Red Hat modified"
运行如下的命令,配置其中 ACCESS_ID,ACCESS_KEY, DATAHUB_PROJECT,MAXCOMPUTE_PROJECT 和 MAXCOMPUTE_TABLE 等必要的参数,即可启动日志采集插件的 docker 镜像,实现将指定的日志按行导入 Datahub,并自动归档到 MaxCompute 的表中。
- docker run - v /
- var / www: /var/www: ro - e DATA_COLLECTOR_TYPE = classic - e ACCESS_ID = {
- YOUR_ACCESS_ID
- } - e ACCESS_KEY = {
- YOUR_ACCESS_KEY
- } - e DATAHUB_PROJECT = {
- YOUR_DATAHUB_PROJECT
- } - e MAXCOMPUTE_PROJECT = {
- YOUR_MAXCOMPUTE_PROJECT
- } - e MAXCOMPUTE_TABLE = {
- YOUR_MAXCOMPUTE_TABLENAME
- } - e DATA_FILE_PATH = /var/www / . * .log registry.cn - hangzhou.aliyuncs.com / aliyun_maxcompute / data_collectors: 1.0
该日志采集插件会监控所指定的日志文件,不断地将新增的日志上传,在正常情况下,Datahub 的 project 里会自动创建一个名为 maxcompute_data_collect_topic 的 topic,MaxCompute 的 project 中会自动创建指定名字的表,表的 schema 如下所示:
- +------------------------------------------------------------------------------------+
- | Native Columns: |
- +------------------------------------------------------------------------------------+
- | Field | Type | Label | Comment |
- +------------------------------------------------------------------------------------+
- | line | string | | |
- +------------------------------------------------------------------------------------+
- | Partition Columns: |
- +------------------------------------------------------------------------------------+
- | pt | string | |
- +------------------------------------------------------------------------------------+
在 docker 镜像跑起来后,日志数据就源源不断地导入 MaxCompute 的表中了,数据默认会按照采集的时间按天进行分区。例如我们想知道 20170210 这天 192.168.1.6 这个 ip 的访问次数可以简单的用下面的 SQL 完成。
- select count(*) from YOUR_MAXCOMPUTE_TABLENAME where pt = '20170210' and instr(line, '192.168.1.6') > 0;
更多复杂的分析,可以通过编写 UDF 或者 MR 作业来完成,可以参考了解更多。
来源: