当前位置：

首页
/
IT
/
ELK初体验-Nginx日志实时分析

ELK初体验-Nginx日志实时分析

写在前面

从初次了解elastic产品到正式投入使用，拖拖拉拉的也有小半年了，刚接触看到一些帖子都是安装教程，后来看到一些都是深入教程，此篇文章比较居中一点，总结了我在踩的一些坑和记录一些周边插件的使用方式、方法，便于自己后续回顾，也希望能给新用户一些引导，少走一些弯路；核心其实是想表达一下对rockybean和KennyW的爱，这期间非常感谢两位的协助，在非工作日深夜排查问题多次，正文多处采用二位给予的讲解，万分感谢。

ElasticSearch简介

基于Lucene构建的分布式，RESTful搜索和分析引擎;
实时搜索、分析，稳定，可靠，快速；
JAVA编写，开源，使用JSON开源通过HTTP来索引数据；

项目介绍

历史：
由前同事工作交接，原有一套ES1.7集群，但是经常jvm跑满导致集群不可用，没有ES调优经验，甚至没有使用经验，从零了解ES，过度版本ES5.3~5.6；
背景：
日志源主要是Nginx访问日志，由于Nginx是集群，相应的日志分布落在每台机器上，当对整体日志做一些故障排查、逻辑分析等，因数据分散且量很大，通过脚本已经不能做分析处理，为对Nginx日志做全文搜索、分析，实时监控等，所以开始了解ELK及相关组件；
数据量：
每天6-7T，Doc在100亿左右

架构图

第一部分：日志收集（Nginx + Rsyslog）

采用Nginx内置的syslog模块，每台机器启用本地的rsyslog，通过UDP方式传输本地的514端口（Rsyslog），然后Rsyslog在将数据转发至Kafka;
选型比较：日志收集有很多种方式，如flume、filebeat、lua脚本等，但是这些组件都需要安装客户端以及文件配置。简单对比过Rsyslog和其他区别，首先syslog对于一个更改相对灵活，JSON日志与落地日志毫无干系（目前是两份格式：人肉读取的本地日志格式，机器读取JSON网络传输格式），日志输出直接通过网络传输走（网络消耗很低）不受本地磁盘影响，对不同的server_name或location等可以灵活的修改日志格式，总之控制权在Nginx手里，Nginx的维护同学就可以自定义源数据格式，管理成本相对较低；

Rsyslog配置（双打Kafka）现有的版本是0.8，而刚开始测试的用logstash5.x需要kafka0.10（最终hangout替换logstash），所以新搭建了一组新的集群，Rsyslog想日志写入2份，配置如下

Module (load="imudp")
Module (load="omkafka")
Input (type="imudp" port="514")
Module (load="mmsequence")
$MaxMessageSize 4k
 
local5.none /var/log/messages
local5.none @log.58dns.org:514
set $!newmsg = replace($msg,'\\x','\\u00')
 
template(name="kafka_topic" type="string" string="%programname%")
template(name="kafka_msg" type="string" string="%!newmsg%")
if ($syslogfacility-text == 'local5' and $syslogseverity-text == 'info') then{
 
action(type="omkafka" topic="kafka_topic" partitions.auto="on"
dynatopic="on" dynatopic.cachesize="1000"
confParam=["compression.codec=snappy"]
#kafka broker addr
broker=["10.10.10.1:9092","10.10.10.2:9092",]
template="kafka_msg"
errorfile="/var/log/omkafka/log_kafka_failures.log")
 
action(type="omkafka" topic="kafka_topic" partitions.auto="on"
dynatopic="on" dynatopic.cachesize="1000"
confParam=["compression.codec=snappy"]
#kafka broker addr
broker=["20.20.20.1:9092","20.20.20.2:9092",]
template="kafka_msg"
errorfile="/var/log/omkafka/log_kafka_failures.log")
 
stop
}

配置Nginx JSON格式日志

log_format json_format  '{"@timestamp":"$time_iso8601",'
        '"cookie_id":"$cookie_id",' #内部cookie_id
        '"client_ip":"$remote_addr",'
        '"remote_user":"$remote_user",'
        '"request_method":"$request_method",'
        '"domain":"$host",'
        '"user_agent":"$http_user_agent",'
        '"xff":"$http_x_forwarded_for",'
        '"upstream_addr":"$upstream_addr",'
        '"upstream_response_time":"$upstream_response_time",'
        '"request_time":"$request_time",'
        '"size":"$body_bytes_sent",'
        '"idc_tag":"tjtx",'
        '"cluster":"$host_pass",'
        '"status":"$status",'
        '"upstream_status":"$upstream_status",'
        '"host":"$hostname",'
        '"via":"$http_via",'
        '"protocol":"$scheme",'
        '"request_uri":"$request_uri",'
        '"http_referer":"$http_referer"}';

Nginx内置 syslog模块配置

access_log syslog:local5:info:127.0.0.1:514:nginx_aggregation_log json_format;
#nginx_aggregation_log   这是自定义的Topic

注:

1) UDP传输虽快，但是以太网(Ethernet)数据帧的长度必须在46-1500字节之间，UDP不能像TCP重组TCP包，去除IP和UDP的数据包，最终可使用只剩1472字节。如果传输大于这个长度的消息，并不会想UDP本身一样直接丢弃，只是会损坏源数据格式，截断超过限制字节以外的数据;

2) 对于Nginx日志来说，只要不保留POST数据，基本一条消息不会超过限制字节，我在NginxSyslog介绍中没看到支持TCP，用lua脚本实现的TCP方式传输，但是看了很多帖子都不建议在Nginx中用TCP日志传输。就是因为TCP传输可靠，但像网络抖动、传输异常，可能会不停的重试多次或等待，直接影响这条请求，也直接影响到了用户；

3) 消息超过了UDP传输限制怎么办，我这目前是保留一条消息的重要字段，如上述的json_format的格式，将 request_uri、http_referer等可能会较大的字段放到最后，如果真的发现消息不完整，直接丢弃http_referer，取request_uri问号前的内容；（在logstash或hangout中filters实现，具体配置详见下文Hangout-filters）

NginxSyslog模块介绍

第二部分-存储中间件（Kafka）

Kafka性能很强，顺序写入磁盘，高吞吐量的分布式发布订阅消息系统
Kfaka一直不是瓶颈，也没太多深入优化，Topic数据保留了12小时，副本为1
针对不同的Topic，对Partition的数量有稍微改变，目前是5台服务器，之前简单测过增加Partition的性能，从8、16、32、64增加来看，明显情况就是Partition增加，CPU使用也会随之增加，因为kafka本身不是病情，所以其他我没测试到明显问题；
目前这边最大的Topic是一天近5T数据，64Partition没有任何问题，部分小的Topic都是16Partitio，Kafka整个集群的CPU空闲都在80%以上，内存、IO均无压力，这边的kafka团队有个建议值，供大家参考:【每天数据规模小于50G选择4分区、50G且小于100G选择8分区、大于100G且小于500G选择16分区、大于500G，选择24分区】
Kafka监控插件：kafka-monitor和kafka-manager

注：

目前我们这kakfa集群是kafka_2.10-0.8.1.1版本，但是logstash5.x对kafka有版本要求>0.10版本。后来采用hangout，更换了几个jar，解决此问题

第三部分-数据搬运工（Hangout）

模仿 logstash 做的一个应用，功能没有logstash多，但是基本使用都有了，java编写，性能可以翻好几倍，用到的功能就是从kafka订阅消息，做一些简单的过滤，然后写入ES；目前hangout部署到2台服务器上，每个进程开8G内存，CPU在60-70左右;

inputs:
   - Kafka:
    topic: 
        nginx_aggregation_log: 32
    codec: 
        json
    consumer_settings:
        group.id: es-nginx-58_nginx_aggregation
        zookeeper.connect: "10.10.10.1:2181,10.10.10.2:2181"
        auto.commit.interval.ms: "20000"
        socket.receive.buffer.bytes: "1048576"
        fetch.message.max.bytes: "1048576"
        num.consumer.fetchers: "1"
filters:
   - Filters:
   if:
        - '<#if message??>true</#if>' 
        #如果不是完整的JSON，会出现message,则走此逻辑
   filters:
       - Grok:
           match:
             - '(?<msg>{"@timestamp":.*"request_uri":([^\?]+)\?)'
             #正则匹配@timestamp开始到request_uri后边的第一个？截止
       - Gsub:
           fields:
               msg: ['$','"}']
               #补全符号，完整新的JSON格式
       - Json:
           field: msg
           remove_fields: ['message'] 
           #干掉错误的数据
- Convert:
    fields:
        request_time:
            to: float
            remove_if_fail: true
        upstream_response_time:
            to: float
            remove_if_fail: true
        size:
            to: integer
            remove_if_fail: true
- GeoIP2:
    source: client_ip
    database: '/opt/soft/hangout/etc/other/GeoLite2-City.mmdb'
    - Json:
         field: geoip
- Remove:
        fields:
            - msg
- Add:
       fields:
          request_url: '<#assign a=request_uri?split("?")>${a[0]}'
          #request_uri这个term的cardinality很高，所以?前用于聚合，原有的用于搜索
       if:
         - '<#if request_uri??>true</#if>'
outputs:
- Elasticsearch:
cluster: es-nginx
timezone: "Asia/Shanghai"
hosts: "10.10.10.1:9300,10.10.10.2:9300"
index: 'hangout-nginx_aggregation_log-%{ YYYY.MM.dd}'

Hangout进程管理工具（supervisord）
主要是守护hangout进程，在web界面对hangout进行启、停、重启等操作

topic: nginx_aggregation_log: 32，这个32代表需要建立多少子线程去kafka读取数据，数量最好与Partition相等，如果少于Partition，会一个线程同时去2个Partition读取消息，若大于Partition则会有不工作的进程

第四部分-Elasticsearch（后面简称ES）

硬件环境
CPU:32C，内存:128G ，硬盘：STAT 6T * 12，网卡：万兆
软件环境：
【系统】： Centos7 内核3.10 【JDK】：1.8.0_66/31G (据说此版本JDK有BUG，请安装最新JDK) 【系统参数修改1】: vm.swappiness=1 [降低对硬盘的缓存] 【系统参数修改2】: vm.max_map_count=262144 [Elasticsearch针对各种文件使用NioFS和MMapFS的混合。以便有足够的虚拟内存可用于mmapped文件]

ES配置文件

cluster.name: es-nginx
node.name: 10.10.10.1 
 
#为后期冷热数据使用
node.attr.rack_id: hdd 
path.data: /data 
path.logs: /opt/logs/elasticsearch/
network.host: 0.0.0.0 
http.port: 9200
 
#设置新节点被启动时能够发现的主节点列表
discovery.zen.ping.unicast.hosts: ["10.10.10.1","10.10.10.2","10.10.10.3"]
 
#防止脑裂（n/2+1）
discovery.zen.minimum_master_nodes: 2
node.master: true
node.data: false

ES跳入的第一坑：node.master与node.data同时服务
刚刚开始测试ES的第一个版本是ES5.3,先搞了3台机器，每个机器一个节点，配置是master和data共同服务，高可用架构集群搭建完成，但是写入性能特别差,cpu使用在20-30%,少量io.wait，下图是当时3w左右的性能图当时觉得既然ES硬件很空闲一定是logstash出问题了，查看logstash确实有很严重的Full GC,开始从2台服务器扩至4台服务器，后来发现无果，期间各种调整ES的shard的数量都没效果，又怀疑kafka性能，从2、4、6、8...64分区依旧无果。当时这个坑可爬了一段时间，后来在Google的游荡中无意中看到帖子说，不要将master和data都启用，然后我照着做了改变，master单点，data两台，问题搞定，效果图找不到了，起码翻倍是有的； [Master除了网卡，其他没什么消耗]

template 因shard数量、字段类型都是在创建时生成，所以要提前创建好相应的模板保持规范管理，首先针对shard做的调整,还有 aliases 提前设置，如下：

{
    "template": "agg-nginx-*",
    "aliases": {
        "agg-nginx": {}
    },
    "settings": {
        "number_of_shards": 4,
        "number_of_replicas": 1,
        "index.routing.allocation.include.rack_id": "ssd"
    }

通过上述配置PUT到 _template/ur_name下在分片上的定义已经成功，但是像agg-nginx- 和test-agg-test- 这样的2个索引名字，即使你创建了另一个"template": "agg-nginx-test-*"的模板依旧都匹配第一个，当然换名字最简单，但是template的order的是专门解决这个问题的

默认创建"order": "0"，值越高优先级越高，所以在想要先匹配的将order值调高即可

mapping

ES的mapping非常类似于静态语言中的数据类型：声明一个变量为int类型的变量， 以后这个变量都只能存储int类型的数据。同样的， 一个number类型的mapping字段只能存储number类型的数据。
同语言的数据类型相比，mapping还有一些其他的含义，mapping不仅告诉ES一个field中是什么类型的值， 它还告诉ES如何索引数据以及数据是否能被搜索到
下列是一个删减版的mapping

"mappings": {
    "ngx_log": {
        "_all": {
            "enabled": false
        },
        "properties": {
            "@timestamp": {
                "type": "date"
            },
            "client_ip": {
                "type": "ip"
            },
            "domain": {
                "type": "keyword"
            },
            "geoip": {
                "properties": {
                    "city_name": {
                        "type": "keyword"
                    },
                    "country_name": {
                        "type": "keyword"
                    },
                    "latitude": {
                        "type": "float"
                    },
                    "location": {
                        "type": "geo_point"
                    },
                    "longitude": {
                        "type": "float"
                    },
                }
            },
 
            "request_time": {
                "type": "float"
            },
            "request_url": {
                "type": "keyword"
            },
            "status": {
                "type": "keyword"ype ": "keyword "
   },
   
 }
   }
 }"

_all 该_all字段是一个特殊的catch-all字段，它将所有其他字段的值连接成一个大字符串，使用空格作为分隔符，然后对其进行分析和索引，但不存储。也就是说它能被查询，但不能被取回显示。

因为Nginx每个Key对应的value都是提前定义好的，所以不用全文查询，不需要开启_all字段，另外也节省了一半的存储空间

默认的text类型

![图片描述][15]上边这英文有点多，其实简单理解就是不分词，你就最好别用text了，而且Text类型也会相应的多占用空间，依照上述，数据主要是日志分析，每条数据的格式已经很明确，主要用于日志分析，所以不需要分词。像一些所有引擎的业务更适合需要分词；

比如说像这个字段，get_ip中location这个字段类型默认text，但是如果不指定geo_point类型，根本无法使用地图功能，类型的指定是很重要的
向request_time这样的数据类型需要做计算，比如说平均值、和、大于、小于等等的，默认的text也能使用，但是效率远远小于float类型
字段类型有很多种，什么IP啊、DATE啊等等，根据相应的需要去官网查看详解吧，mapping-types介绍

.es(index = index1, timefield = @timestamp).label('Today').title(QPS).color(#1E90FF),
.es(offset = -24h, index = index2, timefield = @timestamp).label('Yesterday').lines(fill = 1, width = 0.5).color(gray)

来源: http://www.tuicool.com/articles/qy6FFrA

与本文相关文章

暂无,快来抢沙发吧！