MongoDB Oplog 详解
Oplog 概念
Oplog 是用于存储 MongoDB 数据库所有数据的操作记录的 (实际只记录增删改和一些系统命令操作, 查是不会记录的), 有点类似于 MySQL 的 binlog 日志.
Oplog 的存在极大地方便了 MongoDB 副本集的各节点的数据同步, MongoDB 的主节点接收请求操作, 然后在 Oplog 中记录操作, 次节点异步地复制并应用这些操作.
Oplog 的默认储存大小
对于 unix 系统和 Windows 系统
Storage Engine | Default Oplog Size | Lower Bound | Upper Bound |
---|---|---|---|
In-Memory Storage Engine https://docs.mongodb.com/manual/core/inmemory/ | 5% of physical memory | 50 MB | 50 GB |
WiredTiger Storage Engine https://docs.mongodb.com/manual/core/wiredtiger/ | 5% of free disk space | 990 MB | 50 GB |
MMAPv1 Storage Engine https://docs.mongodb.com/manual/core/mmapv1/ | 5% of free disk space | 990 MB | 50 GB |
Oplog 存储在 local 库的 oplog.rs 集合里面. 对于一般的线上环境来说, 默认的 Oplog 值就已经足够了. 当达到储存大小的日志时, 新的记录会将老的记录覆盖.
但是我们系统中如果存在以下操作的话, 那么我们就可能需要设置更大的 Oplog 值来避免数据的丢失 (在副本集中数据同步过程):
一次更新多个文件
删除与插入同样数量的数据
大量地更新现有的数据
从 MongoDB 4.0 开始, Oplog 可以超过其配置的大小限制, 以避免删除
一旦 mongod 第一次创建了 Oplog , 更改 --oplogSize 选项将不会影响 Oplog 的大小. 使您可以动态调整 Oplog 的大小, 而无需重新启动该过程.
Oplog 常用命令
查看 Oplog 的状态: rs.printReplicationInfo()
- fymongodb:PRIMARY> rs.printReplicationInfo()
- configured oplog size: 15000MB
- log length start to end: 7437secs (2.07hrs)
- oplog first event time: Thu Apr 11 2019 09:40:31 GMT+0800 (CST)
- oplog last event time: Thu Apr 11 2019 11:44:28 GMT+0800 (CST)
- now: Thu Apr 11 2019 11:44:35 GMT+0800 (CST)
如何查看当前的 Oplog 存储设置的大小: db.oplog.rs.stats().maxSize
- fymongodb:PRIMARY> use local
- fymongodb:PRIMARY> db.oplog.rs.stats().maxSize
- NumberLong("15728640000")
查看 Oplog 最大大小和现在占用的大小, 以及记录时长和时间 :db.getReplicationInfo()
- fymongodb:PRIMARY> db.getReplicationInfo()
- {
- "logSizeMB" : 15000,
- "usedMB" : 0.09,
- "timeDiff" : 7797,
- "timeDiffHours" : 2.17,
- "tFirst" : "Thu Apr 11 2019 09:40:31 GMT+0800 (CST)",
- "tLast" : "Thu Apr 11 2019 11:50:28 GMT+0800 (CST)",
- "now" : "Thu Apr 11 2019 11:50:29 GMT+0800 (CST)"
- }
更改副本集成员的 Oplog 大小, 更改的值要大于等于 990MB, 这里设置为 1500MB : db.adminCommand({replSetResizeOplog: 1, size: 15000})
- fymongodb:PRIMARY> db.adminCommand({replSetResizeOplog: 1, size: 15000})
- {
- "ok" : 1,
- "operationTime" : Timestamp(1554953918, 1),
- "$clusterTime" : {
- "clusterTime" : Timestamp(1554953918, 1),
- "signature" : {
- "hash" : BinData(0,"AAAAAAAAAAAAAAAAAAAAAAAAAAA="),
- "keyId" : NumberLong(0)
- }
- }
- }
- # 如果我们通过上面命令更改了 Oplog 的大小, 系统是不会自动回收原始分配给 Oplog 的磁盘空间, 我们需要使用 compact 来回收, 在操作 compact 命令时, 副本集成员是无法进行同步数据的. 建议在进行回收的时候, 不要对数据库进行写入, 我们可以通过 rs.stepDown() 来关闭所有打开的连接.
- use local
- db.runCommand({ "compact" : "oplog.rs" })
- # 执行报错的话 :"will not run compact on an active replica set primary as this is a slow blocking operation. use force:true to force"
- db.runCommand({ "compact" : "oplog.rs" ,"force":true})
Oplog 日志 解析
Oplog 的值是储存在 local 库下的 集合 oplog.rs 里的. 我们可以分析其中的一条日志, 看到到底记录了写什么.
- # 获取日志
- use local
- db.polog.rs.find()
- # 日志内容
- {
- "ts" : Timestamp(1554948714, 1), "t" : NumberLong(7), "h" : NumberLong("5670178969026212077"), "v" : 2, "op" : "i", "ns" : "djx.a", "ui" : UUID("f0a8c38d-af6b-4fb1-a109-775455dd7f19"), "wall" : ISODate("2019-04-11T02:11:54.602Z"), "o" : {
- "_id" : ObjectId("5caea26adebe94533fdb42a9"), "name" : "youju"
- }
- }
Oplog 的日志由 key value 组成.
ts 的值: 表示该日志的时间戳
op 的值: i 表示 insert ,u 表示 update, d 表示 delete, c 表示的是 db cmd, db 表示声明当前数据库 (其中 ns 被设置成为 => 数据库名称 + '.'), n 表示 noop,, 即空操作, 其会定期执行以确保时效性
ns 的值: 表示操作所在的数据库和集合.
ui 的值: 表示当前登录用户的会话 id 值.
wall 的值: 表示该操作的执行时间, utc 时间.
o 的值: 表示操作的内容, 如果是插入, 就会将插入的数据放到该位置. 示例日志就是插入了一条数据 {"name":"youju"}
来源: https://www.cnblogs.com/operationhome/p/10688798.html