测试环境, 由于测试需求, 重新 format namenode 后, 导致 datanode 无法正常启动.
1. 查看 datanode 日志, 可以发现错误 "Initialization failed for Block pool (Datanode Uuid unassigned)"
2018-01-27 20:09:49,052 FATAL org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization failed for Block pool <registering> (Datanode Uuid unassigned) service to c6704/192.168.67.104:9000. Exiting.
java.io.IOException: All specified directories are failed to load.
at org.apache.hadoop.hdfs.server.datanode.DataStorage.recoverTransitionRead(DataStorage.java:478)
at org.apache.hadoop.hdfs.server.datanode.DataNode.initStorage(DataNode.java:1361)
at org.apache.hadoop.hdfs.server.datanode.DataNode.initBlockPool(DataNode.java:1326)
at org.apache.hadoop.hdfs.server.datanode.BPOfferService.verifyAndSetNamespaceInfo(BPOfferService.java:317)
at org.apache.hadoop.hdfs.server.datanode.BPServiceActor.connectToNNAndHandshake(BPServiceActor.java:223)
at org.apache.hadoop.hdfs.server.datanode.BPServiceActor.run(BPServiceActor.java:801)
at java.lang.Thread.run(Thread.java:745)
2018-01-27 20:09:49,056 FATAL org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization failed for Block pool <registering> (Datanode Uuid unassigned) service to c6705/192.168.67.105:9000. Exiting.
java.io.IOException: All specified directories are failed to load.
at org.apache.hadoop.hdfs.server.datanode.DataStorage.recoverTransitionRead(DataStorage.java:478)
at org.apache.hadoop.hdfs.server.datanode.DataNode.initStorage(DataNode.java:1361)
at org.apache.hadoop.hdfs.server.datanode.DataNode.initBlockPool(DataNode.java:1326)
at org.apache.hadoop.hdfs.server.datanode.BPOfferService.verifyAndSetNamespaceInfo(BPOfferService.java:317)
at org.apache.hadoop.hdfs.server.datanode.BPServiceActor.connectToNNAndHandshake(BPServiceActor.java:223)
at org.apache.hadoop.hdfs.server.datanode.BPServiceActor.run(BPServiceActor.java:801)
at java.lang.Thread.run(Thread.java:745)
2018-01-27 20:09:49,069 WARN org.apache.hadoop.hdfs.server.datanode.DataNode: Ending block pool service for: Block pool <registering> (Datanode Uuid unassigned) service to c6705/192.168.67.105:9000
2018-01-27 20:09:49,070 WARN org.apache.hadoop.hdfs.server.datanode.DataNode: Ending block pool service for: Block pool <registering> (Datanode Uuid unassigned) service to c6704/192.168.67.104:9000
2018-01-27 20:09:49,192 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: Removed Block pool <registering> (Datanode Uuid unassigned)
2018-01-27 20:09:51,193 WARN org.apache.hadoop.hdfs.server.datanode.DataNode: Exiting Datanode
2018-01-27 20:09:51,204 INFO org.apache.hadoop.util.ExitUtil: Exiting with status 0
2018-01-27 20:09:51,208 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: SHUTDOWN_MSG:
/************************************************************
SHUTDOWN_MSG: Shutting down DataNode at c6706.python279.org/192.168.67.106
************************************************************/
2. 经过百度, 根据日志描述, 原因是 datanode 的 clusterID 和 namenode 的 clusterID 不匹配.
打开 hdfs-site.xml 中关于 datanode 和 namenode 对应的目录, 分别打开其中的 current/VERSION 文件, 进行对比.
3. namenode 的 VERSION 内容如下:
[hdfs@c6704 {$10}nbsp;cat /data/hadoop/hdfs/name/current/VERSION
#Sat Jan 27 00:46:30 UTC 2018
namespaceID=1148548909
clusterID=CID-aedb2e82-77f2-4056-b676-dca88083215d
cTime=0
storageType=NAME_NODE
blockpoolID=BP-1099214307-192.168.67.104-1517013990445
layoutVersion=-63
4. datanode 的 VERSION 文件内容如下:
[hdfs@c6706 ~]{$11}nbsp;cat /data/hadoop/hdfs/data/current/VERSION
#Sat Jan 27 00:20:21 UTC 2018
storageID=DS-8f0fdd04-e967-43cd-bd41-93b826b675b8
clusterID=CID-b27ecfd8-64ba-4e43-bd82-4ef6f2edd60c
cTime=0
datanodeUuid=264b1b43-82c0-411c-859f-32761edc7465
storageType=DATA_NODE
layoutVersion=-56
5. namenode 和 datano
de 的版本是不同的, 决定备份 datanode, 并清空 VERSION, 然后启动 datanode, 问题依旧. 检查 VERSION, 内容是空的.
[hdfs@c6706 current]{$12}nbsp;cp VERSION VERSION.bk
[hdfs@c6706 current]{$12}nbsp;echo > VERSION
[hdfs@c6706 current]{$12}nbsp;cat VERSION
6. 删除 VERSION, 再次启动 datanode,VERSION 内容已经同步.
{$13}nbsp;cat VERSION
#Sun Jan 28 01:29:46 UTC 2018
storageID=DS-1c1f5e05-df2c-40de-b39b-d6d54e3c4894
clusterID=CID-aedb2e82-77f2-4056-b676-dca88083215d ##<<<<< 同步了
cTime=0
datanodeUuid=948d5780-053e-4752-9476-fb1d1debda72
storageType=DATA_NODE
layoutVersion=-56
7. 通过页面也可以查询到 datanode 了.
8. 问题原因
执行 hdfs namenode -format 后, current 目录会删除并重新生成, 其中 VERSION 文件中的 clusterID 也会随之变化, 而 datanode 的 VERSION 文件中的 clusterID 保持不变, 造成两个 clusterID 不一致.
所以为了避免这种情况, 可以再执行的 namenode 格式化之后, 删除 datanode 的 current 文件夹, 或者修改 datanode 的 VERSION 文件中出 clusterID 与 namenode 的 VERSION 文件中的 clusterID 一样, 然后重新启动 datanode.
参考:
http://blog.csdn.net/liuxinghao/article/details/40121843 重新 format namenode 后, datanode 无法正常启动
来源: http://www.bubuko.com/infodetail-2479593.html