HADOOP 集群具体来说包含两个集群:HDFS 集群和 YARN 集群,两者逻辑上分离,但物理上常在一起
HDFS 集群:
负责海量数据的存储,集群中的角色主要有 NameNode / DataNode
YARN 集群:
负责海量数据运算时的资源调度,集群中的角色主要有 ResourceManager /NodeManager
本集群搭建案例,以 3 节点为例进行搭建,角色分配如下:
- hdp-node-01 NameNode SecondaryNameNode ResourceManager
- hdp-node-02 DataNode NodeManager
- hdp-node-03 DataNode NodeManager
本案例使用虚拟机服务器来搭建 HADOOP 集群,所用软件及版本:
▨ Vmware 12.0
▨ Centos 7.0 64bit
▨ 采用 NAT 方式联网
▨ 网关地址:192.168.33.1
▨ 3 个服务器节点 IP 地址:192.168.33.101、192.168.33.102、192.168.33.103
▨ 子网掩码:255.255.255.0
▨ 添加 HADOOP 用户
▨ 为 HADOOP 用户分配 sudoer 权限
▨ 同步时间
▨ 设置主机名
◈ hdp-node-01
◈ hdp-node-02
◈ hdp-node-03
▨ 配置内网域名映射:
◈ 192.168.33.101 hdp-node-01
◈ 192.168.33.102 hdp-node-02
◈ 192.168.33.103 hdp-node-03
▨ 配置 ssh 免密登陆
▨ 配置防火墙
▨ 上传 jdk 安装包
▨ 规划安装目录 /home/hadoop/apps/jdk_1.7.65
▨ 解压安装包
▨ 配置环境变量 /etc/profile
▨ 上传 HADOOP 安装包
▨ 规划安装目录 /home/hadoop/apps/hadoop-2.6.5
▨ 解压安装包 tar –zxvf hadoop-2.6.5 –C apps/
▨ 修改配置文件 $HADOOP_HOME/etc/hadoop/
最简化配置如下:
vi hadoop-env.sh
- # The java implementation to use.
- export JAVA_HOME=/home/hadoop/apps/jdk1.7.0_45
vi core-site.xml
- <configuration>
- <property>
- <name>fs.defaultFS</name>
- <value>hdfs://hdp-node-01:9000</value>
- </property>
- <property>
- <name>hadoop.tmp.dir</name>
- <value>/home/HADOOP/apps/hadoop-2.6.5/tmp</value>
- </property>
- </configuration>
vi hdfs-site.xml
- <configuration>
- <property>
- <name>dfs.replication</name>
- <value>1</value>
- </property>
- <property>
- <name>dfs.secondary.http.address</name>
- <value>hdp-node-01:50090</value>
- </property>
- </configuration>
vi mapred-site.xml
- <configuration>
- <property>
- <name>mapreduce.framework.name</name>
- <value>yarn</value>
- </property>
- </configuration>
vi yarn-site.xml
- <configuration>
- <property>
- <name>yarn.resourcemanager.hostname</name>
- <value>hadoop01</value>
- </property>
- <property>
- <name>yarn.nodemanager.aux-services</name>
- <value>mapreduce_shuffle</value>
- </property>
- </configuration>
vi salves
- hdp-node-02
- hdp-node-03
初始化 HDFS
- bin / hadoop namenode - format
启动 HDFS
- sbin / start - dfs.sh
启动 YARN
- sbin / start - yarn.sh
查看集群状态
- jps
- bin/hdfs dfsadmin -report
在 HADOOP 安装目录下,运行一个示例 mr 程序
- cd $HADOOP_HOME/share/hadoop/mapreduce/
- hadoop jar mapredcue-example-2.6.5.jar wordcount /wordcount/input /wordcount/output
1、查看集群状态
命令: hdfs dfsadmin –report
可以看出,集群共有 3 个 datanode 可用
也可打开 web 控制台查看 HDFS 集群信息,在浏览器打开 http://hdp-node-01:50070/
2、上传文件到 HDFS
▣ 查看 HDFS 中的目录信息
命令: hadoop fs –ls /
▣ 上传文件
命令: hadoop fs -put ./ scala-2.10.6.tgz to /
来源: http://www.cnblogs.com/jerehedu/p/7404667.html