大数据 Hadoop 运行环境, 依赖于 Java JDK, 核心的大数据框架基于 Java 开发的, 目前互联网公司, 电商, 医疗, 银行, 医院等都有大数据应用, 开源 Hadoop 生态统治了大数据领域, 基本没有对手. 企业要做大数据, 基本最成熟的开源大数据平台就是 Hadoop 体系. 今天基于 Linux Ubuntu 16.04 安装最新的 Hadoop. 大数据 Hadoop 最新版 3.2.0 实战安装与测试 Linux Ubuntu 16.04, 并运行文本分析的例子.
1, 安装 Java JDK 1.8 环境, 确保 Hadoop 运行.
可以选择安装 Oracle JDK 或者 Open JDK. 目前企业开发建议使用 Open JDK.
如果是付费用户, 愿意安装 Oracle JDK 也行.
- sudo apt-get install oracle-java8-installer
- sudo apt-get install oracle-java9-installer
- sudo apt-get install oracle-java10-installer
- sudo apt-get install oracle-java11-installer
但是使用开源版本是最安全的, 不会有授权收费问题.
sudo add-apt-repository ppa:webupd8team/java sudo apt update sudo apt install oracle-java8-set-default
java --version 查看安装设置, 成功安装 Open JDK8
2, 下载 Hadoop 安装包, 这里选择清华大学镜像服务器
wget
输入命令下载最新的安装包, 等待, 因为国外服务器下载速度太慢, 需要几个小时.
3, 解压安装包 tar xzf hadoop-3.2.0.tar.gz
4, 创建 Hadoop 账号
$ adduser hadoop $ usermod -aG hadoop hadoop $ chown hadoop:root -R /usr/local/hadoop $ chmod g+rwx -R /usr/local/hadoop
5, 创建 SSH 密钥文件
SSH-keygen -t rsa
6, 测试 SSH 登陆 SSH localhost
7, 格式化 namenode. HDFS 命令来格式化 Namenode.
hadoop namenode -format
8, 启动 HDFS 和 Yarn 资源管理器
start-dfs.sh 和 start-yarn.sh, 执行命令后, 输入 JPS 查看运行的进城.
9, 查看 Hadoop 版本
以上配置完成, 可以运行 hadoop version 命令查看版本信息:
10,HDFS 版本
11, 查看 Hadoop 集群管理页面
Http://localhost:8088 http://localhost:8088/
12, 测试 Hadoop, 最蛋疼的过程.
使用 txt 文件作为测试输入数据, 执行命令 :
./bin/hadoop jar ./share/hadoop/mapreduce/sources/hadoop-mapreduce-examples-3.2.0-sources.jar org.apache.hadoop.examples.WordCount input output
大数据分析输出统计文本的结果信息
阿里巴巴 Java 群超过 3300 人
直播地址: Java 技术进阶群
进群方式: 钉钉扫码入群
阿里巴巴 MongoDB 群
来源: https://yq.aliyun.com/articles/692282