spark 官网下载截图
- // 下载好后用传输工具传输到我们的 linux 上并解压缩
- tar -zxvf spark-2.2.0.tgz
源码编译
准备工作
根据 Spark 官方文档可知, 需要 java8+,maven 3.3.9 + 版本
spark 编译需知
确认 jave8.0 已成功安装
检验 java 是否成功安装
确认 Maven3.3.9 已成功安装
检验 maven 是否成功安装
如果不知道如何安装, 参考如下步骤:
(1) 点此下载 maven
(2) 解压缩:
tar -zxvf apache-maven-3.3.9-bin.tar.gz
(3) 配置环境变量:
- vim /etc/profile
- export MAVEN_HOME=/usr/local/apache-maven-3.3.9
- // 根据机器配置为 maven 分配尽可能多的内存, 可以使得编译更加快速
- export MAVEN_OPTS="-Xmx2g -XX:ReservedCodeCacheSize=1024m"
- export PATH=$JAVA_HOME/bin:$MAVEN_HOME/bin:$PATH
- // 最后不要忘记 source 命令使得配置立即生效
- source /etc/profile
确认机器能够链接外网
- vim /etc/resolv.conf
- namserver 8.8.8.8 nameserver 8.8.4.4
- // 检验是否成功链接外网
- ping www.baidu.com
开始编译
- cd /usr/local/spark-2.2.0
- ./dev/make-distribution.sh --name custom-spark --tgz -Phadoop-2.6 -Phive -Phive-thriftserver -Pyarn
--name 之后的 custom-spark 是编译好后生成的那个 tgz 文件的文件名, 可以自定义
Phadoop 要根据自己已经安装好了的 hadoop 版本写
如果要运行 R 语言请加上 - Psparkr, 否则请省略以提高编译速度
如果要使用 mesos 请加上 - Pmesos, 否则请省略以提高编译速度
编译需要 40 分钟左右: 成功后在 spark-2.2.0 目录下出现 spark-2.2.0-bin-custom-spark.tgz 包
将它移动到其他目录下:
mv spark-2.2.0-bin-custom-spark.tgz /usr/local/
Scala2.11.8 下载安装
点此下载: scala-2.11.8.tgz
tar -zxvf scala-2.11.8.tgz
配置 SCALA_HOME 环境变量
- vim /etc/profile
- export SCALA_HOME=/usr/local/scala-2.11.8
- export PATH=$SCALA_HOME/bin:$PATH
- source /etc/profile
Spark 配置
进入 conf 目录 将 spark-env.sh.template 和 slaves.template 改名
- mv spark-env.sh.template spark-env.sh
- mv slaves.template slaves
配置 spark-env.sh: 加上这几个环境变量即可
- export JAVA_HOME=/usr/local/jdk1.8
- export HADOOP_CONF_DIR=/usr/local/hadoop-2.6.0-cdh5.11.1/etc/hadoop
- export SCALA_HOME=/usr/local/scala-2.11.8
集群配置: 配置 slaves, 把你的集群中每个机器的主机名写上去即可
- master
- slave1
- slave2
配置好之后分发到集群中其他机器上
- scp -r spark-2.2.0-bin-hadoop2.6.0-cdh5.11.1 slave1:/usr/local/
- scp -r spark-2.2.0-bin-hadoop2.6.0-cdh5.11.1 slave2:/usr/local/
验证 Spark
- cd /usr/local/spark-2.2.0-bin-hadoop2.6.0-cdh5.11.1/
- bin/spark-shell
出现如下界面即可:
spark 运行截图
来源: http://www.bubuko.com/infodetail-2503794.html