Spark 入门教程 (二)Spark2.2 源码编译及安装配置

spark 官网下载截图

// 下载好后用传输工具传输到我们的 linux 上并解压缩
tar -zxvf spark-2.2.0.tgz

源码编译

准备工作

根据 Spark 官方文档可知, 需要 java8+,maven 3.3.9 + 版本

spark 编译需知

确认 jave8.0 已成功安装

检验 java 是否成功安装

确认 Maven3.3.9 已成功安装

检验 maven 是否成功安装

如果不知道如何安装, 参考如下步骤:

(1) 点此下载 maven

(2) 解压缩:

tar -zxvf apache-maven-3.3.9-bin.tar.gz

(3) 配置环境变量:

vim /etc/profile
export MAVEN_HOME=/usr/local/apache-maven-3.3.9
// 根据机器配置为 maven 分配尽可能多的内存, 可以使得编译更加快速
export MAVEN_OPTS="-Xmx2g -XX:ReservedCodeCacheSize=1024m"
export PATH=$JAVA_HOME/bin:$MAVEN_HOME/bin:$PATH
// 最后不要忘记 source 命令使得配置立即生效
source /etc/profile

确认机器能够链接外网

vim /etc/resolv.conf
namserver 8.8.8.8 nameserver 8.8.4.4
// 检验是否成功链接外网
ping www.baidu.com

开始编译

cd /usr/local/spark-2.2.0
./dev/make-distribution.sh --name custom-spark --tgz -Phadoop-2.6 -Phive -Phive-thriftserver -Pyarn

--name 之后的 custom-spark 是编译好后生成的那个 tgz 文件的文件名, 可以自定义

Phadoop 要根据自己已经安装好了的 hadoop 版本写

如果要运行 R 语言请加上 - Psparkr, 否则请省略以提高编译速度

如果要使用 mesos 请加上 - Pmesos, 否则请省略以提高编译速度

编译需要 40 分钟左右: 成功后在 spark-2.2.0 目录下出现 spark-2.2.0-bin-custom-spark.tgz 包

将它移动到其他目录下:

mv spark-2.2.0-bin-custom-spark.tgz /usr/local/

Scala2.11.8 下载安装

点此下载: scala-2.11.8.tgz

tar -zxvf scala-2.11.8.tgz

配置 SCALA_HOME 环境变量

vim /etc/profile
export SCALA_HOME=/usr/local/scala-2.11.8
export PATH=$SCALA_HOME/bin:$PATH
source /etc/profile

Spark 配置

进入 conf 目录将 spark-env.sh.template 和 slaves.template 改名

mv spark-env.sh.template spark-env.sh
mv slaves.template slaves

配置 spark-env.sh: 加上这几个环境变量即可

export JAVA_HOME=/usr/local/jdk1.8
export HADOOP_CONF_DIR=/usr/local/hadoop-2.6.0-cdh5.11.1/etc/hadoop
export SCALA_HOME=/usr/local/scala-2.11.8

集群配置: 配置 slaves, 把你的集群中每个机器的主机名写上去即可

master
slave1
slave2

配置好之后分发到集群中其他机器上

scp -r spark-2.2.0-bin-hadoop2.6.0-cdh5.11.1 slave1:/usr/local/
scp -r spark-2.2.0-bin-hadoop2.6.0-cdh5.11.1 slave2:/usr/local/

验证 Spark

cd /usr/local/spark-2.2.0-bin-hadoop2.6.0-cdh5.11.1/
bin/spark-shell

出现如下界面即可:

spark 运行截图

来源: http://www.bubuko.com/infodetail-2503794.html

与本文相关文章

暂无,快来抢沙发吧！