在Spark是一种计算框架,在Spark环境下,不仅支持操作单机文件,HDFS文件,同时也可以用Spark对Hbase操作。
企业中数据源会从HBase取出,这就涉及到了读取hbase数据,本文为了尽可能的让大家能尽快实践和操作Hbase,使用的是Spark Shell 来进行Hbase操作。
Haoop2.2.0
Hbase版本0.96.2-hadoop2, r1581096
Spark1.0.0
本文假设环境已经搭建好,Spark环境搭建可见
Hadoop2.2.0要注意和Hbase的版本兼容,这里Hbase采用0.96.2
Spark操作HBase其实是和java client操作HBase的原理是一致的:
scala和java都是基于jvm的语言,只要将hbase的类加载到classpath内,即可调用操作,其它框架类似。
相同点:即都是当作client来连接HMaster,然后利用hbase的API来对Hbase进行操作。
不同点:唯一不同的是:Spark可以将Hbase的数据来当作RDD处理,从而利用Spark来进行并行计算。
来源: http://lib.csdn.net/article/architecture/45597