Spark操作hbase

在Spark是一种计算框架，在Spark环境下，不仅支持操作单机文件，HDFS文件，同时也可以用Spark对Hbase操作。

企业中数据源会从HBase取出，这就涉及到了读取hbase数据，本文为了尽可能的让大家能尽快实践和操作Hbase，使用的是Spark Shell 来进行Hbase操作。

一、环境：

Haoop2.2.0

Hbase版本0.96.2-hadoop2, r1581096

Spark1.0.0

本文假设环境已经搭建好，Spark环境搭建可见

Hadoop2.2.0要注意和Hbase的版本兼容，这里Hbase采用0.96.2

Spark操作HBase其实是和java client操作HBase的原理是一致的：

scala和java都是基于jvm的语言，只要将hbase的类加载到classpath内，即可调用操作，其它框架类似。

相同点：即都是当作client来连接HMaster，然后利用hbase的API来对Hbase进行操作。

不同点：唯一不同的是：Spark可以将Hbase的数据来当作RDD处理，从而利用Spark来进行并行计算。

来源: http://lib.csdn.net/article/architecture/45597

暂无,快来抢沙发吧！