Hive 介绍与核心知识点 -- 大数据技术栈

Hive 简介

Facebook 为了解决海量日志数据的分析而开发了 Hive, 后来开源给了 Apache 软件基金会.

官网定义:

The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL.

Hive 是一种用类 SQL 语句来协助读写, 管理那些存储在分布式存储系统上大数据集的数据仓库软件.

Hive 的几个特点

Hive 最大的特点是通过类 SQL 来分析大数据, 而避免了写 MapReduce 程序来分析数据, 这样使得分析数据更容易.

数据是存储在 HDFS 上的, Hive 本身并不提供数据的存储功能

Hive 是将数据映射成数据库和一张张的表, 库和表的元数据信息一般存在关系型数据库上(比如 MySQL).

数据存储方面: 它能够存储很大的数据集, 并且对数据完整性, 格式要求并不严格.

数据处理方面: 因为 Hive 语句最终会生成 MapReduce 任务去计算, 所以不适用于实时计算的场景, 它适用于离线分析.

TEXTFILE
SEQUENCEFILE
RCFILE
ORCFILE(0.11 以后出现)

Avro (Hive 0.9.1 and later)
ORC (Hive 0.11 and later)
RegEx
Thrift
Parquet (Hive 0.13 and later)
CSV (Hive 0.14 and later)
JsonSerDe (Hive 0.12 and later)

load data inpath '/home/xxx/add.txt' into table xxx
alter table db.access_log add partition (dt='18-09-18') location 'hdfs://ns/hive/warehouse/access_log/dt=18-09-18';

来源: http://www.jianshu.com/p/778a1e447ac5

与本文相关文章

暂无,快来抢沙发吧！