当前位置：

首页
/
IT
/
程序
/
Java
/
大数据技术原理与应用:[第二讲] 大数据处理架构 Hadoop

大数据技术原理与应用:[第二讲] 大数据处理架构 Hadoop

2.1 Hadoop 概论

创始人: Doug Cutting

1. 简介:

开源免费;

操作简单, 极大降低使用的复杂性;

Hadoop 是 Java 开发的;

在 Hadoop 上开发应用支持多种编程语言, 不限于 Java;

Hadoop 两大核心: HDFS+MapReduce

HDFS: 海量数据存储

MapReduce: 海量数据的处理

2. 起源:

原本是文本搜索库, 模仿谷歌的搜索引擎;

融入了谷歌相关技术: 分布式文件系统 GFS; 分布式并行编程框架 MapReduce;

3. 成名史: 数据排序的傲人成绩

4. 特性:

1. 高可靠性

2. 高效性

3 高可扩展性

4. 高容错性

5. 低成本

6. 运行在 Linux 平台上

7. 支持多种编程语言

5. 应用现状:

例如: Facebook

2.2 Hadoop 项目结构

HDFS: 分布式文件存储

MapReduce: 数据处理, 基于磁盘

Spark(性能比 MapReduce 高一个数量级): 数据处理, 基于内存

Hive: 数据仓库; 做决策分析; 支持 SQL 语句 (把 SQL 语句转成 MapReduce 作业, 再去执行);

Pig: 流数据处理, 轻量级数据; 提供类似 SQL 的查询语句 Pig Latin;

Oozie: 作业流调度系统

Zookeeper: 分布式协调服务; 分布式锁; 集群管理;

HBase: 列族数据库, 随机读写

Flume: 日志收集

Sqoop: 数据导入导出, 关系型数据库到 HDFS,HBase,Hive 互导

Ambari: 快速部署工具

2.3 Hadoop 安装与使用

1.Linux 选择:

选择 Linux 版本: Ubuntu

内存选择: 看电脑. 内存大于 4G, 选择 64 位

2. 系统安装虚拟机还是双系统:

看电脑配置

电脑比较新, 装虚拟机

3. 关于 Linux 基础知识

1.Shell: 命令解析器

2.sudo 命令: 权限管理机制, 管理员可以授权普通用户去执行一些需要 root 权限执行的操作

3. 输入密码: 看不见自己输入的密码

4. 输入法中英文切换: 使用 "shift" 键

5.Ubuntu 终端赋值黏贴快捷键: ctrl+shift+V

4. 安装方式:

单机模式, 伪分布式模式, 分布式模式

5. 创建虚拟机:

1. 材料与工具: 虚拟机软件与系统映像文件

2. 确认系统版本:

2.4 Hadoop 集群的部署与使用

考虑 HDFS 和 MapReduce

(后补)

慕课链接:

来源: http://www.bubuko.com/infodetail-3086447.html

与本文相关文章

暂无,快来抢沙发吧！