2.1 Hadoop 概论
创始人: Doug Cutting
1. 简介:
开源免费;
操作简单, 极大降低使用的复杂性;
Hadoop 是 Java 开发的;
在 Hadoop 上开发应用支持多种编程语言, 不限于 Java;
Hadoop 两大核心: HDFS+MapReduce
HDFS: 海量数据存储
MapReduce: 海量数据的处理
2. 起源:
原本是文本搜索库, 模仿谷歌的搜索引擎;
融入了谷歌相关技术: 分布式文件系统 GFS; 分布式并行编程框架 MapReduce;
3. 成名史: 数据排序 的傲人成绩
4. 特性:
1. 高可靠性
2. 高效性
3 高可扩展性
4. 高容错性
5. 低成本
6. 运行在 Linux 平台上
7. 支持多种编程语言
5. 应用现状:
例如: Facebook
2.2 Hadoop 项目结构
HDFS: 分布式文件存储
MapReduce: 数据处理, 基于磁盘
Spark(性能比 MapReduce 高一个数量级): 数据处理, 基于内存
Hive: 数据仓库; 做决策分析; 支持 SQL 语句 (把 SQL 语句转成 MapReduce 作业, 再去执行);
Pig: 流数据处理, 轻量级数据; 提供类似 SQL 的查询语句 Pig Latin;
Oozie: 作业流调度系统
Zookeeper: 分布式协调服务; 分布式锁; 集群管理;
HBase: 列族数据库, 随机读写
Flume: 日志收集
Sqoop: 数据导入导出, 关系型数据库到 HDFS,HBase,Hive 互导
Ambari: 快速部署工具
2.3 Hadoop 安装与使用
1.Linux 选择:
选择 Linux 版本: Ubuntu
内存选择: 看电脑. 内存大于 4G, 选择 64 位
2. 系统安装 虚拟机还是双系统:
看电脑配置
电脑比较新, 装虚拟机
3. 关于 Linux 基础知识
1.Shell: 命令解析器
2.sudo 命令: 权限管理机制, 管理员可以授权普通用户去执行一些需要 root 权限执行的操作
3. 输入密码: 看不见自己输入的密码
4. 输入法中英文切换: 使用 "shift" 键
5.Ubuntu 终端赋值黏贴快捷键: ctrl+shift+V
4. 安装方式:
单机模式, 伪分布式模式, 分布式模式
5. 创建虚拟机:
1. 材料与工具: 虚拟机软件与系统映像文件
2. 确认系统版本:
2.4 Hadoop 集群的部署与使用
考虑 HDFS 和 MapReduce
(后补)
慕课链接:
来源: http://www.bubuko.com/infodetail-3086447.html