大数据领域包含哪些职位?
在大数据行业中有很多领域. 通常来说它们可以被分为两类:
大数据工程
大数据分析
这两个领域互相独立又互相关联.
数据工程涉及平台和数据库的开发, 部署和维护. 大数据工程师需要去设计和部署这样一个系统, 使相关数据能面向不同的消费者及内部应用. 对应的职位是大数据开发工程师, ETL 工程师, 算法工程师. 对应技能为下图中粉色圈.
在这里我还是要推荐下我自己建的大数据学习交流 qq 裙: 458345782, 裙 里都是学大数据开发的, 如果你正在学习大数据 , 小编欢迎你加入, 大家都是软件开发党, 不定期分享干货(只有大数据开发相关的), 包括我自己整理的一份 2018 最新的大数据进阶资料和高级开发教程, 欢迎进阶中和进想深入大数据的小伙伴.
数据分析则是利用数据平台提供的数据进行知识提取. 数据分析包括趋势, 图样分析以及开发不同的分类, 预测预报系统. 对应的职位是数据分析师, 数据挖掘工程师和数据科学家. 对应的技能为下图中绿色圈.
根据领域规划你的角色?
通常来说, 基于你的教育背景和行业经验我们可以进行如下分类:
教育背景: 如计算机科学, 数学等
行业经验: 新人, 业务专家, 计算机工程师等
如果你擅长编程技巧并理解计算机如何在网络上运作, 而你对数学和统计学没有太大兴趣, 在这种情况下, 你应该朝着数据工程方向职位努力.
如果你擅长编程同时有数学或者统计学的教育背景或兴趣, 你应该朝着数据分析师职位努力.
如何成为一名大数据工程师?
首先让我们先了解下大数据工程的日常工作, 通常包括两个方面 - 数据需求以及处理需求.
数据需求
结构: 你应该知道数据可以储存在表中或者文件中. 储存在一个预定义的数据模型 (即拥有架构) 中的数据称为结构化数据. 如果数据储存在文件中且没有预定义模型, 则称为非结构化数据.(种类: 结构化 / 非结构化).
容量: 数据的数量.(种类: S/M/L/XL/XXL / 流)
Sink 吞吐量: 系统所能接受的数据速度.(种类: H/M/L)
源吞吐量: 数据更新和转化进入系统的速度.(种类: H/M/L)
处理需求
查询时间: 系统查询所需时间.(种类: 长 / 中 / 短)
处理时间: 处理数据所需时间.(种类: 长 / 中 / 短)
精度: 数据处理的精确度.(种类: 准确 / 大约)
下面, 我们举个例子说明上述工作内容:
情景
为分析一个公司的销售表现需要设计一个系统, 为此你需要创建一个数据池, 数据池来自于多重数据源, 比如客户数据, 领导数据, 客服中心数据, 销售数据, 产品数据, 博客等.
设计目标:
1. 通过整合各种来源的数据创建一个数据池.
2. 每隔一定时间自动更新数据(在这个案例中可能是一周一次).
3. 可用于分析的数据(在记录时间内, 甚至可能是每天)
4. 易得的架构和无缝部署的分析控制面板.
数据要求:
结构: 大部分数据是结构化的, 并具有一个定义了的数据模型. 但数据源如网络日志, 客户互动 / 呼叫中心数据, 销售目录中的图像数据, 产品广告数据等是非结构化的. 图像和多媒体广告数据的可用性和要求可能取决于各个公司.
结论: 结构化和非结构化数据
大小: L 或 XL(选择 Hadoop)
Sink 吞吐量: 高
质量: 中等(Hadoop&Kafka)
完整性: 不完整
处理要求:
查询时间: 中至长
处理时间: 中至短
精度: 准确
随着多个数据源的集成, 要注意不同的数据将以不同的速率进入系统.
例如, 网络日志可用高颗粒度连续流进入系统.
基于上述我们对系统要求的分析, 我们可以设计的大数据系统如下:
那么, 如果要完成上面这样一个系统, 需要掌握的主要技能有哪些呢, 为此我们给出一个通用的学习路径, 希望对你有用.
大数据工程师学习路径
Bash 脚本编程: 要对 Linux 和 bash 脚本编程非常熟悉, 这是处理大数据的基本要求.
通用编程语言: 大部分大数据技术都是用 Java 或 Scala 编写的. 如果你有 Java 的基础, 可以继续使用它. 但如果你是一个新手, 可以选择 Python, 很多新的技术都支持 python.
云环境: 一个大数据工程师必须适应在云端环境下部署和开发. 尝试在 AWS,softlayer 或任何其他云端供应商上练习小型数据集.
分布式文件系统: 你需要了解一个分布式文件系统. 最流行的分布式文件系统就是 Hadoop 分布式文件系. 你还可以学一点 Nosql 技术.
Mapreuce 系统: 如果你要处理的数据是静止的大量数据, 学习 Pig 或 Hive 其中之一就足够了.
实时流系统: 如果你使用数据流来开发实时或近实时分析系统, 那么要可以选择 Spark 或者 Storm 系统, 你需要掌握 Kafka 开发工具.
机器学习: 最后, 如果你想往数据科学家方向发展, 你需要学习一点机器学习的算法, 如神经网络和深度学习.
在这里我还是要推荐下我自己建的大数据学习交流 qq 裙: 458345782, 裙 里都是学大数据开发的, 如果你正在学习大数据 , 小编欢迎你加入, 大家都是软件开发党, 不定期分享干货(只有大数据开发相关的), 包括我自己整理的一份 2018 最新的大数据进阶资料和高级开发教程, 欢迎进阶中和进想深入大数据的小伙伴.
来源: http://www.jianshu.com/p/8c4075554c15