1.sql 能力, 最好到网上去搜一些经典的 sql 题来联系一下 (比如: 行列转换函数, 去重的多种用法, 分析函数 rank over() 等用法, 漏斗模型, 如何计算路径转化率)
2.hive 调优(分两部分, 第一部分 hive 参数调优, 第二部分 sql 调优), 主要是解决数据倾斜的问题.
3.etl 工具用的是什么? kettle 用过没有
4.Linux 命令熟悉, 一些常用的 Linux 命令要会用, 还有给你一个字符串, 如何截取你要的字段出来, 可以现在网上搜一下
5.hivesql 面临有的脏数据时如何清洗数据? 有哪些 hive 函数可以用(regex_repalce,regex_extract,rlike 的用法),hive 中的常用正则表达式也要了解一下(留给你自己去查)
6. 项目中遇到哪些问题:
a. 数据发散
b. 数据倾斜
大数据复习
来源: http://www.bubuko.com/infodetail-3046643.html