课 程 安 排
快速预览
第1部分 学前准备
第2部分 MapReduce
第3部分 Hive
第4部分 HDFS
第5部分 Yarn (Hadoop 2.x)
第6部分 Scala语言
第7部分 Spark
第1部分 学前准备
1. 搜索引擎概述、广告系统概述、知名推荐系统介绍。
2. 推荐系统业务逻辑、平台架构、应用范围。
第2部分 MapReduce
1. MapReduce入门
1.1 海量数据分流处理技术
传统Hash--流量分发
一致性Hash算法
分而治之--最基本的海量技术思想
云计算技术难点
1.2 MapReduce基础
MapReduce简介
MapReduce存储
MapReduce分而治之
MapReduce实现架构
MapReduce工作原理
MapReduce执行流程
MapReduce作业调度
MapReduce编程模型
MapReduce编程示例
2. MapReduce精通
2.1 MapReduce基础进阶
MapReduce执行流程
MapReduce物理配置
MapReduce集群控制
2.2 Hadoop Streaming
Hadoop Streaming简介
Hadoop Streaming原理
Hadoop Streaming开发要点
3. MapReduce实践
第3部分 Hive
1. Hive入门
Hive简介
Hive中的SQL与传统SQL
Hive体系架构
Hive数据管理
Hive内部表和外部表
Hive中的Partition
Hive中的Bucket
Hive数据类型
Hive SQL--Join in MapReduce
2. Hive优化
Map的优化
Reduce的优化
Hive的Join优化
Hive的优化--并行执行
Hive的优化--数据倾斜
3. Hive搭建
Mysql配置
4. Hive实践
第4部分 HDFS 2.x
HDFS 2.x 简介
HDFS 2.x 快照
HDFS 2.x 缓存
HDFS 2.x ACL
第5部分 Yarn (Hadoop 2.x)
Hadoop 2.x 简介
Hadoop 1.x 和 Hadoop 2.x
Yarn基础
Yarn核心
Yarn框架运行流程
Yarn容错
Hadoop 2.x 集群搭建
第6部分 Scala语言
Scala简介
Scala快速上手
Scala在Spark中的应用
第7部分 Spark
1. Spark简介
2. Spark安装
Spark安装
Spark启动
Spark验证
Spark资源管理组件
Spark和Hadoop作业区别
3. Spark入门
Spark on Yarn
4. Spark核心
RDD依赖关系
容错
5. Spark调优
Spark作业运行原理
Spark资源参数调优
Spark开发调优
6. Spark常用组件
Spark Core
Spark SQL
Spark Streaming
MLIB
7. Spark实践