课 程 安 排
快速预览
第1部分 数据采集业务
第2部分 Flume
第3部分 Kafka
第4部分 Spark Streaming
第5部分 Flink / Storm
第6部分 数据仓库
第7部分 Zookeeper
第8部分 HBase
第1部分 数据采集业务
1. 日志和数据
信息流框架
日志收集流程
报表统计常用指标
数据分析需求
机器学习需求
2. 数据采集
采集套路
数据模型
数据“矩阵”
数据来源
收据收集架构
质量检测
第2部分 Flume
1. Flume 简介
2. Flume Core
外部架构
事件(Flume Event)
代理(Flume Agent)
可靠性
复杂流动
3. 搭建Flume日志收集系统
第3部分 Kafka
1. Kafka简介
基本组件
Topic
Message
Producer
Consumer
2. Kafka Core
持久化
传输效率
无状态的Broker
交付保证
副本管理
分布式协调
Zookeeper的使用
3. 搭建Kafka消息队列系统
4. Kafka & Flume
Kafka & Flume结合应用
第4部分 Spark Streaming
1. Spark Streaming简介
Spark Core 与 Spark Streaming
DStream
DStream Graph
2. Spark Streaming架构
Spark Streaming 架构组成
Spark Streaming 作业提交
Streaming 窗口操作
Streaming 全局统计量
Streaming 容错性分析
Streaming中WAL工作原理
Streaming 消费 Kafka
3. Spark Streaming实践
第5部分 Flink / Storm
Flink
1. Flink入门
实时计算对比
Flink业内使用
Flink特性
Flink技术栈
流处理 VS 批处理
Flink数据处理组件
任务执行
2. Flink API
Flink API 列表
低层级抽象
核心API
SQL层
Transormation组件
Sink组件
3. Flink架构
分布式Runtime环境
Task的Slots和资源
Flink on Yarn
4. Flink容错
实时计算容错机制
分组标记栏
对齐align
CheckPoint
Watemark水位线
窗口机制
撤回
反压机制
5. Flink开发
集群搭建
集群运行
Storm
1. Storm入门
流式处理
分布式流处理
Storm vs Hadoop
Storm理论
常见模式
2. Storm架构
3. Storm容错
架构容错
数据容错
4. Storm开发
第6部分 数据仓库
1. 大数据平台
简介
离线平台
数据仓库技术-OLTP&OLAP
分析型数据库
Hadoop数据仓库
数据仓库建模技术
星形架构
基于维度的“总线体系架构”
仓库体系架构
企业级数据仓库体系架构
数据仓库逻辑架构设计
数据仓库分层
数据分层架构
实时数据平台架构
实时数据存储
数据管理
数据探查
数据集成
数据质量
数据屏蔽
2. 维度建模技术
维度建模流程
维度表设计
维度变化
维度层次
维度一致性
维度整合&拆分
事务事实表
快照事实表
3. 数据仓库构建
业务需求
数据仓库架构设计
数据仓库规范设计
命名规范
开发规范
流程规范
数据平台架构--数据湖
第7部分 Zookeeper
1. Zookeeper入门
Zookeeper简介
Zookeeper结构
Zookeeper深入
2. Zookeeper应用场景
集群管理
共享锁
队列管理
FIFO
3. Zookeeper编程
第8部分 HBase
1. HBase入门
HBase简介
行存储vs列存储
HBase数据模型
HBase物理模型
HBase系统架构
HBase容错
HBase的操作
HBase的特殊表
HBase写入流程
HBase读取流程
2. HBase搭建
HBase安装
3. HBase Shell
4. HBase的Python操作
5. Hive整合HBase