大数据第十七期

这一阶段会学习FLume、Kafka、Spark Streaming、Flink/Storm、Zookeeper、HBase等计算框架的开发技术,以及大数据体系内的数据采集和数据仓库理论思想和技术实现。通过项目实践,你能快速掌握这些技术,获得完整的大数据架构开发能力。

  • 班级名称: 项目实战班
  • 课程时间安排: 每周六日晚
  • 学习方式: 在线直播
  • 招生情况: 已招满

课 程 安 排


快速预览

                第1部分  数据采集业务

                第2部分  Flume

                第3部分  Kafka

                第4部分  Spark Streaming

                第5部分  Flink / Storm

                第6部分  数据仓库

                第7部分  Zookeeper

                第8部分  HBase


第1部分  数据采集业务

        1. 日志和数据

                 信息流框架

                 日志收集流程

                 报表统计常用指标

                 数据分析需求

                 机器学习需求

        2. 数据采集

                 采集套路

                 数据模型

                 数据“矩阵”

                 数据来源

                 收据收集架构

                 质量检测


第2部分  Flume

        1. Flume 简介

        2. Flume Core

                 外部架构

                 事件(Flume Event)

                 代理(Flume Agent)

                 可靠性

                 复杂流动

        3. 搭建Flume日志收集系统


第3部分 Kafka

        1. Kafka简介

                 基本组件

                 Topic

                 Message

                 Producer

                 Consumer

        2. Kafka Core

                 持久化

                 传输效率

                 无状态的Broker

                 交付保证

                 副本管理

                 分布式协调

                 Zookeeper的使用

         3. 搭建Kafka消息队列系统

        4. Kafka & Flume

                Kafka & Flume结合应用


第4部分  Spark Streaming

        1. Spark Streaming简介

                 Spark Core 与 Spark Streaming

                 DStream

                 DStream Graph

        2. Spark Streaming架构

                 Spark Streaming 架构组成

                 Spark Streaming 作业提交

                 Streaming 窗口操作

                 Streaming 全局统计量

                 Streaming 容错性分析

                 Streaming中WAL工作原理

                 Streaming 消费 Kafka

        3. Spark Streaming实践


第5部分 Flink / Storm

           Flink

        1. Flink入门

                 实时计算对比

                 Flink业内使用

                 Flink特性

                 Flink技术栈

                 流处理 VS 批处理

                 Flink数据处理组件

                 任务执行

        2. Flink API

                 Flink API 列表

                 低层级抽象

                 核心API

                 SQL层

                 Transormation组件

                 Sink组件

        3. Flink架构

                 分布式Runtime环境

                 Task的Slots和资源

                 Flink on Yarn

        4. Flink容错

                 实时计算容错机制

                 分组标记栏

                 对齐align

                 CheckPoint

                 Watemark水位线

                 窗口机制

                 撤回

                 反压机制

        5. Flink开发

                 集群搭建

                 集群运行


            Storm

        1. Storm入门

                 流式处理

                 分布式流处理

                 Storm vs Hadoop

                 Storm理论

                 常见模式

         2. Storm架构

         3. Storm容错

                 架构容错

                 数据容错

        4. Storm开发


第6部分  数据仓库

        1. 大数据平台

                 简介

                 离线平台

                 数据仓库技术-OLTP&OLAP

                 分析型数据库

                 Hadoop数据仓库

                 数据仓库建模技术

                 星形架构

                 基于维度的“总线体系架构”

                 仓库体系架构

                 企业级数据仓库体系架构

                 数据仓库逻辑架构设计

                 数据仓库分层

                 数据分层架构

                 实时数据平台架构

                 实时数据存储

                 数据管理

                 数据探查

                 数据集成

                 数据质量

                 数据屏蔽

        2. 维度建模技术

                 维度建模流程

                 维度表设计

                 维度变化

                 维度层次

                 维度一致性

                 维度整合&拆分

                 事务事实表

                 快照事实表

        3. 数据仓库构建

                 业务需求

                 数据仓库架构设计

                 数据仓库规范设计

                 命名规范

                 开发规范

                 流程规范

                 数据平台架构--数据湖


第7部分  Zookeeper

        1. Zookeeper入门

                 Zookeeper简介

                 Zookeeper结构

                 Zookeeper深入

        2. Zookeeper应用场景

                 集群管理

                 共享锁

                 队列管理

                 FIFO

        3. Zookeeper编程


第8部分  HBase

        1. HBase入门

                 HBase简介

                 行存储vs列存储

                 HBase数据模型

                 HBase物理模型

                 HBase系统架构

                 HBase容错

                 HBase的操作

                 HBase的特殊表

                 HBase写入流程

                 HBase读取流程

        2. HBase搭建

                HBase安装

         3. HBase Shell

         4. HBase的Python操作

         5. Hive整合HBase