大数据第十八期

这一阶段会学习MapReduce、Hive、HDFS、Yarn、Spark等计算框架的开发技术,以及Scala编程语言。通过项目实践,你能快速掌握这些技术,获得数据开发、数据挖掘、机器学习等职位必备的基本开发能力。

  • 班级名称: 高薪就业班
  • 课程时间安排: 每周六日
  • 学习方式: 在线直播
  • 招生情况: 正在招生中...

课 程 安 排

快速预览

                第1部分  学前准备

                第2部分  MapReduce

                第3部分  Hive

                第4部分  HDFS

                第5部分  Yarn (Hadoop 2.x)

                第6部分  Scala语言

                第7部分  Spark

                

第1部分  学前准备


        1. 搜索引擎概述、广告系统概述、知名推荐系统介绍。

        2. 推荐系统业务逻辑、平台架构、应用范围。


第2部分  MapReduce


        1. MapReduce入门

            1.1 海量数据分流处理技术

                传统Hash--流量分发

                一致性Hash算法

                分而治之--最基本的海量技术思想

                云计算技术难点

            1.2 MapReduce基础

                MapReduce简介

                MapReduce存储

                MapReduce分而治之

                MapReduce实现架构

                MapReduce工作原理

                MapReduce执行流程

                MapReduce作业调度

                MapReduce编程模型

                MapReduce编程示例

        2. MapReduce精通

            2.1 MapReduce基础进阶

                MapReduce执行流程

                MapReduce物理配置

                MapReduce集群控制

             2.2 Hadoop Streaming

                Hadoop Streaming简介

                Hadoop Streaming原理

                Hadoop Streaming开发要点

        3. MapReduce实践


第3部分  Hive


        1. Hive入门

                 Hive简介

                 Hive中的SQL与传统SQL

                 Hive体系架构

                 Hive数据管理

                 Hive内部表和外部表

                 Hive中的Partition

                 Hive中的Bucket

                 Hive数据类型

                 Hive SQL--Join in MapReduce

        2. Hive优化

                 Map的优化

                 Reduce的优化

                 Hive的Join优化

                 Hive的优化--并行执行

                 Hive的优化--数据倾斜

        3. Hive搭建

                Mysql配置

        4. Hive实践


第4部分  HDFS 2.x


                HDFS 2.x 简介

                HDFS 2.x 快照

                HDFS 2.x 缓存

                HDFS 2.x ACL


第5部分  Yarn (Hadoop 2.x)


                Hadoop 2.x 简介

                Hadoop 1.x 和 Hadoop 2.x

                Yarn基础

                Yarn核心

                Yarn框架运行流程

                Yarn容错

                Hadoop 2.x 集群搭建


第6部分  Scala语言


                Scala简介

                 Scala快速上手

                 Scala在Spark中的应用


第7部分  Spark


           1. Spark简介

         2. Spark安装

                 Spark安装

                 Spark启动

                 Spark验证

                 Spark资源管理组件

                 Spark和Hadoop作业区别

        3. Spark入门

                Spark on Yarn

        4. Spark核心

                RDD依赖关系

                容错

        5. Spark调优

                 Spark作业运行原理

                 Spark资源参数调优

                 Spark开发调优

        6. Spark常用组件

                 Spark Core

                 Spark SQL

                 Spark Streaming

                 MLIB

        7. Spark实践