专业创造价值,服务赢得口碑!企业IT人才培养领导品牌!

CCA175 Spark and Hadoop(开发培训)

浏览量:4
  • 课程名称: CCA175 Spark and Hadoop(开发培训)
  • 开班类型: 周末班、脱产班、企业定制
  • 推荐星级: 5星
  • 课程代码: Admin
  • 课程天数: 4天
  • 授课方式: 面授

课程大纲

认证须知

开课计划

学习QQ群

常见问题

CCP:DS-Data-Scientist.jpg


在为期四天的培训中,学员将学习关键概念和掌握使用最新技术和工具将数据采集到Hadoop 机群并进行处理。通过学习掌握诸如Spark(包括 Spark Streaming 和 Spark SQL)、Flume、Kafka 以及Sqoop 这样的Hadoop 生 态系统工具和技术,Hadoop开发员将具备解决实际大数据问题和挑战的能力。 使用 Spark,不同行业的开发人员可以为不同的商业应用和系统架构编写复杂 的并行应用,得以更快速地获取更优的商业决策,帮助决策人员进行及时应对。

  培训内容   

通过讲师在课堂上的讲解,以及实操练习,学员将学习以下内容:


•  在 Hadoop 机群上进行分布式存储和处理数据。
•  通在 Hadoop 机群上编写、配置和部署 Apache Spark 应用。 
•  使用 Spark shell 进行交互式数据分析。 
•  使用 Spark SQL 查询处理结构化数据。 
•  使用 Spark Streaming 处理流式数据。 
•  使用 Flume 和 Kafka 为 Spark Streaming 采集流式数据。

  培训对象及学员基础  
本课程适合于具有编程经验的开发员及工程师。无需 Apache Hadoop 基础
•  培训内容中对 Apache Spark 的介绍所涉及的代码及练习使用 Scala 和 Python,因此需至少掌握这两个编程语言中的一种。 
•  需熟练掌握 Linux 命令行。 
•  对 SQL 有基本了解。

建议参加完该课程的学员考取CCA Spark and Hadoop全球认证证书

  课程大纲  
Hadoop 及生态系统介绍 
•  Apache Hadoop 概述 •  数据存储和摄取 •  数据处理 •  数据分析和探索 •  其他生态系统工具 •  练习环境及分析应用场景介绍

Apache Hadoop 文件存储 
•  传统大规模系统的问题 •  HDFS 体系结构 •  使用 HDFS •  Apache Hadoop 文件格式

Apache Hadoop 机群上的数据处理 
•  YARN 体系结构 •  使用 YARN

使用 Apache Sqoop 导入关系数据 
•  Sqoop 简介 •  数据导入 •  导入的文件选项 •  数据导出

Apache Spark 基础 
•  什么是 Apache Spark •  使用 Spark Shell •  RDDs( 可恢复的分布式数据集) •  Spark 里的函数式编程
Spark RDD 
•  创建 RDD •  其他一般性 RDD 操作

使用键值对 RDD
•  键值对 RDD •  MapReduce •  其他键值对 RDD 操作


编写和运行 Apache Spark 应用 
•  Spark 应用对比 Spark Shell •  创建 SparkContext •  创建 Spark 应用(Scala 和 Java) •  运行 Spark 应用 •  Spark 应用 WebUI

配置 Apache Spark 应用 
•  配置 Spark 属性 •  运行日志 

Apache Spark 的并行处理 
•  回顾:机群环境里的 Spark •  RDD 分区 •  基于文件 RDD 的分区 •  HDFS 和本地化数据 •  执行并行操作 •  执行阶段及任务

Spark 持久化 
•  RDD 演变族谱 •  RDD 持久化简介 •  分布式持久化


Apache Spark 数据处理的常见模式 
•  常见 Spark 应用案例 •  迭代式算法 •  机器学习 •  例子:K - Means

DataFrames 和 Spark SQL 
•  Apache Spark SQL 和 SQL Context •  创建 DataFrames •  变更及查询 DataFrames •  保存 DataFrames •  DataFrames 和 RDD •  Spark SQL 对比 Impala 和Hive-on-Spark •  Spark 2.x 版本上的 Apache Spark SQL


Apache Kafka 
•  什么是 Apache Kafka •  Apache Kafka 概述 •  如何扩展 Apache Kafka •  Apache Kafka 机群架构 •  Apache Kafka 命令行工具

使用 Apache Flume 采集实时数据 
•  什么是 Apache Flume •  Flume 基本体系结构 •  Flume 源 •  Flume 槽 •  Flume 通道 •  Flume 配置
集成 Apache Flume 和 Apache Kafka 
•  概要 •  应用案例 •  配置
Apache Spark Streaming:DStreams 介绍 
•  Apache Spark Streaming 概述 •  例子:Streaming 访问计数 •  DStreams •  开发 Streaming 应用


Apache Spark Streaming:批处理 
•  批处理操作 •  时间分片 •  状态操作 •  滑动窗口操作

Apache Spark Streaming:数据源 
•  Streaming 数据源概述 •  Apache Flume 和Apache Kafka 数据源 •  例子:使用 Direct 模式连接 Kafka • 数据源



CISP-PTE-2.jpg





开班计划-通用.jpg

QQ号.jpg

预约试听

精彩课堂

0755-29152000

获取《内训指南》