CCP:DE Data Engineer数据工程师认证考试
课程大纲
认证须知
开课计划
学习QQ群
常见问题
认证准备建议:Spark and Hadoop开发者培训;设计及构建大数据应用;考生需对Hadoop有深入了解、具有实际使用大数据工具的经验、以及具备解决实际数据工程问题的专家级水平
考试形式:4小时;提供一个大数据集供使用、7个高性能节点组成的CDH5机群;解决大数据用户可能碰到的5-8个实际问题
考试大纲
数据摄取
内部系统与集群之间进行数据传输所需技能如下:
外部RDBMS和集群之间导入和导出,包括能够导入特定的子集,数据摄取过程中改变所输入文件的分隔符和文件格式,改变数据输入形式或权限。
将实时及近乎实时的流数据摄入HDFS,包括能够分配给多数据源,转化数据格式。
使用Hadoop 文件系统代码加载数据到HDFS及从HDFS加载数据。
转化、展现、存储
将存储在HDFS上的一组特定格式的数据值转化成新数据值或新数据格式,并写入HDFS或Hive/HCatalog。需要如下技能:
将数据从一种格式转化成另一种格式
用压缩形式写数据
将数据从一组值转化成另一组值(如:使用一个外部库将经纬度转化成邮政地址)
转换数据集值的数据格式
清理数据集中不良记录,如:空值
去除重复数据、整合数据
反范多个不同数据集的数据
进化Avro或Parquet格式
根据一个或多个分区键对现有数据集进行分区
调整数据实现最优查询
数据分析
过滤,分类,连接,汇总以及转化存储在HDFS上的一个或多个有既定数据格式的数据集,产生一个特定的结果。所有这些任务可能包括从Parquet, Avro, JSON, delimited text, and natural language text中读取文件。这些查询包括复杂的数据形式(如:array, map, struct),还包括外库的执行、分区数据、压缩数据。同时这些查询也需要从Hive/HCatalog中使用元数据。
写查询,汇总多数据行
写查询,计算汇总统计
写查询,过滤数据
写查询,产生分级数据
从HDFS现有的数据中读取或创建一个Hive或HCatalog表
工作流
创建、执行多个任务和操作,使数据向更大的价值方向转化,并在一个系统使用,所需的技能包括:
创建、执行一个线性的操作工作流,其中包括Hadoop 作业、Hive 作业、Pig作业、自定义操作等
创建、执行一个分支操作工作流,其中包括Hadoop 作业、Hive作业、Pig作业、自定义操作等
编排一个工作流定期执行,其中包括有数据依赖性的工作流
考试形式
将给到你5到8个客户问题,每个问题都是独立的、大数据集、一个CDH集群,答题时间是4小时。对于每个问题,你必须提供一个高精度的技术解决方案,这个方案必须符合所有要求。 你可以使用任一工具或在集群上结合多个工具使用(参见下面列表)。你选择的工具必须是符合这个作业的。另外,你必须拥有丰富的行业知识来分析问题,在给定时间内找到最佳方案。你需要了解你应该做什么,在严格的条件下在真实集群上进行操作。答题期间有时间限制,也有监考官监考。
关于备考
CCP数据工程师考生应该具备深厚的数据工程开发经验、熟练掌握以上提及的技能。此考试旨在发掘有能力的数据专业人员,让他们脱颖而出,技能被雇主认可。除了实操经验,推荐专业人士参加Cloudera 的Spark and Hadoop开发者培训课程来辅助获得认证。