返回
返回 我的 北京
首页 分享 收藏 预约报名 拨打电话

北京Hadoop大数据处理高级工程师培训课程

2018-02-07 23:10:17 108
如遇无效、虚假、诈骗课程,请立即举报
为了您的资金安全,请见面交易,切勿提前支付任何费用
举报
培训课程详情
课程详情

一、培训时间及地点

2015年11月20日--11月23日(20日报到)北京

二、培训师资

刘老师:阿里大数据高级专家,国内资深的Spark、Hadoop技术专家、虚拟化专家,对HDFS、MapReduce、HBase、Hive、Mahout、Storm、spark和openTSDB等Hadoop生态系统中的技术进行了多年的深入的研究,更主要的是这些技术在大量的实际项目中得到广泛的应用,因此在Hadoop开发和运维方面积累了丰富的项目实施经验。近年主要典型的项目有:某电信集团网络优化、中国移动某省移动公司请账单系统和某省移动详单实时查询系统、中国银联大数据数据票据详单平台、某大型银行大数据记录系统、某大型通信运营商全国用户上网记录、某省交通部门违章系统、某区域医疗大数据应用项目、互联网公共数据大云(DAAS)和构建游戏云(WebGameDaas)平台项目等。

三、课程目标

1、了解Hadoop的历史及目前发展的现状、以及Hadoop的技术特点,从而把握分布式计算框架及未来发展方向,在大数据时代能为企业的技术选型及架构设计提供决策参考。

2、全面掌握Hadoop的架构原理和使用场景,并通过贯穿课程的项目进行实战锻炼,从而熟练使用Hadoop进行MapReduce程序开发。课程还涵盖了分布式计算领域的常用算法介绍,帮助学员为企业在利用大数据方面体现自身价值。

3、深入理解Hadoop技术架构,对Hadoop运作机制有清晰全面的认识,可以独立规划及部署生产环境的Hadoop集群,掌握Hadoop基本运维思路和方法,对Hadoop集群进行管理和优化。

四、培训特色

注重应用:分析国内实际情况,结合国际、国内成功经验。Hadoop采用实战的项目,让学员在短时间内掌握Hadoop的搭建与配置。并进行高效的大数据清洗和分析。形式灵活:互动课堂、免费技术沙龙、提供云计算项目建设咨询、大数据Hadoop平台的搭建。

五、培训对象

IT公司数据分析师、数据中心架构师、商业智能分析师、研发负责人、研发工程师、各地政府云计算、物联网产业负责人,CIO、信息中心、技术总监,云计算产业投资团队,云计算应用开发商,云计算硬件设备、运营服务提供商,高校、科研院所云计算项目负责人。

高级开发工程师、设计师、架构师、系统管理员、开发经理、测试经理、产品经理、项目经理等。

六、培训证书

工业和信息化部人才交流中心颁发的《工业和信息化领域急需紧缺人才》大数据分析高级工程师证书。证书可作为专业技术人员职业能力考核的证明,以及专业技术人员岗位聘用、任职、定级和晋升职务的重要依据。证书查询:www.ncie.gov.cn

七、培训费用

培训费:5800元/人(含教材、培训费、以及学习用具等费用)食宿统一安排,费用自理。

八、培训内容(3天课程)

课程模块

课程主题

n主要内容

n案例和演示





























卓绝天

Hadoop简介和生态系统介绍

u传统大规模数据分析存在的问题

Hadoop概述

Hadoop与分布式文件系统

Hadoop生态系统

Hadoop的行业应用案例分析

Hadoop在云计算和大数据的位置和关系

Hadoop版本介绍

Hadoop与GoogleFS的关系

Hadoop在国内的使用情况和未来

uHadoop在推荐领域的使用案例介绍

大数据应用场景

离线计算架构、技术和应用场景

实时查询架构、技术和应用场景

流式计算架构、技术和应用场景

内存计算架构、技术和应用场景

海量数据的ETL


Hadoop组件介绍

HadoopNameNode介绍

HadoopSecondaryNameNode介绍

HadoopDataNode介绍

HadoopJobTracker介绍

HadoopTaskTracker介绍


Hadoop的HDFS模块

uHDFS架构介绍

uHDFS原理介绍

uNameNode功能详解

uDataNode功能详解

uSecondaryNameNode功能详解

uHSFD的fsimage和editslog详解

uHDFS的block详解

uHDFS的block的备份策略

uHadoop的机架感知配置

uHDFS的shell命令介绍

uHDFS的thriftserver服务介绍

uHDFS的API接口介绍

uHDFS的权限详解

uHadoop的客服端接入案例

Hadoop的shell命令演示

Hadoop的API接口演示

Hadoop的客服端接入案例



















































第二天





Hadoop生态组件

u集群管理工具—ambari

u分布式存储—HDFS

u分布式计算—MapReduce

unoSQL数据库—Hbase

u工作流工具—Oozie

u数据的并行采集—Flume

uMapReduce脚本工具—Pig

u与关系型数据库之间的数据迁移—Sqoop

u资源管理平台—Yarn

u数据挖掘算法—Mahout

u分布式统一服务—Zookeeper

uHadoop安全工具—Knox

?

MapReducer入门

Mapreduce原理

MapReduce流程

剖析一个MapReduce程序

Mapper和Reducer抽象类详解

Mapreduce的更小驱动类

MapReduce自带的类型

自定义Writables和WritableComparables

Mapreduce的输入InputFormats

MapReduce的输出OutputFormats

Combiner详解

Partitioner详解

DistributeFileSystem详解

HadoopTools工具介绍

Counter计数器详解

自定义Counter计数器

基于Hadoop二次开发实战

MapReduce的优化

Map和Reduce的个数设置

Hadoop小文件优化

任务调度

默认的任务调度

公平任务调度

能力任务调度

使用HadoopMapReduceStreaming编程

MapReduce的单元测试

MapReduce实现海量数据比较大小案例

自定义Hadoop类型案例

自定义Partitioner案例

实现在内存随机生成100个数,分成两个Map来比较大小

多文件输出和自动定义MapReduce的输出名

MapReduce实现Join算法案例

MapReduce实现海量文档相似度算法

自定义Counter案例实现

MapReduce实现Pangrank算法。

apReduce单元测试:Map的单元测试测试、reduce单元测试和MapReduce整体的单元测试实战。

某公司使用MapReduce分析日志案例(10T数据以上)

?配置公平调度器案例实战








Yarn资源控制

使用Cgroups支持CPU隔离

指定某个应用的资源使用策略;

根据指定策略实现CPU与内存的固定配额调度

根据指定策略实现CPU与内存百分比的配额调度

根据指定策略实现不同计算模型(mapreduce、spark)在各个计算节点的分布

根据指定策略实现不同计算模型个对资源的限定

根据指定策略实现不同计算模型在具体哪些节点上启动

基于Yarn的公平调度(FairScheduler)和能力调度(CapacityScheduler)

?Yarn资源控制实战

Hive

Hive和Pig基础

Hive、Impala和presto的比较

Hive的作用和原理说明

Hadoop仓库和传统数据仓库的协作关系

Hadoop/Hive仓库数据数据流

Hive部署和安装

HiveCli的基本用法

Hive的server启动

HQL基本语法

Hive的加载数据本地加载和HDFS加载

Hive的partition详解

Hive的存储方式详解

RCFILE、TEXTFILE和SEQUEUEFILE

Hive的UDF和UDAF

Hive的transform详解

Hive的JDBC连接

使用JDBC连接Hive进行查询和分析

使用正则表达式加载数据

编写UDF函数

编写UDAF自定义函数

Partition使用实战

Transform使用实战

某些大型公司使用hive分析日志案例详解和实战。

第三天

Hbase使用

?Hbase原理

Hmaster详解

RegionServer详解

Zookeeper介绍

Hbase安装

Hbase逻辑视图介绍

Hbase物理视图介绍

Hbase的二级索引介绍

Hbase的DDL和DML

Hbase表的设计案例

Hbase的import功能介绍

MapReduce操作Hbase

Hbase的thriftServer介绍

Hbase的API介绍

Hbase案例分析

Hbase安装实战

MapReduce操作Hbase实战

Hbase的API实战

Hbase表结构设计实战

Spark介绍

内存计算—Spark

实时计算—SparkStreaming

SQLonSpark—SparkQL&Shark

基于spark的数据挖掘—Mllib

基于Spark的图计算—graphx

SparkonYarn实战

Spark Kafka SparkStreaming Hbase实时计算实战





互联网大数据应用案例

阿里的ODPS大数据平台架构介绍

阿里的实时推荐架构

阿里的交叉营销系统

阿里支付宝交易监控系统

支付宝微贷案例分析(互联网征信系统)

京东打白条系统分析

百度预测大数据平台案例分析

联通大数据开放平台变现案例分析

基于spark推荐案例实战(数据导入、数据建模、开发、效果展示)

银行大数据风险监控系统架构详解



联系我时,请说是在【好培训网】看到的。
相关培训课程