一、培训时间及地点
2015年11月20日--11月23日(20日报到)北京
二、培训师资
刘老师:阿里大数据高级专家,国内资深的Spark、Hadoop技术专家、虚拟化专家,对HDFS、MapReduce、HBase、Hive、Mahout、Storm、spark和openTSDB等Hadoop生态系统中的技术进行了多年的深入的研究,更主要的是这些技术在大量的实际项目中得到广泛的应用,因此在Hadoop开发和运维方面积累了丰富的项目实施经验。近年主要典型的项目有:某电信集团网络优化、中国移动某省移动公司请账单系统和某省移动详单实时查询系统、中国银联大数据数据票据详单平台、某大型银行大数据记录系统、某大型通信运营商全国用户上网记录、某省交通部门违章系统、某区域医疗大数据应用项目、互联网公共数据大云(DAAS)和构建游戏云(WebGameDaas)平台项目等。
三、课程目标
1、了解Hadoop的历史及目前发展的现状、以及Hadoop的技术特点,从而把握分布式计算框架及未来发展方向,在大数据时代能为企业的技术选型及架构设计提供决策参考。
2、全面掌握Hadoop的架构原理和使用场景,并通过贯穿课程的项目进行实战锻炼,从而熟练使用Hadoop进行MapReduce程序开发。课程还涵盖了分布式计算领域的常用算法介绍,帮助学员为企业在利用大数据方面体现自身价值。
3、深入理解Hadoop技术架构,对Hadoop运作机制有清晰全面的认识,可以独立规划及部署生产环境的Hadoop集群,掌握Hadoop基本运维思路和方法,对Hadoop集群进行管理和优化。
四、培训特色
注重应用:分析国内实际情况,结合国际、国内成功经验。Hadoop采用实战的项目,让学员在短时间内掌握Hadoop的搭建与配置。并进行高效的大数据清洗和分析。形式灵活:互动课堂、免费技术沙龙、提供云计算项目建设咨询、大数据Hadoop平台的搭建。
五、培训对象
IT公司数据分析师、数据中心架构师、商业智能分析师、研发负责人、研发工程师、各地政府云计算、物联网产业负责人,CIO、信息中心、技术总监,云计算产业投资团队,云计算应用开发商,云计算硬件设备、运营服务提供商,高校、科研院所云计算项目负责人。
高级开发工程师、设计师、架构师、系统管理员、开发经理、测试经理、产品经理、项目经理等。
六、培训证书
工业和信息化部人才交流中心颁发的《工业和信息化领域急需紧缺人才》大数据分析高级工程师证书。证书可作为专业技术人员职业能力考核的证明,以及专业技术人员岗位聘用、任职、定级和晋升职务的重要依据。证书查询:www.ncie.gov.cn
七、培训费用
培训费:5800元/人(含教材、培训费、以及学习用具等费用)食宿统一安排,费用自理。
八、培训内容(3天课程)
课程模块 |
课程主题 |
n主要内容 |
n案例和演示 |
卓绝天 |
Hadoop简介和生态系统介绍 |
u传统大规模数据分析存在的问题 Hadoop概述 Hadoop与分布式文件系统 Hadoop生态系统 Hadoop的行业应用案例分析 Hadoop在云计算和大数据的位置和关系 Hadoop版本介绍 Hadoop与GoogleFS的关系 Hadoop在国内的使用情况和未来 |
uHadoop在推荐领域的使用案例介绍 |
大数据应用场景 |
离线计算架构、技术和应用场景 实时查询架构、技术和应用场景 流式计算架构、技术和应用场景 内存计算架构、技术和应用场景 海量数据的ETL |
|
|
Hadoop组件介绍 |
HadoopNameNode介绍 HadoopSecondaryNameNode介绍 HadoopDataNode介绍 HadoopJobTracker介绍 HadoopTaskTracker介绍 |
|
|
Hadoop的HDFS模块 |
uHDFS架构介绍 uHDFS原理介绍 uNameNode功能详解 uDataNode功能详解 uSecondaryNameNode功能详解 uHSFD的fsimage和editslog详解 uHDFS的block详解 uHDFS的block的备份策略 uHadoop的机架感知配置 uHDFS的shell命令介绍 uHDFS的thriftserver服务介绍 uHDFS的API接口介绍 uHDFS的权限详解 uHadoop的客服端接入案例 |
Hadoop的shell命令演示 Hadoop的API接口演示 Hadoop的客服端接入案例 |
|
第二天 |
Hadoop生态组件 |
u集群管理工具—ambari u分布式存储—HDFS u分布式计算—MapReduce unoSQL数据库—Hbase u工作流工具—Oozie u数据的并行采集—Flume uMapReduce脚本工具—Pig u与关系型数据库之间的数据迁移—Sqoop u资源管理平台—Yarn u数据挖掘算法—Mahout u分布式统一服务—Zookeeper uHadoop安全工具—Knox |
? |
MapReducer入门 |
Mapreduce原理 MapReduce流程 剖析一个MapReduce程序 Mapper和Reducer抽象类详解 Mapreduce的更小驱动类 MapReduce自带的类型 自定义Writables和WritableComparables Mapreduce的输入InputFormats MapReduce的输出OutputFormats Combiner详解 Partitioner详解 DistributeFileSystem详解 HadoopTools工具介绍 Counter计数器详解 自定义Counter计数器 基于Hadoop二次开发实战 MapReduce的优化 Map和Reduce的个数设置 Hadoop小文件优化 任务调度 默认的任务调度 公平任务调度 能力任务调度 使用HadoopMapReduceStreaming编程 MapReduce的单元测试 |
MapReduce实现海量数据比较大小案例 自定义Hadoop类型案例 自定义Partitioner案例 实现在内存随机生成100个数,分成两个Map来比较大小 多文件输出和自动定义MapReduce的输出名 MapReduce实现Join算法案例 MapReduce实现海量文档相似度算法 自定义Counter案例实现 MapReduce实现Pangrank算法。 apReduce单元测试:Map的单元测试测试、reduce单元测试和MapReduce整体的单元测试实战。 某公司使用MapReduce分析日志案例(10T数据以上) ?配置公平调度器案例实战
|
|
Yarn资源控制 |
使用Cgroups支持CPU隔离 指定某个应用的资源使用策略; 根据指定策略实现CPU与内存的固定配额调度 根据指定策略实现CPU与内存百分比的配额调度 根据指定策略实现不同计算模型(mapreduce、spark)在各个计算节点的分布 根据指定策略实现不同计算模型个对资源的限定 根据指定策略实现不同计算模型在具体哪些节点上启动 基于Yarn的公平调度(FairScheduler)和能力调度(CapacityScheduler) |
?Yarn资源控制实战 |
|
Hive |
Hive和Pig基础 Hive、Impala和presto的比较 Hive的作用和原理说明 Hadoop仓库和传统数据仓库的协作关系 Hadoop/Hive仓库数据数据流 Hive部署和安装 HiveCli的基本用法 Hive的server启动 HQL基本语法 Hive的加载数据本地加载和HDFS加载 Hive的partition详解 Hive的存储方式详解 RCFILE、TEXTFILE和SEQUEUEFILE Hive的UDF和UDAF Hive的transform详解 Hive的JDBC连接 |
使用JDBC连接Hive进行查询和分析 使用正则表达式加载数据 编写UDF函数 编写UDAF自定义函数 Partition使用实战 Transform使用实战 某些大型公司使用hive分析日志案例详解和实战。 |
|
第三天 |
Hbase使用 |
?Hbase原理 Hmaster详解 RegionServer详解 Zookeeper介绍 Hbase安装 Hbase逻辑视图介绍 Hbase物理视图介绍 Hbase的二级索引介绍 Hbase的DDL和DML Hbase表的设计案例 Hbase的import功能介绍 MapReduce操作Hbase Hbase的thriftServer介绍 Hbase的API介绍 Hbase案例分析 |
Hbase安装实战 MapReduce操作Hbase实战 Hbase的API实战 Hbase表结构设计实战 |
Spark介绍 |
内存计算—Spark 实时计算—SparkStreaming SQLonSpark—SparkQL&Shark 基于spark的数据挖掘—Mllib 基于Spark的图计算—graphx SparkonYarn实战 |
Spark Kafka SparkStreaming Hbase实时计算实战 |
|
|
互联网大数据应用案例 |
阿里的ODPS大数据平台架构介绍 阿里的实时推荐架构 阿里的交叉营销系统 阿里支付宝交易监控系统 支付宝微贷案例分析(互联网征信系统) 京东打白条系统分析 百度预测大数据平台案例分析 联通大数据开放平台变现案例分析 |
基于spark推荐案例实战(数据导入、数据建模、开发、效果展示) 银行大数据风险监控系统架构详解
|