12月上海開(kāi)班時(shí)間:管理員周末班(12月12-13日;12月19-20日) 開(kāi)發(fā)者脫產(chǎn)班(12月28-31日) 【其他課程安排請(qǐng)咨詢】15000519329(陳老師) 課程內(nèi)容: 【Cloudera Apache Hadoop管理員課程】 課時(shí):4天 學(xué)習(xí)系統(tǒng)管理的概念和Apache Hadoop的最佳實(shí)踐, 從安裝和配置到負(fù)載均衡和調(diào)優(yōu)。 這個(gè)4天的的課程通過(guò)動(dòng)手時(shí)間來(lái)賦予你部署的經(jīng)驗(yàn), 以及更多的安全方面的經(jīng)驗(yàn)和故障排除。 課程結(jié)束后,學(xué)員被鼓勵(lì)去參加Cloudera和Apache Hadoop管理員(CCAH)考試。 【課程內(nèi)容】 1、Hadoop分布式文件系統(tǒng)(HDFS) 2、YARN/MapReduce的工作原理 3、如何優(yōu)化Hadoop機(jī)群所需要的硬件配置 4、搭建Hadoop機(jī)群所需要考慮的網(wǎng)絡(luò)因素 5、Hadoop機(jī)群維護(hù)和控制 6、如何利用Hadoop配置選項(xiàng)進(jìn)行系統(tǒng)性能調(diào)優(yōu) 7、如何利用FairScheduler為多用戶提供服務(wù)級(jí)別保障 8、Hadoop機(jī)群維護(hù)和監(jiān)控 9、如何使用Flume從動(dòng)態(tài)生成的文件加載到Hadoop 10、如何使用Sqoop從關(guān)系型數(shù)據(jù)加載數(shù)據(jù) 11、Hadoop生態(tài)系統(tǒng)工具(如Hive、Impala、Pig和Base) 【學(xué)員基礎(chǔ)】 具備基本Linux系統(tǒng)管理經(jīng)驗(yàn)。不需要事先掌握Hadoop相關(guān)知識(shí)。 【授課形式】 案例教學(xué)+上機(jī)實(shí)踐 【Cloudera Apache Hadoop程序員課程】 課時(shí):4天 學(xué)習(xí)Hadoop分布式文件系統(tǒng)(HDFS)基礎(chǔ)和MapReduce框架以及如何利用其API來(lái)編寫(xiě)程序, 討論為更大型的工作流程而設(shè)計(jì)技術(shù)。 這門(mén)4天的課程涵蓋了為MapReduce程序修復(fù)漏洞和優(yōu)化性能所需的高級(jí)技巧。 程序員課程也引入了Apache生態(tài)項(xiàng)目比如Hive、Pig、HBase、Flume和Oozie。 在完成課程后,學(xué)員被鼓勵(lì)參加Cloudera認(rèn)證Apache Hadoop程序員(CCDH)考試。 【課程內(nèi)容】 1、MapReduce與HDFS內(nèi)核知識(shí)以及如何編寫(xiě)MapReduce程序 2、Hadoop開(kāi)發(fā)的最佳實(shí)踐,調(diào)試、實(shí)現(xiàn)工作流及通用算法 3、如何利用Hive、Pig、Sqoop、Flume、Oozie及其他Hadoop的組件 4、按需定制WritableComparables與InputFormats處理復(fù)雜的數(shù)據(jù)類型 5、利用MapReduce編寫(xiě)、執(zhí)行連接操作以整合不同數(shù)據(jù)集合 6、用于現(xiàn)實(shí)世界數(shù)據(jù)分析所需的高級(jí)HadoopAPI主題 7、用Java寫(xiě)MapReduce程序,用Streaming寫(xiě)MapReduce程序 8、調(diào)試MapReduce代碼的策略,利用localjobrunner在本地測(cè)試MapReduce代碼 9、Partitioners和Reducers如何一起工作,定制化Partitioners 10、定制Writable和WritableComparable 11、用SequenceFile和Avro數(shù)據(jù)文件存儲(chǔ)二進(jìn)制數(shù)據(jù) 【學(xué)員基礎(chǔ)】 該課程適合具有一定編程經(jīng)驗(yàn)的程序開(kāi)發(fā)人員。由于課程中需要完成Hadoop相關(guān)編程練習(xí),熟悉Java者優(yōu)先 【授課形式】 案例教學(xué)+上機(jī)實(shí)踐 【Cloudera 數(shù)據(jù)分析課程】 課時(shí):4天 針對(duì)任何需要在Hadoop上實(shí)時(shí)地通過(guò)SQL和熟悉的腳本來(lái)管理、操縱和查詢大型復(fù)雜數(shù)據(jù)的人。 學(xué)習(xí)Apache Pig、Apache Hive和Cloudera Impala如何通過(guò)過(guò)濾聯(lián)接和其他用戶自定義的功能 來(lái)支持?jǐn)?shù)據(jù)的轉(zhuǎn)型和分析。 【課程內(nèi)容】 1、Hadoop生態(tài)圈、實(shí)驗(yàn)場(chǎng)景介紹、用Hadoop工具導(dǎo)入數(shù)據(jù) 2、pig的特性、使用案例、和pig交互、pig Latin語(yǔ)法、Field定義、用pig執(zhí)行ETL流程 3、pig處理復(fù)雜數(shù)據(jù),復(fù)雜/nested嵌套的數(shù)據(jù)類型、用pig分析廣告戰(zhàn)役的數(shù)據(jù) 4、pig的多數(shù)據(jù)組操作,pig鏈接多數(shù)據(jù)組、用pig分析離散的數(shù)據(jù)組 5、用流處理和UDFs擴(kuò)展pig,Macros和Imports、contributed functions,用其他語(yǔ)言和pig一起處理數(shù)據(jù) 6、pig故障排查和優(yōu)化,用web界面排查一個(gè)故障的任務(wù)、Data采樣和故障排查、理解執(zhí)行計(jì)劃、提高pig任務(wù)性能 7、hive表結(jié)構(gòu)和數(shù)據(jù)儲(chǔ)存、對(duì)比hive和傳統(tǒng)數(shù)據(jù)庫(kù)、hive vs.pig、hive使用案例 8、hive的關(guān)系數(shù)據(jù)分析、數(shù)據(jù)管理、文本處理、優(yōu)化及擴(kuò)展,在shell、腳本和hue上運(yùn)行hive查詢 9、impala和hive、pig、關(guān)系數(shù)據(jù)庫(kù)的不同、使用impala shell 10、采樣impala分析數(shù)據(jù),過(guò)濾、排序and limiting results,提升impala性能,impala的交互式分析 11、對(duì)比map reduce、pig、hive、impala和關(guān)系數(shù)據(jù)庫(kù) 【學(xué)員基礎(chǔ)】 該課程適合有SQL經(jīng)驗(yàn)和基本UNIX和Linux命令的數(shù)據(jù)分析師、業(yè)務(wù)分析師和管理員 事先無(wú)需Java和Apache Hadoop的經(jīng)驗(yàn) 【授課形式】 案例教學(xué)+上機(jī)實(shí)踐 |