3月北京開班時間:開發者(3月28-31) 3月上海開班時間:管理員(3月1-4日);開發者(3月23-26日) 3月廣州開班時間:Hbase(3月12-15) 【其他課程安排請咨詢】15000519329(陳老師) Cloudera大數據 478790619 課程內容: 【Cloudera Apache Hadoop管理員課程】 課時:4天 學習系統管理的概念和Apache Hadoop的最佳實踐, 從安裝和配置到負載均衡和調優。 這個4天的的課程通過動手時間來賦予你部署的經驗, 以及更多的安全方面的經驗和故障排除。 課程結束后,學員被鼓勵去參加Cloudera和Apache Hadoop管理員(CCAH)考試。 【課程內容】 1、Hadoop分布式文件系統(HDFS) 2、YARN/MapReduce的工作原理 3、如何優化Hadoop機群所需要的硬件配置 4、搭建Hadoop機群所需要考慮的網絡因素 5、Hadoop機群維護和控制 6、如何利用Hadoop配置選項進行系統性能調優 7、如何利用FairScheduler為多用戶提供服務級別保障 8、Hadoop機群維護和監控 9、如何使用Flume從動態生成的文件加載到Hadoop 10、如何使用Sqoop從關系型數據加載數據 11、Hadoop生態系統工具(如Hive、Impala、Pig和Base) 【學員基礎】 具備基本Linux系統管理經驗。不需要事先掌握Hadoop相關知識。 【授課形式】 案例教學+上機實踐 【Cloudera Apache HBase課程】(通過考試可頒發CCSHB全球認證證書) 課時:4天 學習如何將HBase作為一個分布式的數據儲存以實現低延遲的查詢和高擴展的吞吐。 這4天的課程涵蓋了HBase架構、數據模型、Java API及其他高級課題和最佳實踐。 完成該課程后,學員被鼓勵參加cloudera認證Apache HBase專家(CCSHB)考試來驗證和認證其Hadoop經驗。 【課程內容】 1、什么是HBase、為什么要用HBase,HBase和RDBMS,HBase的給予和索取 2、HBase系統管理API,HBase Shell、創建表、HBase Java API、系統管理調用 3、通過HBase API訪問數據,API的使用、數據檢索、在shell添加和更新數據、刪除數據 4、用API添加、更新數據,Scan API、高級API技術、使用Eclipse 5、集群組件、HBase如何擴展,HBase寫路徑、讀路徑,壓縮和拆分 6、HBase的安裝、配置及其安全性 7、HBase daemnon、ZooKeeper、HBase系統管理 8、復制、備份、MapeRduce和HBase集群 9、HBase里RowKey設計,從關系數據庫到HBase表結構設計,以應用為中心的設計 10、列族、表結構設計的考慮點、熱點處理 11、HBase生態系統:OpenTSDB、Kiji、HBase和hive 【學員基礎】 該課程適合需要使用HBase的開發員和管理員。 預備的數據庫和數據建模的經驗有幫助,但不是必須的。 預備的Java知識有幫助,Hadoop經驗不是必須的, 但是cloudera的Apache Hadoop開發培訓課是個絕佳的基礎。 【授課形式】 案例教學+上機實踐 【Cloudera Apache Hadoop程序員課程】 課時:4天 學習Hadoop分布式文件系統(HDFS)基礎和MapReduce框架以及如何利用其API來編寫程序, 討論為更大型的工作流程而設計技術。 這門4天的課程涵蓋了為MapReduce程序修復漏洞和優化性能所需的高級技巧。 程序員課程也引入了Apache生態項目比如Hive、Pig、HBase、Flume和Oozie。 【課程內容】 1、MapReduce與HDFS內核知識以及如何編寫MapReduce程序 2、Hadoop開發的最佳實踐,調試、實現工作流及通用算法 3、如何利用Hive、Pig、Sqoop、Flume、Oozie及其他Hadoop的組件 4、按需定制WritableComparables與InputFormats處理復雜的數據類型 5、利用MapReduce編寫、執行連接操作以整合不同數據集合 6、用于現實世界數據分析所需的高級HadoopAPI主題 7、用Java寫MapReduce程序,用Streaming寫MapReduce程序 8、調試MapReduce代碼的策略,利用localjobrunner在本地測試MapReduce代碼 9、Partitioners和Reducers如何一起工作,定制化Partitioners 10、定制Writable和WritableComparable 11、用SequenceFile和Avro數據文件存儲二進制數據 【學員基礎】 該課程適合具有一定編程經驗的程序開發人員。由于課程中需要完成Hadoop相關編程練習,熟悉Java者優先 【授課形式】 案例教學+上機實踐 【Cloudera 數據分析課程】 課時:4天 針對任何需要在Hadoop上實時地通過SQL和熟悉的腳本來管理、操縱和查詢大型復雜數據的人。 學習Apache Pig、Apache Hive和Cloudera Impala如何通過過濾聯接和其他用戶自定義的功能 來支持數據的轉型和分析。 【課程內容】 1、Hadoop生態圈、實驗場景介紹、用Hadoop工具導入數據 2、pig的特性、使用案例、和pig交互、pig Latin語法、Field定義、用pig執行ETL流程 3、pig處理復雜數據,復雜/nested嵌套的數據類型、用pig分析廣告戰役的數據 4、pig的多數據組操作,pig鏈接多數據組、用pig分析離散的數據組 5、用流處理和UDFs擴展pig,Macros和Imports、contributed functions,用其他語言和pig一起處理數據 6、pig故障排查和優化,用web界面排查一個故障的任務、Data采樣和故障排查、理解執行計劃、提高pig任務性能 7、hive表結構和數據儲存、對比hive和傳統數據庫、hive vs.pig、hive使用案例 8、hive的關系數據分析、數據管理、文本處理、優化及擴展,在shell、腳本和hue上運行hive查詢 9、impala和hive、pig、關系數據庫的不同、使用impala shell 10、采樣impala分析數據,過濾、排序and limiting results,提升impala性能,impala的交互式分析 11、對比map reduce、pig、hive、impala和關系數據庫 【學員基礎】 該課程適合有SQL經驗和基本UNIX和Linux命令的數據分析師、業務分析師和管理員 事先無需Java和Apache Hadoop的經驗 【授課形式】 案例教學+上機實踐 |