北京8月16-19日Cloudera Developer training for Spark and Hadoop(CCA-175) 上海8月27-30日Cloudera Developer training for Spark and Hadoop(CCA-175) 廣州9月5-8日Cloudera Developer training for Spark and Hadoop(CCA-175) 北京9月20-23日Cloudera Aaminisrrator Training for Apache Hadoop(CCAH) 上海9月27-30日Cloudera Aaminisrrator Training for Apache Hadoop(CCAH) 【其他課程安排請咨詢】400-679-6113 Cloudera大數據 478790619 課程內容: 【Cloudera Apache Hadoop管理員課程】 課時:4天 學習系統管理的概念和Apache Hadoop的最佳實踐, 從安裝和配置到負載均衡和調優。 這個4天的的課程通過動手時間來賦予你部署的經驗, 以及更多的安全方面的經驗和故障排除。 課程結束后,學員被鼓勵去參加Cloudera和Apache Hadoop管理員(CCAH)考試。 【課程內容】 1、Hadoop分布式文件系統(HDFS) 2、YARN/MapReduce的工作原理 3、如何優化Hadoop機群所需要的硬件配置 4、搭建Hadoop機群所需要考慮的網絡因素 5、Hadoop機群維護和控制 6、如何利用Hadoop配置選項進行系統性能調優 7、如何利用FairScheduler為多用戶提供服務級別保障 8、Hadoop機群維護和監控 9、如何使用Flume從動態生成的文件加載到Hadoop 10、如何使用Sqoop從關系型數據加載數據 11、Hadoop生態系統工具(如Hive、Impala、Pig和Base) 【學員基礎】 具備基本 Linux系統管理經驗。不需要事先掌握Hadoop相關知識。 【授課形式】 案例教學+上機實踐 【Cloudera Apache Hadoop開發者課程】 課時:4天 【課程內容】 什么是Spark? 回顧:從Hadoop MapReduce到Spark 回顧:HDFS 回顧:YARN spark概述 spark Shell的使用 RDDS(彈性分布式數據集) Spark中的函數式編程 創建RDDs 其它通用RDD操作 鍵值對RDD(Pair RDDs) Map-Reduce 其它鍵值對RDD(Pair RDDS)操作 Spark應用程序vs. Spark Shell 創建SparkContext 建立Spark應用程序(Scala和java) 運行Spark應用程序 Spark應用程序網頁用戶界面(Web UI) 配置Spark屬性 日志記錄 回顧:集群上的Spark RDD分區 基于文件RDDs的分區 HDFS和數據本地性 執行并行操作 階段和任務 RDD沿襲 RDD持久化概述 分布式持久化 Spark Streaming概述 實例:流請求計數 DStreams 開發Spark Streaming應用程序 多批處理操作 狀態操作 滑動窗口操作 高級數據源 通用的Spark使用案例 Spark中的迭代算法 圖處理與分析 機器學習 實例:K-means 共享變量:廣播變量(Broadcast Variables) 共享變量:累加器(Accumulators) 常見性能問題 診斷性能問題 SparkSQL和SQL Context 創建DataFrames DataFrames轉化和查詢 保存DataFrames DataFrames和RDDS SparkSQL,Impala和Hive-on-Spark的比較 【學員基礎】 具備項目經驗;熟悉Python與Scala;熟悉MySQL會有幫助 【授課形式】 案例教學+上機實踐
|