線下北京、上海、深圳、成都、重慶定期開課(線上不定期開課) 每門課課時:28h/4天 Q1438118790 Cloudera Developer Training for Sparkand Hadoop(CCA-175)課程介紹 Hadoop 及生態系統介紹
• ApacheHadoop 概述 • 數據存儲和攝取 • 數據處理 • 數據分析和探索 • 其他生態系統工具 • 練習環境及分析應用場景介紹
Apache Hadoop 文件存儲
• 傳統大規模系統的問題 • HDFS 體系結構 • 使用 HDFS • ApacheHadoop 文件格式
Apache Hadoop 機群上的數據處理
• YARN 體系結構 • 使用 YARN
使用 Apache Sqoop 導入關系數據
• Sqoop 簡介 • 數據導入 • 導入的文件選項 • 數據導出
Apache Spark 基礎
• 什么是 Apache Spark• 使用 Spark Shell • RDDs( 可恢復的分布式數據集) • Spark 里的函數式編程
Spark RDD
• 創建 RDD • 其他一般性 RDD 操作
使用鍵值對 RDD
• 鍵值對 RDD • MapReduce • 其他鍵值對 RDD 操作
編寫和運行 Apache Spark 應用
• Spark 應用對比 Spark Shell• 創建 SparkContext • 創建 Spark 應用(Scala 和 Java) • 運行 Spark 應用• Spark 應用 WebUI
配置 Apache Spark 應用
• 配置 Spark 屬性• 運行日志
Apache Spark 的并行處理
• 回顧:機群環境里的 Spark • RDD 分區 • 基于文件 RDD 的分區• HDFS 和本地化數據 • 執行并行操作 • 執行階段及任務
Spark 持久化
• RDD 演變族譜 • RDD 持久化簡介 • 分布式持久化
Apache Spark 數據處理的常見模式
• 常見 Spark 應用案例• 迭代式算法 • 機器學習 • 例子:K - Means
DataFrames 和 Spark SQL
• Apache SparkSQL 和 SQL Context • 創建 DataFrames • 變更及查詢 DataFrames• 保存 DataFrames • DataFrames 和 RDD • Spark SQL 對比 Impala 和Hive-on-Spark • Spark 2.x 版本上的 ApacheSpark SQL
Apache Kafka
• 什么是 Apache Kafka• Apache Kafka 概述 • 如何擴展 ApacheKafka • Apache Kafka 機群架構 • Apache Kafka命令行工具
使用 Apache Flume 采集實時數據
• 什么是 Apache Flume• Flume 基本體系結構 • Flume 源 • Flume 槽 • Flume 通道 • Flume 配置 集成 Apache Flume 和 Apache Kafka
• 概要 • 應用案例 • 配置 Apache Spark Streaming:DStreams 介紹
• Apache SparkStreaming 概述 • 例子:Streaming 訪問計數 • DStreams • 開發 Streaming 應用
Apache Spark Streaming:批處理
• 批處理操作 • 時間分片 • 狀態操作 • 滑動窗口操作 Apache Spark Streaming:數據源
• Streaming 數據源概述 • Apache Flume和Apache Kafka 數據源 • 例子:使用 Direct 模式連接 Kafka • 數據源 ClouderaAdministrator Training for Apache Hadoop(CCA131) 課程介紹 Apache Hadoop 介紹: Hadoop 動機、基本概念、Hadoop 核心部件 Hadoop 機群安裝: 機群管理方案、Cloudera Manager 特性、Cloudera manager 安裝、Hadoop (CDH) 安裝 Hadoop 分布式文件系統 (HDFS): HDFS 特性、讀寫文件、NameNode 內存考慮、HDFS 安全簡介、HDFS Web UI、使用 HDFS Shell YARN 上的 MapReduce 和 Spark: 計算平臺在 Hadoop 里扮演的角色、YARN:機群資源管理器、MapReduce 概念、Apache Spark 概念、Yarn 上的計算平臺、YARN Web UI 及 Shell、YARN應用運行日志 Hadoop 配置及服務運行日志: Cloudera Manager 配置管理機制、定位配置參數及進行配置變更、管理角色實例及添加服務、配置HDFS 服務務、配置 Hadoop 服務運行日志、配置YARN 服務 向 HDFS 導入數據: 使用 Flume 從外部數據源實時導入數據、使用 Sqoop 從關系數據庫導入數據、REST 接口、導入數據的最佳實踐 Hadoop 機群規劃: 規劃考慮因素、硬件選擇、虛擬化選項、網絡因素、節點配置 Hive,Impala 及 Pig 的安裝及配置: Hive、Impala、Pig Hadoop 客戶端及 Hue: 什么是 Hadoop 客戶端、安裝及配置 Hadoop 客戶端、安裝及配置 Hue、使用 Hue 進行身份驗證及授權 機群高級配置: 高級配置參數、Hadoop 端口配置、HDFS 機柜感知配置、HDFS 高可靠性配置 Hadoop 安全: Hadoop 安全的重要性、Hadoop 安全性概念、Kerberos 簡介、使用 Kerberos 保護 Hadoop 機群、其他安全特性 資源管理: 使用靜態服務池配置 Linux cgroup、公平調度器、配置動態資源池、YARN 內存及 CPU 設置、Impala查詢調度 機群維護: 檢查 HDFS 狀態、機群間復制數據、添加/移除機群節點、機群數據負載平衡、目錄快照、機群升級 機群監控及排錯: Cloudera Manager 監控特性、監控 Hadoop 機群、Hadoop 機群排錯、常見配置不當問題
|