線下北京、上海、深圳、成都、重慶定期開課(線上不定期開課) 每門課課時(shí):28h/4天 Q1438118790 Cloudera Developer Training for Sparkand Hadoop(CCA-175)課程介紹 Hadoop 及生態(tài)系統(tǒng)介紹
• ApacheHadoop 概述 • 數(shù)據(jù)存儲(chǔ)和攝取 • 數(shù)據(jù)處理 • 數(shù)據(jù)分析和探索 • 其他生態(tài)系統(tǒng)工具 • 練習(xí)環(huán)境及分析應(yīng)用場(chǎng)景介紹
Apache Hadoop 文件存儲(chǔ)
• 傳統(tǒng)大規(guī)模系統(tǒng)的問(wèn)題 • HDFS 體系結(jié)構(gòu) • 使用 HDFS • ApacheHadoop 文件格式
Apache Hadoop 機(jī)群上的數(shù)據(jù)處理
• YARN 體系結(jié)構(gòu) • 使用 YARN
使用 Apache Sqoop 導(dǎo)入關(guān)系數(shù)據(jù)
• Sqoop 簡(jiǎn)介 • 數(shù)據(jù)導(dǎo)入 • 導(dǎo)入的文件選項(xiàng) • 數(shù)據(jù)導(dǎo)出
Apache Spark 基礎(chǔ)
• 什么是 Apache Spark• 使用 Spark Shell • RDDs( 可恢復(fù)的分布式數(shù)據(jù)集) • Spark 里的函數(shù)式編程
Spark RDD
• 創(chuàng)建 RDD • 其他一般性 RDD 操作
使用鍵值對(duì) RDD
• 鍵值對(duì) RDD • MapReduce • 其他鍵值對(duì) RDD 操作
編寫和運(yùn)行 Apache Spark 應(yīng)用
• Spark 應(yīng)用對(duì)比 Spark Shell• 創(chuàng)建 SparkContext • 創(chuàng)建 Spark 應(yīng)用(Scala 和 Java) • 運(yùn)行 Spark 應(yīng)用• Spark 應(yīng)用 WebUI
配置 Apache Spark 應(yīng)用
• 配置 Spark 屬性• 運(yùn)行日志
Apache Spark 的并行處理
• 回顧:機(jī)群環(huán)境里的 Spark • RDD 分區(qū) • 基于文件 RDD 的分區(qū)• HDFS 和本地化數(shù)據(jù) • 執(zhí)行并行操作 • 執(zhí)行階段及任務(wù)
Spark 持久化
• RDD 演變族譜 • RDD 持久化簡(jiǎn)介 • 分布式持久化
Apache Spark 數(shù)據(jù)處理的常見模式
• 常見 Spark 應(yīng)用案例• 迭代式算法 • 機(jī)器學(xué)習(xí) • 例子:K - Means
DataFrames 和 Spark SQL
• Apache SparkSQL 和 SQL Context • 創(chuàng)建 DataFrames • 變更及查詢 DataFrames• 保存 DataFrames • DataFrames 和 RDD • Spark SQL 對(duì)比 Impala 和Hive-on-Spark • Spark 2.x 版本上的 ApacheSpark SQL
Apache Kafka
• 什么是 Apache Kafka• Apache Kafka 概述 • 如何擴(kuò)展 ApacheKafka • Apache Kafka 機(jī)群架構(gòu) • Apache Kafka命令行工具
使用 Apache Flume 采集實(shí)時(shí)數(shù)據(jù)
• 什么是 Apache Flume• Flume 基本體系結(jié)構(gòu) • Flume 源 • Flume 槽 • Flume 通道 • Flume 配置 集成 Apache Flume 和 Apache Kafka
• 概要 • 應(yīng)用案例 • 配置 Apache Spark Streaming:DStreams 介紹
• Apache SparkStreaming 概述 • 例子:Streaming 訪問(wèn)計(jì)數(shù) • DStreams • 開發(fā) Streaming 應(yīng)用
Apache Spark Streaming:批處理
• 批處理操作 • 時(shí)間分片 • 狀態(tài)操作 • 滑動(dòng)窗口操作 Apache Spark Streaming:數(shù)據(jù)源
• Streaming 數(shù)據(jù)源概述 • Apache Flume和Apache Kafka 數(shù)據(jù)源 • 例子:使用 Direct 模式連接 Kafka • 數(shù)據(jù)源 ClouderaAdministrator Training for Apache Hadoop(CCA131) 課程介紹 Apache Hadoop 介紹: Hadoop 動(dòng)機(jī)、基本概念、Hadoop 核心部件 Hadoop 機(jī)群安裝: 機(jī)群管理方案、Cloudera Manager 特性、Cloudera manager 安裝、Hadoop (CDH) 安裝 Hadoop 分布式文件系統(tǒng) (HDFS): HDFS 特性、讀寫文件、NameNode 內(nèi)存考慮、HDFS 安全簡(jiǎn)介、HDFS Web UI、使用 HDFS Shell YARN 上的 MapReduce 和 Spark: 計(jì)算平臺(tái)在 Hadoop 里扮演的角色、YARN:機(jī)群資源管理器、MapReduce 概念、Apache Spark 概念、Yarn 上的計(jì)算平臺(tái)、YARN Web UI 及 Shell、YARN應(yīng)用運(yùn)行日志 Hadoop 配置及服務(wù)運(yùn)行日志: Cloudera Manager 配置管理機(jī)制、定位配置參數(shù)及進(jìn)行配置變更、管理角色實(shí)例及添加服務(wù)、配置HDFS 服務(wù)務(wù)、配置 Hadoop 服務(wù)運(yùn)行日志、配置YARN 服務(wù) 向 HDFS 導(dǎo)入數(shù)據(jù): 使用 Flume 從外部數(shù)據(jù)源實(shí)時(shí)導(dǎo)入數(shù)據(jù)、使用 Sqoop 從關(guān)系數(shù)據(jù)庫(kù)導(dǎo)入數(shù)據(jù)、REST 接口、導(dǎo)入數(shù)據(jù)的最佳實(shí)踐 Hadoop 機(jī)群規(guī)劃: 規(guī)劃考慮因素、硬件選擇、虛擬化選項(xiàng)、網(wǎng)絡(luò)因素、節(jié)點(diǎn)配置 Hive,Impala 及 Pig 的安裝及配置: Hive、Impala、Pig Hadoop 客戶端及 Hue: 什么是 Hadoop 客戶端、安裝及配置 Hadoop 客戶端、安裝及配置 Hue、使用 Hue 進(jìn)行身份驗(yàn)證及授權(quán) 機(jī)群高級(jí)配置: 高級(jí)配置參數(shù)、Hadoop 端口配置、HDFS 機(jī)柜感知配置、HDFS 高可靠性配置 Hadoop 安全: Hadoop 安全的重要性、Hadoop 安全性概念、Kerberos 簡(jiǎn)介、使用 Kerberos 保護(hù) Hadoop 機(jī)群、其他安全特性 資源管理: 使用靜態(tài)服務(wù)池配置 Linux cgroup、公平調(diào)度器、配置動(dòng)態(tài)資源池、YARN 內(nèi)存及 CPU 設(shè)置、Impala查詢調(diào)度 機(jī)群維護(hù): 檢查 HDFS 狀態(tài)、機(jī)群間復(fù)制數(shù)據(jù)、添加/移除機(jī)群節(jié)點(diǎn)、機(jī)群數(shù)據(jù)負(fù)載平衡、目錄快照、機(jī)群升級(jí) 機(jī)群監(jiān)控及排錯(cuò): Cloudera Manager 監(jiān)控特性、監(jiān)控 Hadoop 機(jī)群、Hadoop 機(jī)群排錯(cuò)、常見配置不當(dāng)問(wèn)題
|