提供Cloudera Hadoop大數據運維、開發、數據分析方面的培訓

IRENE2007 · 發表于 2017-9-5 14:31:29

線下北京、上海、深圳、成都、重慶定期開課（線上不定期開課）

每門課課時：28h/4天

Q1438118790

Cloudera Developer Training for Sparkand Hadoop(CCA-175)課程介紹

Hadoop 及生態系統介紹
•  ApacheHadoop 概述 •  數據存儲和攝取 •  數據處理 •  數據分析和探索 •  其他生態系統工具 •  練習環境及分析應用場景介紹
Apache Hadoop 文件存儲
•  傳統大規模系統的問題 •  HDFS 體系結構 •  使用 HDFS •  ApacheHadoop 文件格式
Apache Hadoop 機群上的數據處理
•  YARN 體系結構 •  使用 YARN
使用 Apache Sqoop 導入關系數據
•  Sqoop 簡介 •  數據導入 •  導入的文件選項 •  數據導出
Apache Spark 基礎
•  什么是 Apache Spark•  使用 Spark Shell •  RDDs( 可恢復的分布式數據集） •  Spark 里的函數式編程
Spark RDD
•  創建 RDD •  其他一般性 RDD 操作
使用鍵值對 RDD
•  鍵值對 RDD •  MapReduce •  其他鍵值對 RDD 操作
編寫和運行 Apache Spark 應用
•  Spark 應用對比 Spark Shell•  創建 SparkContext •  創建 Spark 應用（Scala 和 Java） •  運行 Spark 應用•  Spark 應用 WebUI
配置 Apache Spark 應用
•  配置 Spark 屬性•  運行日志
Apache Spark 的并行處理
•  回顧：機群環境里的 Spark •  RDD 分區 •  基于文件 RDD 的分區•  HDFS 和本地化數據 •  執行并行操作 •  執行階段及任務
Spark 持久化
•  RDD 演變族譜 •  RDD 持久化簡介 •  分布式持久化
Apache Spark 數據處理的常見模式
•  常見 Spark 應用案例•  迭代式算法 •  機器學習 •  例子：K － Means
DataFrames 和 Spark SQL
•  Apache SparkSQL 和 SQL Context •  創建 DataFrames •  變更及查詢 DataFrames•  保存 DataFrames •  DataFrames 和 RDD •  Spark SQL 對比 Impala 和Hive-on-Spark •  Spark 2.x 版本上的 ApacheSpark SQL
Apache Kafka
•  什么是 Apache Kafka•  Apache Kafka 概述 •  如何擴展 ApacheKafka •  Apache Kafka 機群架構 •  Apache Kafka命令行工具
使用 Apache Flume 采集實時數據
•  什么是 Apache Flume•  Flume 基本體系結構 •  Flume 源 •  Flume 槽 •  Flume 通道 •  Flume 配置

集成 Apache Flume 和 Apache Kafka
• 概要 • 應用案例 • 配置

Apache Spark Streaming：DStreams 介紹
• Apache SparkStreaming 概述 • 例子：Streaming 訪問計數 • DStreams • 開發 Streaming 應用
Apache Spark Streaming：批處理
• 批處理操作 • 時間分片 • 狀態操作 • 滑動窗口操作

Apache Spark Streaming：數據源
• Streaming 數據源概述 • Apache Flume和Apache Kafka 數據源 • 例子：使用 Direct 模式連接 Kafka • 數據源

ClouderaAdministrator Training for Apache Hadoop(CCA131) 課程介紹

Apache Hadoop 介紹：

Hadoop 動機、基本概念、Hadoop 核心部件

Hadoop 機群安裝：

機群管理方案、Cloudera Manager 特性、Cloudera manager 安裝、Hadoop (CDH) 安裝

Hadoop 分布式文件系統 (HDFS)：

HDFS 特性、讀寫文件、NameNode 內存考慮、HDFS 安全簡介、HDFS Web UI、使用 HDFS Shell

YARN 上的 MapReduce 和 Spark：

計算平臺在 Hadoop 里扮演的角色、YARN：機群資源管理器、MapReduce 概念、Apache Spark 概念、Yarn 上的計算平臺、YARN Web UI 及 Shell、YARN應用運行日志

Hadoop 配置及服務運行日志：

Cloudera Manager 配置管理機制、定位配置參數及進行配置變更、管理角色實例及添加服務、配置HDFS 服務務、配置 Hadoop 服務運行日志、配置YARN 服務

向 HDFS 導入數據：

使用 Flume 從外部數據源實時導入數據、使用 Sqoop 從關系數據庫導入數據、REST 接口、導入數據的最佳實踐

Hadoop 機群規劃：

規劃考慮因素、硬件選擇、虛擬化選項、網絡因素、節點配置

Hive，Impala 及 Pig 的安裝及配置：

Hive、Impala、Pig

Hadoop 客戶端及 Hue：

什么是 Hadoop 客戶端、安裝及配置 Hadoop 客戶端、安裝及配置 Hue、使用 Hue 進行身份驗證及授權

機群高級配置：

高級配置參數、Hadoop 端口配置、HDFS 機柜感知配置、HDFS 高可靠性配置

Hadoop 安全：

Hadoop 安全的重要性、Hadoop 安全性概念、Kerberos 簡介、使用 Kerberos 保護 Hadoop 機群、其他安全特性

資源管理：

使用靜態服務池配置 Linux cgroup、公平調度器、配置動態資源池、YARN 內存及 CPU 設置、Impala查詢調度

機群維護：

檢查 HDFS 狀態、機群間復制數據、添加／移除機群節點、機群數據負載平衡、目錄快照、機群升級

機群監控及排錯：

Cloudera Manager 監控特性、監控 Hadoop 機群、Hadoop 機群排錯、常見配置不當問題

国产毛片a精品毛-国产毛片黄片-国产毛片久久国产-国产毛片久久精品-青娱乐极品在线-青娱乐精品

[培訓] 提供Cloudera Hadoop大數據運維、開發、數據分析方面的培訓

国产毛片a精品毛-国产毛片黄片-国产毛片久久国产-国产毛片久久精品-青娱乐极品在线-青娱乐精品

[培訓] 提供Cloudera Hadoop大數據運維、開發、數據分析方面的培訓

[培訓] 提供Cloudera Hadoop大數據運維、開發、數據分析方面的培訓