一、培訓特色 1. 標準的課程體系及原廠商認證的授課講師 與美國同步的原廠課程、經過層層考核的授課講師,保證了我們的課程的規范化與標準化。大數據技術不同于其他學科技術,非常的新,發展也非常迅速,技術的迭代也使得我們的課程在不斷更新。就目前來看,我們的課程涵蓋的大數據運維、開發、分析方面,已處于市場領先地位。 2. 課程設計合理 知識體系層層遞進,從基礎開始逐漸深入,深入淺出授課,使學員更易于學習掌握。理論加實驗的授課方式使課程更豐滿。 3. 重底層、講原理 為學員提供虛擬環境實戰的同時,不放棄理論深度,以理論帶動實際操作,使學員不僅僅只是一個紙上談兵的理論者,更有動手的實力。 二、培訓目標 為期四天的數據分析培訓課程專注于Apache Pig、 Hive 和Impala,將教會您如何將傳統的數據分析和商業智能技術應用到大數據領域。為數據專業人員提供了基于SQL 和其它熟悉的腳 本編程語言的工具,用來訪問、操作、轉換和分析復雜數據集。 提升你的生態系統專業知識 Apache Hive 使得沒有Java 編程經驗的分析師、數據庫管理員等數據專 業人員能夠訪問多結構化數據。Apache Pig 將熟悉的腳本語言的基本屬性應用在Hadoop 集群中。Impala 通過自身SQL 引擎實現了對存儲在 Hadoop 中數據的實時交互分析。 三、培訓對象 本課程是專為數據分析師、商業智能專家、開發人員、系統架構師和 數據庫管理員開發的。培訓學員需具備一定的SQL 知識水平,且基本熟悉 Linux 命令行。培訓學員至少熟悉一種腳本語言知識(例如,Bash 腳本編程、 Perl、Python 和Ruby)將會更有幫助,但不是必需的。此外,培訓學員不需具備Apache Hadoop 知識。 四、培訓證書 培訓結束并順利通過考試后,頒發Cloudera全球認證證書,證書全球通用。 證書可作為專業技術人員職業能力考核的證明,以及專業技術人員崗位聘用、任職、定級和晉升職務的重要依據。 五、時間地點及聯系方式 上海市宜山路900號 10月11-14日(每三個月一期) Q1438118790; TEL4006-01-6012 六、課程大綱 Hadoop 基礎知識 > Hadoop 動機。 > Hadoop 概述。 > 數據存儲:HDFS。 > 分布式數據處理:YARN、MapReduce 和 Spark。 >數據處理與分析:Pig、Hive和Impala。 > 數據集成:Sqoop。 > 其它的 Hadoop 數據工具。 > 練習分析場景說明。 Pig 簡介 > Pig 是什么? > Pig 的特點。 > Pig 使用案例。 > 與Pig 的交互。 Pig 基本數據分析 > PigLatin 語法。 > 加載數據。 > 簡單數據類型。 > 字段定義。 > 數據輸出。 > 架構查看。 > 數據篩選和排序。 > 常用函數。 使用 Pig 處理復雜的數據 > 數據存儲格式。 > 復合 /嵌套數據類型。 > 數據分組。 > 復雜數據內置函數。 > 遍歷分組數據。 Pig 多數據集操作 > 數據集合并技術。 > 在Pig 中聯接數據集。 > 集合運算。 > 拆分數據集。Pig 故障診斷和性能優化 > Pig 故障排除。 > 日志。> 使用 Hadoop 的Web UI。 > 數據采樣及調試。 > 性能概述。 > 了解執行計劃。 > 提高 Pig 作業性能的技巧。 Hive 和 Impala 簡介 > 什么是 Hive ? > 什么是 Impala ? > 架構和數據存儲 > Hive 與傳統數據庫的比較。 > Hive 使用案例。 使用 Hive 和 Impala 進行數據查詢 > 數據庫和表。 > 基本的 Hive 和Impala 查詢語言語法。 > 數據類型。 > Hive 和Impala 查詢語法之間的差異。 > 使用 Hue 來執行查詢。 > Impala Shell 的使用。 數據管理 > 數據存儲。 > 創建數據庫和表。 > 加載數據。 > 修改數據庫和表。 > 使用視圖簡化查詢。 > 存儲查詢結果。 數據存儲和性能 > 對表進行分區。 > 選擇文件格式。 > 管理元數據。 > 控制對數據的訪問。使用 Hive 和 Impala 進行關系數據分析 > 聯接數據集。 > 常見的內置函數。 > 聚合和窗口函數。 理解、擴展和改善 Impala > Impala 是如何執行查詢的。 > 使用用戶定義的函數擴展 Impala。 > 改善 Impala 的性能。 使用Hive分析文本和復雜數據 > Hive 中的復雜數據。 > 在Hive 中使用正則表達式。 > 情感分析和 N-Grams。 > 結論。 Hive 優化 > 了解查詢性能。 > 控制作業執行計劃。 > Bucketing(分桶)。 > 索引數據。 擴展 Hive > SerDes。 > 基于自定義腳本的數據轉換。 > 用戶定義函數。 > 參數化查詢。 選擇最佳工具 > 比較 MapReduce、Pig、Hive、Impala 和 關系數據庫。 > 該選擇哪一個? |