|
1、【Cloudera Apache Hadoop管理員課程】(管理員)
2、【Cloudera Apache Hadoop程序員課程】(開發(fā)者)
3、【Cloudera 數(shù)據(jù)分析課程】(數(shù)據(jù)分析)
4、【Cloudera Apache HBase課程】(HBase)
5、【Cloudera Apache Spark程序員課程】(Spark)
6、【Designing and BuildingBig Data Applications】(數(shù)據(jù)建模)
7、【Cloudera Introduction to Data Science】(數(shù)據(jù)科學(xué)家)
1、【Cloudera Apache Hadoop管理員課程】(通過考試可獲得CCAH全球認(rèn)證證書)
課時(shí):4天
學(xué)習(xí)系統(tǒng)管理的概念和Apache Hadoop的最佳實(shí)踐,
從安裝和配置到負(fù)載均衡和調(diào)優(yōu)。
這個(gè)4天的的課程通過動(dòng)手時(shí)間來賦予你部署的經(jīng)驗(yàn),
以及更多的安全方面的經(jīng)驗(yàn)和故障排除。
課程結(jié)束后,學(xué)員被鼓勵(lì)去參加Cloudera和Apache Hadoop管理員(CCAH)考試。
【課程內(nèi)容】
1、Hadoop分布式文件系統(tǒng)(HDFS)
2、YARN/MapReduce的工作原理
3、如何優(yōu)化Hadoop機(jī)群所需要的硬件配置
4、搭建Hadoop機(jī)群所需要考慮的網(wǎng)絡(luò)因素
5、Hadoop機(jī)群維護(hù)和控制
6、如何利用Hadoop配置選項(xiàng)進(jìn)行系統(tǒng)性能調(diào)優(yōu)
7、如何利用FairScheduler為多用戶提供服務(wù)級(jí)別保障
8、Hadoop機(jī)群維護(hù)和監(jiān)控
9、如何使用Flume從動(dòng)態(tài)生成的文件加載到Hadoop
10、如何使用Sqoop從關(guān)系型數(shù)據(jù)加載數(shù)據(jù)
11、Hadoop生態(tài)系統(tǒng)工具(如Hive、Impala、Pig和Base)
【學(xué)員基礎(chǔ)】
具備基本Linux系統(tǒng)管理經(jīng)驗(yàn)。不需要事先掌握Hadoop相關(guān)知識(shí)。
2、 【Cloudera Apache Hadoop程序員課程】(通過考試可獲得CCDH全球認(rèn)證證書)
課時(shí):4天
學(xué)習(xí)Hadoop分布式文件系統(tǒng)(HDFS)基礎(chǔ)和MapReduce框架以及如何利用其API來編寫程序,
討論為更大型的工作流程而設(shè)計(jì)技術(shù)。
這門4天的課程涵蓋了為MapReduce程序修復(fù)漏洞和優(yōu)化性能所需的高級(jí)技巧。
程序員課程也引入了Apache生態(tài)項(xiàng)目比如Hive、Pig、HBase、Flume和Oozie。
在完成課程后,學(xué)員被鼓勵(lì)參加Cloudera認(rèn)證Apache Hadoop程序員(CCDH)考試。
【課程內(nèi)容】
1、MapReduce與HDFS內(nèi)核知識(shí)以及如何編寫MapReduce程序
2、Hadoop開發(fā)的最佳實(shí)踐,調(diào)試、實(shí)現(xiàn)工作流及通用算法
3、如何利用Hive、Pig、Sqoop、Flume、Oozie及其他Hadoop的組件
4、按需定制WritableComparables與InputFormats處理復(fù)雜的數(shù)據(jù)類型
5、利用MapReduce編寫、執(zhí)行連接操作以整合不同數(shù)據(jù)集合
6、用于現(xiàn)實(shí)世界數(shù)據(jù)分析所需的高級(jí)HadoopAPI主題
7、用Java寫MapReduce程序,用Streaming寫MapReduce程序
8、調(diào)試MapReduce代碼的策略,利用localjobrunner在本地測(cè)試MapReduce代碼
9、Partitioners和Reducers如何一起工作,定制化Partitioners
10、定制Writable和WritableComparable
11、用SequenceFile和Avro數(shù)據(jù)文件存儲(chǔ)二進(jìn)制數(shù)據(jù)
【學(xué)員基礎(chǔ)】
該課程適合具有一定編程經(jīng)驗(yàn)的程序開發(fā)人員。由于課程中需要完成Hadoop相關(guān)編程練習(xí),熟悉Java者優(yōu)先
3、【Cloudera 數(shù)據(jù)分析課程】
課時(shí):4天
針對(duì)任何需要在Hadoop上實(shí)時(shí)地通過SQL和熟悉的腳本來管理、操縱和查詢大型復(fù)雜數(shù)據(jù)的人。
學(xué)習(xí)ApachePig、Apache Hive和Cloudera Impala如何通過過濾聯(lián)接和其他用戶自定義的功能
來支持?jǐn)?shù)據(jù)的轉(zhuǎn)型和分析。
【課程內(nèi)容】
1、Hadoop生態(tài)圈、實(shí)驗(yàn)場(chǎng)景介紹、用Hadoop工具導(dǎo)入數(shù)據(jù)
2、pig的特性、使用案例、和pig交互、pig Latin語(yǔ)法、Field定義、用pig執(zhí)行ETL流程
3、pig處理復(fù)雜數(shù)據(jù),復(fù)雜/nested嵌套的數(shù)據(jù)類型、用pig分析廣告戰(zhàn)役的數(shù)據(jù)
4、pig的多數(shù)據(jù)組操作,pig鏈接多數(shù)據(jù)組、用pig分析離散的數(shù)據(jù)組
5、用流處理和UDFs擴(kuò)展pig,Macros和Imports、contributed functions,用其他語(yǔ)言和pig一起處理數(shù)據(jù)
6、pig故障排查和優(yōu)化,用web界面排查一個(gè)故障的任務(wù)、Data采樣和故障排查、理解執(zhí)行計(jì)劃、提高pig任務(wù)性能
7、hive表結(jié)構(gòu)和數(shù)據(jù)儲(chǔ)存、對(duì)比hive和傳統(tǒng)數(shù)據(jù)庫(kù)、hive vs.pig、hive使用案例
8、hive的關(guān)系數(shù)據(jù)分析、數(shù)據(jù)管理、文本處理、優(yōu)化及擴(kuò)展,在shell、腳本和hue上運(yùn)行hive查詢
9、impala和hive、pig、關(guān)系數(shù)據(jù)庫(kù)的不同、使用impalashell
10、采樣impala分析數(shù)據(jù),過濾、排序and limiting results,提升impala性能,impala的交互式分析
11、對(duì)比map reduce、pig、hive、impala和關(guān)系數(shù)據(jù)庫(kù)
【學(xué)員基礎(chǔ)】
該課程適合有SQL經(jīng)驗(yàn)和基本UNIX和Linux命令的數(shù)據(jù)分析師、業(yè)務(wù)分析師和管理員
事先無需Java和Apache Hadoop的經(jīng)驗(yàn)
4、 【Cloudera Apache HBase課程】(通過考試可獲得CCSHB全球認(rèn)證證書)
課時(shí):4天
學(xué)習(xí)如何將HBase作為一個(gè)分布式的數(shù)據(jù)儲(chǔ)存以實(shí)現(xiàn)低延遲的查詢和高擴(kuò)展的吞吐。
這4天的課程涵蓋了HBase架構(gòu)、數(shù)據(jù)模型、Java API及其他高級(jí)課題和最佳實(shí)踐。
完成該課程后,學(xué)員被鼓勵(lì)參加cloudera認(rèn)證Apache HBase專家(CCSHB)考試來驗(yàn)證和認(rèn)證其Hadoop經(jīng)驗(yàn)。
【課程內(nèi)容】
1、什么是HBase、為什么要用HBase,HBase和RDBMS,HBase的給予和索取
2、HBase系統(tǒng)管理API,HBase Shell、創(chuàng)建表、HBaseJava API、系統(tǒng)管理調(diào)用
3、通過HBaseAPI訪問數(shù)據(jù),API的使用、數(shù)據(jù)檢索、在shell添加和更新數(shù)據(jù)、刪除數(shù)據(jù)
4、用API添加、更新數(shù)據(jù),Scan API、高級(jí)API技術(shù)、使用Eclipse
5、集群組件、HBase如何擴(kuò)展,HBase寫路徑、讀路徑,壓縮和拆分
6、HBase的安裝、配置及其安全性
7、HBasedaemnon、ZooKeeper、HBase系統(tǒng)管理
8、復(fù)制、備份、MapeRduce和HBase集群
9、HBase里RowKey設(shè)計(jì),從關(guān)系數(shù)據(jù)庫(kù)到HBase表結(jié)構(gòu)設(shè)計(jì),以應(yīng)用為中心的設(shè)計(jì)
10、列族、表結(jié)構(gòu)設(shè)計(jì)的考慮點(diǎn)、熱點(diǎn)處理
11、HBase生態(tài)系統(tǒng):OpenTSDB、Kiji、HBase和hive
【學(xué)員基礎(chǔ)】
該課程適合需要使用HBase的開發(fā)員和管理員。
預(yù)備的數(shù)據(jù)庫(kù)和數(shù)據(jù)建模的經(jīng)驗(yàn)有幫助,但不是必須的。
預(yù)備的Java知識(shí)有幫助,Hadoop經(jīng)驗(yàn)不是必須的,
但是cloudera的Apache Hadoop開發(fā)培訓(xùn)課是個(gè)絕佳的基礎(chǔ)。
5、【Cloudera Apache Spark程序員課程】
課時(shí):4天
采用ApacheSpark來創(chuàng)建集成了批處理,流計(jì)算和互動(dòng)式分析的完整,統(tǒng)一的大數(shù)據(jù)應(yīng)用。
學(xué)習(xí)編寫復(fù)雜的并行應(yīng)用來履行更快的商業(yè)決策和更好的用戶產(chǎn)出,并將其應(yīng)用到廣泛的應(yīng)用場(chǎng)景,架構(gòu)和行業(yè)。
這門4天的課程針對(duì)那些希望在應(yīng)用的速度,易用性和高級(jí)分析方面進(jìn)行優(yōu)化的程序員和軟件工程師。
【課程內(nèi)容】
1、用Sparkshell執(zhí)行互動(dòng)式數(shù)據(jù)分析
2、Spark的彈性分布式數(shù)據(jù)集(Resilient Distributed Datasets)的特性
3、Spark怎樣運(yùn)行在一個(gè)集群上(一個(gè)獨(dú)立的Spark集群)
4、Spark的并行編程、編寫Spark應(yīng)用、用Spark處理流數(shù)據(jù)
5、RDDPartitions和HDFS數(shù)據(jù)局部性、使用Partitions、并行操作
6、Spark應(yīng)用對(duì)比Spark shell、創(chuàng)建Spark context、配置Spark shell屬性
7、SparkStreaming簡(jiǎn)介、開發(fā)Spark Streaming應(yīng)用
8、Streaming的Word Count、其他Streaming操作、滑動(dòng)窗口操作
9、Spark、Hadoop和企業(yè)數(shù)據(jù)樞紐(EDH)
10、Spark和Hadoop生態(tài)圈、Spark和MapReduce
11、Caching and Persistence(RDD溯源、Caching緩存簡(jiǎn)介、分布式持久化機(jī)制)
【學(xué)員基礎(chǔ)】
該課程適合具有一定編程經(jīng)驗(yàn)的程序開發(fā)人員,課程樣例和練習(xí)涉及到Python和Scala語(yǔ)言。
需要Linux的基本知識(shí),事先無需Hadoop經(jīng)驗(yàn)。
6、【Designing and Building Big Data Applications】(數(shù)據(jù)建模)
課時(shí):4天
學(xué)習(xí)運(yùn)用ApacheHadoop和企業(yè)數(shù)據(jù)樞紐中的關(guān)聯(lián)工具來分析和解決實(shí)際問題,
你會(huì)遍歷其設(shè)計(jì)和創(chuàng)建的整個(gè)過程,包括數(shù)據(jù)導(dǎo)入,決定恰當(dāng)?shù)奈募袷絹泶鎯?chǔ),
處理預(yù)存的數(shù)據(jù),及用一個(gè)容易理解消化的形式向最終用戶呈現(xiàn)結(jié)果。
這門4天的課程面向那些需要研發(fā)高度業(yè)務(wù)相關(guān)的應(yīng)用的數(shù)據(jù)家。
【課程內(nèi)容】
1、定義使用DataSets,Metadata管理、Apache Avro、AvroSchemas演變
2、什么是theKite SDK ,Fundamental Data Module基礎(chǔ)概念Concepts,用Kite SDK創(chuàng)建新數(shù)據(jù)組
3、用ApacheSqoop輸入關(guān)系數(shù)據(jù),基本輸入、限制結(jié)果、提升Sqoop性能、Sqoop 2
4、用ApacheFlume捕獲數(shù)據(jù),F(xiàn)lume自定義組開發(fā)、使用Flume自定義攔截器寫Avro對(duì)象
5、采用ApacheOozie管理工作流,定義Oozie工作流,驗(yàn)證、封包、部署,Oozie的Hue用戶界面
6、用ApacheCrunch處理數(shù)據(jù)管道,對(duì)比Crunch和Javamapreduce,應(yīng)用Crunch projects,CrunchAPI的工具分級(jí)
7、使用ApacheHive里的表格,Basic Query Syntax,在Hive里采用RegexSerDe
8、開發(fā)用戶定義功能,實(shí)現(xiàn)一個(gè)用戶定義功能,用Impala執(zhí)行互動(dòng)式查詢,數(shù)據(jù)和元數(shù)據(jù)管理
9、理解ClouderaSearch,Search架構(gòu)、支持的文件格式
10、用Cloudera Search創(chuàng)建索引,Collection and SchemaManagement,Morphlines
11、Solr Query Sybtax,采用Hue創(chuàng)建搜索UI,通過JDBC訪問Impala,用Impala和Search增強(qiáng)定制的web應(yīng)用
【學(xué)員基礎(chǔ)】
該課程最適合需要使用Hadoop及其相關(guān)工具來解決現(xiàn)實(shí)問題的程序員、工程師和架構(gòu)師。
學(xué)員應(yīng)該預(yù)先參加過cloudera的Apache Hadoop程序員培訓(xùn)或有相當(dāng)?shù)膶?shí)踐經(jīng)驗(yàn)。
需要良好的Java知識(shí),熟悉Linux。SQL經(jīng)驗(yàn)會(huì)有幫助。
7、 【Cloudera Introductionto Data Science】(數(shù)據(jù)科學(xué)家)
課時(shí):4天
數(shù)據(jù)科學(xué)家創(chuàng)建信息平臺(tái)來提出和回答以前不敢想象的問題。
學(xué)習(xí)數(shù)據(jù)學(xué)如何幫助公司降低成本,提升利潤(rùn),改進(jìn)產(chǎn)品,留住客戶和發(fā)現(xiàn)新機(jī)會(huì)。
這門4天的課程姜幫助學(xué)員理解數(shù)據(jù)科學(xué)家做什么,他們解決什么問題,
在不同的行業(yè)里他們解決實(shí)際問題的方法。
【課程內(nèi)容】
1、使用案例:金融、零售、廣告業(yè)、電信和公用事業(yè)、醫(yī)療和藥品
2、項(xiàng)目周期里的步伐、實(shí)驗(yàn)場(chǎng)景介紹
3、數(shù)據(jù)采集:數(shù)據(jù)源、采集技術(shù)
4、評(píng)估輸入數(shù)據(jù):數(shù)據(jù)格式、數(shù)據(jù)質(zhì)量、數(shù)據(jù)數(shù)量
5、數(shù)據(jù)轉(zhuǎn)型:匿名化、文件格式轉(zhuǎn)換、聯(lián)結(jié)數(shù)據(jù)組
6、數(shù)據(jù)分析和統(tǒng)計(jì)模式:統(tǒng)計(jì)與概率的關(guān)系、描述性統(tǒng)計(jì)、統(tǒng)計(jì)推斷
7、機(jī)械學(xué)習(xí)基礎(chǔ):機(jī)械學(xué)習(xí)的3C、Naive Bayes分類器、數(shù)據(jù)和算法的重要性
8、推薦系統(tǒng)簡(jiǎn)介:什么是決策系統(tǒng)、協(xié)同過濾的類型、推薦系統(tǒng)的局限
9、ApacheMahout是什么(不是什么),可用性和安裝、使用Mahout基于條目的推薦系統(tǒng)
10、用Apache Mahout實(shí)現(xiàn)推薦系統(tǒng):二值、數(shù)值偏好的相似性度量,打分
11、實(shí)驗(yàn)和評(píng)估、產(chǎn)品部署及更多
【學(xué)員基礎(chǔ)】
該課程適合有Apache Hadoop基本知識(shí)如HDFS、
MapReduce、Hadoop Streaming和Apache Hive的開發(fā)人員、數(shù)據(jù)分析師和統(tǒng)計(jì)師。
學(xué)員應(yīng)熟練腳本語(yǔ)言:建議熟練Python,而Perl或ruby只需熟悉即可。
Cloudera Hadoop學(xué)員交流 475436950 |
|