基本介紹

教學目標

初步了解 Hadoop 生態經濟和商業版本的基本概念。

重點概念

首先 Apache Hadoop 核心技術除了 HDFS、YARN 和 MapReduce 之外,還有其它相關的專案,像是 Pig、Hive、Sqoop、ZooKeeper、Mahout,這些專案在 Hadoop 專案中互相溝通協調形成 Hadoop 生態經濟。

接著在 Hadoop 生態經濟中不同專案皆負責不同的任務,請參考下表。

專案 說明
Pig 主要提供針對資料分析逐步執行程式的平台。
Hive 主要能夠讓我們在 Hadoop 中查詢和管理大量資料集。
HBase 主要屬於以欄位為主的資料庫管理系統。
Sqoop 主要使用於從關聯式資料庫中透過 JDBC 連線匯入資料至 Hadoop 平台。
ZooKeeper 主要是與 HDFS 進行互動的工具。
Mahout 主要是針對 Hadoop 平台執行推薦引擎的資料探勘函式庫。

再來雖然 Apache Hadoop 是開源碼的技術,但還是有商業廠商提供商業版本,最常見的廠商主要有 Cloudera、Hortonworks、…,但是在業界則主要是以 Cloudera 商業版的 Hadoop 平台為主。

最後若我們需要建立一個以資料為驅動的業務情境,則我們將會需要一個強大的管理工具統一且安全的管理業務資料,所以建議導入 Cloudera 商業版的 Hadoop 平台,也就是 Cloudera Hadoop Distribution,簡稱 CDH。此外我們能夠透過 CDH 中的 Cloudera Manager 部署和管理 Cloudera 的 Hadoop 環境,以及透過 HUE 的應用程式介面與 Hadoop 系統進行互動。

相關資源