Azure 資料管理 (3)

教學目標

初步了解 Azure 雲端服務進行巨量資料批次處理與即時處理的基本概念。

重點概念

首先在 Hadoop 平台中我們會透過許多專案的組合解決資料管理的相關問題,主要可以先分為四大類,分別為:

  1. 資料治理和整合:主要是進行資料工作流程、生命週期和治理,其中相關專案主要有 Sqoop、Falcon、Flume、… 等。
  2. 資料存取:主要是在 YARN 和 HDFS 上進行批次、腳本、SQL、NoSQL、串流、搜尋、記憶體運算與資料管理相關的作業,其中相關專案主要有 MapReduce、Pig、Hive、Tez、Hcatalog、Hbase、Storm、Solr、Spark、…等。
  3. 資料安全:主要是針對資料安全進行驗證、授權、帳號控管、資料保護、…等相關作業,其中相關專案主要有 HDFS、YARN、HIVE、FALCON、KNOX、…等。
  4. 資料營運:主要是針對資料營運進行監控和排程,其中相關專案主要有 Ambari、Zookeeper、Oozie、… 等。

因此我們能夠透過資料服務進行資料操作和資料移動,主要透過 Hive、Pig、Sqoop、Hbase、… 等,以及我們還能夠透過營運服務協助管理叢集,像是 Ambari、Oozie、Falcon、… 等。

接著在 Azure 雲端服務中我們除了能夠透過虛擬機器客製 Hadoop 平台進行資料管理之外,更能夠直接使用 Azure HDInsight 服務進行資料管理,所謂 Azure HDInsight 服務主要是用於分析串流或歷史資料的雲端服務,主要提供企業使用完全受控、全方位的開放原始碼分析服務,以利我們更方便的處理巨量資料,並且為企業節省成本,並且支援 ETL、資料倉儲、機器學習、IoT、… 等相關應用。

再來我們也會透過 Azure SQL 資料倉儲服務建立企業資料倉儲、並且透過 PolyBase 整合 Azure SQL 資料倉儲服務和 Azure HDInsight 服務。同時我們能夠透過 Azure Data Lake 服務批次處理非結構化資料並以 PolyBase 進行整合,以及我們能夠透過 Azure Stream Analytics 服務進行即時處理串流資料並以 PolyBase 進行整合。

最後我們還能透過 Azure Data Factory 服務將內部部署和雲端資料應用程式進行資料整合,主要有三個步驟,分別為:

  1. 透過內建的連接器存取資料。
  2. 透過使用者介面建立調整資料流程。
  3. 透過排程進行管線控管和監控活動。

總結根據不同的企業需求,將能夠搭配不同的 Azure 雲端服務,以利更有效率的進行資料管理,更進一步解決企業所面臨的成本問題,或者為企業帶來更多的效益。

相關資源