Leo Yeh's Blog

Azure 資料管理 (1)

教學目標

初步了解 Azure Data Factory 雲端服務建立資料驅動工作流程的基本概念。

重點概念

在巨量資料的現今,我們要如何將現有的資料運用在商業經營上呢?此時我們主要會透過 Azure Data Factory 雲端資料整合服務,能夠讓我們在雲端建立資料驅動的工作流程,以利自動進行資料移動和轉換,主要有三個步驟,分別為:

  1. 連線和收集:主要建立並排程資料驅動的工作流程,又稱為管線,其能夠從不同的資料存放區擷取資料。
  2. 轉換和擴充:主要使用運算服務來處理或轉換資料。
  3. 發佈:主要是將輸出的資料發佈至資料儲存區,以利商業智慧應用程式使用。

首先我們必須先收集原始資料,因巨量資料專案通常會從各種來源收集原始資料。除了收集原始資料之外,我們通常也會參考內部資料,以利進行資料分析。

接著我們必須轉換原始資料,這通常會使用工具進行分析和分類資料,以利進行整理和簡化處理作業,並且會根據資料量將之分為能與多個處理器一起分析的不同區塊。像是我們能夠透過 Azure HDInsight (Hadoop) 處理巨量資料

再來當轉換資料之後,必須將準備分析的處理資料形式儲存至其它位置,像是將資料儲存在 Azure SQL 資料倉儲或 Azure SQL 伺服器中。當儲存資料完成之後,我們就能夠進行查詢和分析,其中 SQL 主要是用於分析資料的命令查詢語言。

最後我們更能夠建立工作流程的平台,以利工作流程能夠從內部環境和雲端環境擷取資料,並且搭配現有運算服務來轉換或處理資料,以及將結果發佈至內部環境或雲端環境,以利透過 Power BI 視覺化資料,也就是將資料分析轉化為實用且易讀的視覺化圖表。

總結 Azure Data Factory 雲端資料整合服務和傳統的 ETL 平台有些不同,比較像先 EL 而後 TL 的平台,以利我們透過資料驅動的工作流程 (管理) 將資料運用在商業經營上。

相關資源

⬅️ Go back