Leo Yeh's Blog

SAS 資料管理 (18)

教學目標

初步了解如何透過 SAS Data Preparation 解決方案落實分析生命週期的基本概念。

重點概念

首先資料整合和資料準備是兩個不同的方法,這幾十年來 SAS 9 平台支援傳統資料管理進行資料整合方法為企業提供了許多成熟的解決方案,並且連續九年被 Gartner 評選為資料整合工具的領導者,其中主要管理結構化資料為主,並且包括整合、品質和治的相關應用程式支援資訊人員和 ETL 開發者。然而若要推動進階分析、機器學習和人工智慧,則需要採用不同的資料準備方法,此時 SAS Viya 平台支援資料準備,其主要是透過自助式互動的方式進行資料的準備,過程中無需撰寫程式碼,更能夠搭配資料品質的強大功能進行資料轉換和清理,並且在分散式平行架構上進行快速和高效的資料處理,加速分析生命週期,以利滿足商業分析師和資料科學家的需求,至於資料整合和資料準備的差別,請參考下表。

資料整合 資料準備
使用者 資訊人員和 ETL 開發者 商業分析師和資料科學家
撰寫程式
目標用途 資料市集、資料倉儲和資料湖 資料探索、資料分析和資料湖
資料類型 結構化資料 多元類型資料
資料來源 以內部系統為主 以外部系統為主
資料模型 複雜 簡單
資料時間 日/週/月 分鐘/小時
使用目的 業務案例 進階分析

接著資料準備主要會進行資料存取、資料探索、資料清理、資料轉換和資料分析,其中從資料存取至資料轉換主要會花費 80% 的時間,而剩下 20% 的時間才會進行資料分析,此時 SAS Viya 平台所提供的資料準備功能,我們能夠在分為五個階段,分別為:

  1. 管理資料:存取資料載入資料至 CAS 中,並且存取資料結構和內容。
  2. 準備資料:選擇資料、操作資料,並且將資料結構化為需要的資料格式。
  3. 清理資料:將資料轉換為一致性的格式。
  4. 管理和治理資料:自動化資料準備和監控任務,並且更容易管理跨使用者環境。
  5. 協同合作:分享資料和資料準備計劃,並且促進不同使用者之間的合作。

不同階段將會對應使用 SAS Viya 分析平台中不同的工具,管理資料階段主要會使用 SAS Data Explorer 用於將 SAS 資料集,關聯式資料庫之資料表,分隔檔案和社群媒體資料載入至 SAS Viya 分析平台中以進行查看和進階分析,SAS Environment Manager 用於管理 CAS 資料庫和資料表,類似於 SAS Data Explorer 的操作界面,並且為資料連接建立和維護身份驗證網域,以及管理可用於資料的使用者定義格式和管理品質知識庫。準備資料階段主要會使用 SAS Data Studio 用於進行資料操作和將新資料匯總至 SAS Viya 分析平台中進行資料轉換,此時準備資料的使用者必須屬於資料建立者客製群組中的成員之一,過程中主要進行資料欄位轉換、資料列轉換、多輸入轉換和客製化轉換。清理資料階段主要會使用 SAS Data Studio 用於使用 SAS 品質知識庫 (Quality Knowledge Base,QKB) 中定義的資料品質轉換功能,其中包括解析、擷取欄位、標準化、對應、分群、記別分析、… 等功能。管理和治理資料階段主要會使用 SAS Lineage Viewer 用於顯示 SAS Viya 分析平台中物件的關係,像是資料來源和資料計劃,SAS Environment Manager 用於管理資料計劃和報表等內容,並且提供計劃和監視工作任務排程的執行狀態,以及查看日誌的功能。協同合作階段主要會使用 SAS Drive 用於企業組織中共享資料表,報表,資料計劃和工作任務,以利促進使用者之間的協同合作。

再來資料準備將會因為資料量和資料來源的數量不斷增加導致可能成本高昂且複雜,雖然傳統的資料管理流程能夠產生一定程度的數據,但是自助式服務的資料準備方式將能夠在短時間內準備用於分析的資料,同時目前有許多的公司主要是以資料驅動為主,因此企業主要會根據資料做出決策分析。此外商業分析師和資料科學家根據過往的經驗通常會看到特別需要用於分析模型的缺少資料,此時透過自助式服務進行資料準備任務將能夠獲取資料,並且用於建立分析模型進行實驗比較,以利加速分析生命週期,所謂分析生命週期主要有兩個主要階段,分別為發現和部署。在發現階段中,我們主要提出一個問題透過詢問業務問題來推動發現過程,並且定義業務需要知道的內容,然後必須理解業務所要表達問題是否能夠使用預測分析來解決,此時預測分析就會需要適當準備適合的資料,但是當來自不同來源和不同格式的資料需要用於預測分析模型的輸入時,則資料準階段就會變得更加重要,同時我們主要使用互動自助式的視覺化工具用於探索資料,此時相關工具需要讓不同的使用者進行操作,從沒有統計知識的商業分析師至擅於實驗分析的資料科學家,相關工具必須能夠搜索關係、趨勢和模式,以利更深入的了解資料,因此資料探索階段細分化了業務問題,並且開發和測試如何解決業務問題相關的想法,但是這可能會需要增加、刪除和組合變數,此時將會需要更多的資料準備任務,以及當我們使用分析和機器學習建模演算法來確定資料中的關係並回答業務問題,並且分析工具將會尋找預測所需的可靠資料和建模技術進行組合,沒有一種演算法始終表現最佳,解決業務問題最適當演算法的分析模型將取決於資料準備,再透過實驗找出問題背後最關鍵和可靠的答案。在部署階段中,我們主要在開發和增加更多資料,並且建立模型之後,我們將會需要落實和進行模型部署,此時資料準備不會停止,因為我們必須透過不同使用者協同合作,以利持續準備最新的訓練資料用於建立分析模型,並且部署最適當演算法的分析模型至正式環境中。

最後資料準備工具必須與資料治理功能密切配合,僅有當我們擁有高品質資料時,自助服務才能夠真正發揮用途,以利加速分析生命週期。然而許多自助式服務的資料準備工具皆沒有資料治理的功能,為什麼這很重要呢?我們皆知道垃圾進,垃圾出 (Garbage In Garbage Out,GIGO) 的觀念,如果將錯誤和無意義的資料輸入電腦系統,電腦自然也一定會輸出錯誤和無意義的結果,在企業組織中分析主要會由不同的使用者群組分工合作完成整個分析生命週期,其中包括資訊人員,ETL 開發者,商業分析師和資料科學家,此時就會需要使用相同的資料,並且使用相同的原則和標準處理流程,此時這種協作就必須遵循受資料治理原則的驅動。換句話說,資料治理是該過程的關鍵部分,主要用於啟用更好的合作和共同的工作,當然資料準備過程和最佳實務仍然必須符合企業組織的資料治理流程和規則,所有與資料相關的流程都必須符合企業組織的整體資料治理解決方案。

總結我們將能夠透過 SAS Data Preparation 解決方案在分析生命週期發現和部署階段中讓不同使用者協同合作,以利持續準備最新的訓練資料用於建立分析模型。

相關資源

⬅️ Go back