Leo Yeh's Blog

SAS 資料管理 (17)

教學目標

初步了解 SAS Data Preparation 解決方案對於企業資料管理的基本概念。

重點概念

首先根據 TOGAF 企業架構的框架標準中提到當企業選擇進行大規模的架構轉型時,理解和解決資料管理的問題非常重要,結構化和全面的資料管理方法將能夠有效的利用資料來充分利用其競爭優勢,其中考慮因素主要包括:

  1. 明確定義情境中的哪些應用程式元件將作為企業資料記錄或參考系統?
  2. 明確定義範圍標準是否需要採用包括軟體在內的所有應用程式元件?
  3. 清楚了解業務、流程和服務將會如何使用資料的方式為何?
  4. 清楚了解建立、儲存,傳輸資料處理的方式和位置為何?
  5. 支援應用程式之間資訊交換需求進行資料轉換的複雜程式和資料整合的處理方式為何?

此外除了有關資料管理的考慮因素之外,企業針對資料治理有必要考慮更多的因素,其中包括必須具有組織結構和管理轉型的單位,並且擁有必要的資料管理相關的應用程式軟體工具,以利管理資料整個生命週期的治理方式,而此篇主要會先以資料管理為主。

接著資料管理為何如此重要,就像日常生活中的水一樣,有良好和乾淨的水是維持生命的關鍵,此時如果水源受到污染,則肯定會有一些負面後果,而為何得到更好的結果,我們將會針對水進行過濾。然而資料類類似於水,未受污染的資料是企業成功導入進階分析、機器學習和人工智慧應用的關鍵,但是為分析準備資料會帶來不同的結果要求,而不僅是在資料倉庫中所儲存的資料,管理未經過濾的資料非常困難,更何況要將準備好的資料進行進階分析、機器學習和人工智慧應用。根據過往的經驗大多數的資料科學家將 50% 至 80% 的模型開發時間用於準備資料,這將會影響用於產生見解的時間,此外資料科學家和業務分析師通常會提前知道他們想要的資料,且在準備和建模之前進行解析或視覺化,但是他們通常不知道哪些資料變數最適合,此時識別和存取正確的資料將會是非常重要的第一步,因為強大的迭代式資料準備過程主要是將優秀模型與特殊模型區分開來的過程。而當識別出業務問題時,則就會開始迭代式資料準備過程,同時在建立有效模型之前,我們更需要一致和可靠的資料準備分析,根據 SAS 官方所提供的白皮書中就有提到有關資料管理的最佳實務,分別為:

  1. 簡化對傳統和現代資料的存取。
  2. 利用最新分析技術加強資料科學家的工具庫。
  3. 在現有流程中建立清理的品質。
  4. 使用靈活的操作技術建立資料。
  5. 跨資料管理和分析領域共享中繼資料。

因此對於為分析準備資料的資料科學家和業務分析師來說,資料管理相關技術就像一個資料過濾器將能夠用於存取、清理、轉換和建立資料,以利在此過程中提高價值與生產力和在最短時間內作出更佳的決策。

再來 SAS 針對資料準備工作,主要提供 SAS Data Preparation 解決方案將能夠為使用者提供了一個互動式的自助服務環境,其主要用於存取,整合和清理資料,以便為報表或分析做好準備,透過 SAS Data Preparation 解決方案將能夠節省準備資料初步任務的時間,並且透過直觀的操作界面無需撰寫 ETL 程式或 SQL 程式進行資料準備任務,以利資料科學家和業務分析師將能夠花費更多時間用於將準備好的資料進行進階分析、機器學習和人工智慧應用。此外 SAS Data Preparation 解決方案主要是基於 SAS Viya 分析平台所以具有高效能的在記憶體平行處理速度和多處理節點的擴展性,以利在縮短時間內完成資料準備的工作,至於 SAS Data Preparation 解決方案中則針對不同處理目的提供對應的產品,請參考下表。

處理目的 產品
探索和管理資料 SAS Environment Manager, SAS Visual Analytics
解析資料輪廓 SAS Data Explorer
準備和清理資料 SAS Data Studio
瀏覽資料關係 SAS Lineage Viewer
執行資料品質 SAS Data Quality

最後根據最近 IEEE Spectrum 才剛釋出程式語言排行榜,這些資訊來源主要包括谷歌搜尋、谷歌趨勢、推特、GitHub、Stack Overflow、Reddit、… 等網站內容,而 Python 程式語言再次名列第一,至於名列之後的程式語言分別是 Java、C、C++和 R 程式語言,Python 程式語言受歡迎程度在很大程度上受到大量可用的函式庫所影響,特別是在人工智領域,Keras 函式庫是深度學習開發人員中的關鍵函式庫,並且 Keras 提供了 TensorFlow、PyTorch 和 MXNet 深度學習框架和工具包的介面,此外 R 程式語言主要用於數學計算,其由於大數據相關的分析應用越來越被廣泛使用。因此企業客戶最關心的問題,則是透過 SAS Data Preparation 解決方案所準備就續的資料,除了在 SAS Viya 分析平台中使用之外,是否能夠直接透過 Python、R、Java 等用於進階分析、機器學習和人工智慧主流程式語言直接存取用於建立模型嗎?答案是肯定的, SAS Data Preparation 解決方案基於 SAS Viya 分析平台,因此所有準備就緒的資料皆會被儲存至 CAS 伺服器的記憶體中,此時 SAS 官方就有針對使用不同程式語言的開發者提供直接透過 CAS 資料館存取 CAS 伺服器記憶體中準備就緒的資料,更重要的是 CAS 資料館具有強大且完整的權限控管和加密保護皆是對於企業資料管理非常關鍵的功能。

總結 SAS Data Preparation 解決方案對於企業資料管理不僅提供完整的軟體工具之外,更提供在記憶體中高效能準備資料,以及強大且完整的權限控管和加密保護功能,以利滿足企業資料管理的複雜需求。

相關資源

⬅️ Go back