Leo Yeh's Blog

SAS Viya (103)

教學目標

初步了解 SAS Viya 平台整合開放源始碼生態系統的基本概念。

重點概念

首先 SAS 9 平台在過去幾年除了能夠使用 SQL 語法進行查詢、合併和操作資料表之外,更能夠整合 Hadoop 生態系統,以及透過 Python 和 R 建立統計模型和客製圖表,但是 SAS 9 平台主要使用 Base SAS 中送出指令執行 Python 和 R 程式碼,而在 SAS Viya 平台中主要是由 Python 或 R 程式碼以 SWAT 套件來控制 SAS Viya 平台中可用的分析工具,這能夠讓我們最熟悉的程式語言進行開發,並且仍然可以存取 SAS Viya 平台所提供優化的分析功能,所謂 SAS Viya 平台主要是一種以雲端為基礎的記憶體分析引擎,並且建置在分散式運算環境將能夠根據資料更快速準確的產生分析結果。而當企業已經採用開放源始碼生態系統相關技術進行分析將可能會面臨許多問題與挑戰,分別為:

  1. 缺乏部署流程:開放源始碼選擇非常多元,因此企業中不同組織單位的不同團隊可能會使用不同的開源工具,此時不同開源工具皆有專屬的資料、演算法、程式碼和版本控制,但是皆以不同的方式進行管理和維護,這將會增加企業將分析部署到正式環境中的複雜性,同時也缺乏滿足企業部署的驗證,以及無法確保模型和版本之間的一致性。
  2. 缺乏資料管理:開放源始碼中的資料操作通常非常花費時間,並且一些開放源始碼解決方案不提供可擴展性的方式處理大量資料,同時確保資料的品質。
  3. 缺乏分析治理:開放源始碼通常不會記錄企業中不同領域中的分析資產,以及資料分析提供透明度和可追溯性的分析流程。

接著 SAS Viya 平台整合開放源始碼生態系統除了能夠解決上述企業所面臨的問題與挑戰之外,更能夠強化開放源始碼生態系統的優勢,分別為:

  1. 提供部署流程:主要提供整合相關模型版本控制、授權存取、來源資料等資訊,對於所有分析資產,有一個受管理的儲存庫,以利企業能夠快速且靈活地獲得可信任和可追溯的洞察力,更容易管理分析模型的完整生命週期,並且確保版本一致性。
  2. 提供資料管理:主要提供可擴展的分散式運算環境將能夠實現快速準確的分析處理的結果,目前機器學習和人工智慧演算法皆非常耗費資料,而即使有大量資料,SAS 平能也能夠以高品質的資料快速產生可信任的精確分析結果。
  3. 提供分析治理:主要提供統一分析治理的基礎架構,以利企業可以連接所有不同的開放源始碼生態系統,協助資料科學家管理模型,協助資訊人員追蹤和稽核分析,以利實現有效的合規性分析流程。

再來 SAS Viya 平台能夠幫助我們從資料和分析資產中獲得最大價值,以利解決分析生命週期中從部署流程、資料管理和分析治理各方面的問題,並且整合開放源始碼生態系統強大技術,將能夠將不同工具集和分析資產簡化管理和協作,以利提高生產力和降低管理成本。至於在不同的部署流程中 SAS 平台整合開放源始碼生態系統提供強化優勢帶來更多的效益價值,請參考下表。

部署階段 強化優勢 效益價值
準備資料 主要對於所有資料進行本機,批次和串流存取,並且內建關鍵分析功能,以利減少資料移動和調整錯誤。 更快地處理更多資料,識別新模式和異常,發現新的見解,以及最大限度地減少資料移動,以利提供可信任的高品質資料,並且提供資料管理。
探索分析 主要提供視覺化操作介面讓企業使用者和分析師探索資料進行分析,並且內建資料準備、處理和轉換功能,以利提高資料品質。 讓所有使用者依照授權存取所有系統中的資料,透過資料準備、處理和轉換功能,以利改善資料品質,並且提供分析治理。
建立模型 主要整合不同的環境的程式語言進行協作,互動和高度的視覺化操作的環境,並且可擴展到所有的演算法,以及自動識別冠軍模型的資料。 減少建立模型過程的複雜問題,以利讓資料科學家解決更多問題,並且使用所有資料以迭代方式提高模型準確性,減少延遲和縮短價值實現時間。
管理模型 主要提供用於企業更全面和同步的模型管理,並且提供協作環境、版本控制、監控模型成效,以利確定是否重新訓練模型。 將分析作為企業資產進行管理,並且在企業中執行基於事實的決策,同時建立資料至部署可追蹤性的可信任模型,以及管理風險和合規性。
執行模型 主要能夠將程式碼部署至任何地方,以及提供自動執行流程。 請參考管理模型的效益價值。
監控模型成效 主要提供強大的分析評估模型成效,以及重新訓練冠軍/挑戰者模型的機制,以利確定所選擇皆為最適當的模型。 請參考管理模型的效益價值。

最後 SAS Viya 平台整合開放源始碼生態系統提供靈活的方式幫助企業實現適應性強的部署流程、資料管理和分析治理的環境,用於集中跨各個單位組織的分析,以利企業中的單位組織使用統一的受管理的分析平台管理資料,並且一個持續,可靠和重複的分析平台,可以快速進行資料科學的實驗,在最短時間內建立分析模型,同時整合分析資產集中治理,專門用於分析部署工作負載,資料驅動效率和優化投資報酬率。此外當許多不同的使用者以不同的方式存取資料時,分析平台是成為資料驅動型企業組織的基礎,此時分析平台必須能夠透過分析提供業務價值,從概念到創新和實施再到投資報酬率。

總結 SAS Viya 平台整合開放源始碼生態系統將會是非常適合企業的分析平台,或者我們更進一步將其定位為企業中台,能夠將企業後台的資料透過可學習的分析模型產生可信任的分析結果提供給企業前台實現為不同通路的客戶提供更有價值的即時服務。

相關資源

⬅️ Go back