SAS Viya (86)

教學目標

初步了解 SAS Event Stream Processing 的基本概念。

重點概念

首先我們要如何在大量快速的資料中,透過應用簡單的業務規則和模式,同時無需存儲任何資料檢測,即時訓練和分析模型進行評分,以及如何將特定功能轉化為直接的業務優勢將會是非常重要的事情。在過去當我們考慮分析時,最常見建立模型的方法就是執行提取,轉換和載入,也就是 ETL,並且存取來自多個資料來源的儲存資料,同時轉換寫入至集中式資料儲存中,更進一步的透過資料操作來建立分析基礎資料表,也就是 ABT,其代表模型輸入的資料,下一步訓練分析模型,然後進行部署將此模型應用至正式環境中,以及定期執行已部署的模型根據歷史資料產生評分,上述步驟稱為靜態資料模型的建立和執行,然後可以計算評分,再由應用程式驅動業務流程和決策分析。

接著 SAS Event Stream Processing 是一個事件串流引擎,主要能夠以低延遲每秒處理數百萬個事件,這樣我們就能夠應用計算執行操作,並且對於事件串流進行應用分析,至於事件串流是我們業務中發生的事件的記錄,其有可能網站或移動應用程式任何操作,但它就是一個資料記錄,我們稱為串流,因為與傳統的 ETL 流程不同,其通常是作業執行的地方定期提取,轉換和載入資料,我們將會在資料發生時即時處理分析。我們主要可以針對串流資料進行簡單的事件處理開始,像是計算、過濾器、聚合、…等,有時也能夠為業務帶來價值,更進一步增加資料品質的操作,時間模式檢測,文字分析,串流分析、機器學習、…等,當然 SAS Event Stream Processing 支援開放源始碼和其它語言的整合,像是我們主要會透過 Python 語言建立事件串流處理專案,透過 Python 和 C 語言產生即時串流內的評分,以及透過 Python 、C 和 Java 進行客製整合。此外串流 ETL 管線處理的高層級的架構主要能夠分為四個階段,分別為資料來源、資料收集層、資料暫存層和 SAS 雲端分析處理,其中 SAS Event Stream Processing 能夠支援多種類型串流資料來源,像是各種傳感器產生的串流資料、多個檔案分發到不同的資料夾、透過 API 與分散式串流或靜態資料來源互動取得資料,當收集資料之後,其會將其發送到資料暫存層,並且在串流中進行轉換,同時將轉換之後的資料寫入 CAS 資料表中,以利後續即時分析應用。

再來我們要如何將上述所提到的 SAS Event Stream Processing 技術功能轉換為商業效益,像是提高收入,提高客戶滿意度,提高生產力、降低流失率、降低操作錯誤、降低欺詐發生機率,以利我們建立一個商業計劃來證明採用 SAS Event Stream Processing 事件串流處理的合理性。此時第一步驟就是需要與業務領域進行合作和討論,以確定現有的業務問題及其相關的估計損失或創造收入的新機會,將有助於提供的產品或服務,以及其相關的損失和收益機會,第二步驟就是將 SAS Event Stream Processing 功能對應至最終的業務優勢,我們主要能夠從五大方面進行深入探討,分別為:

  1. 直接的商業效益
  2. 快速進入市場
  3. 減少模型和專案部署操作錯誤
  4. 改善模型成效
  5. 即時資料整合和資料品質

第三步驟當完成業務計劃之後,再次與業務領域合作,以解釋有形的商業效益,同時透過 SAS Event Stream Processing 重新定義並且完成計劃,有時我們需要提供減損或直接損失的估算收益,如果我們需要這樣做,請嘗試在估算中保守,並且嘗試進行驗證商業領域的業務問題,請注意雖然我們可以一次包含多個業務問題,但是可能會增加專案的複雜性和不確定性,以致於增加專案的風險,因此最好先一次針對一個問題或機會。

最後 SAS Event Stream Processing 非常適合解決業務問題,並且這些問題主要以即時執行分析為主,並且在不儲存資料的情況下產生資料串流的洞察力,同時其提供了豐富多樣的進階分析建模算法,包括監督和非監督,將能夠處理結構化資料和非結構化資料,像是文字分析影像處理,以及採用離線和在線開發模型的能力。此外基於條件維護 (Condition-based maintenance, CBM) 關鍵高價值機器是典型的物聯網 (Internet of Things‎,IoT) 情境,其主要關鍵是監控重要的機器健康參數,以利可以基於機器的感知狀況進行維護,而不是每隔一段時間執行預防性維護,其中維修之間的故障可能性非常小,或者通過執行機器直到它失敗再進行修復,這時我們也就能夠透過 SAS Event Stream Processing 來監控即時變數的即時狀況。

相關資源