人工智慧 AI Platform Architecture (1)

教學目標

初步了解人工智慧的分析平台架構要考慮哪些需求。

重點概念

首先目前人工智慧議題很熱門,此時若我們需要建立人工智慧的分析平台架構則要考慮哪些需求呢?根據「A platform architecture for the AI analytics lifecycle 」官方部落格文章提到建立人工智慧的分析平台架構主要有三大領域,分別為:

  1. 資料
  2. 發現
  3. 部署

資料

接著資料主要是分析的基礎,資料來自於不同資料來源,分別為:

  1. 資料倉儲
  2. 資料湖
  3. 串流資料

許多企業有非常成熟的能力控管資料倉儲的資料,也就是關聯資料庫和檔案,運行幾年之後企業針對儲存大量資料需要有低成本和可擴展效能的資料池,也就是 Hadoop 系統。下一步企業若要以資料驅動決策就會需要收集許多直接與客戶的資料,像是感測器、網路、物聯網、社群媒體、數位客戶互動、…等,也就是串流資料,串流資料大多為新的資料型態和快速增加的特性。

發現

再來發現主要包括探索資料和建模資料將有助於了解資料和訓練演算法與模型,然而隨著時間資料量快速增加時,平台架構需要分析來自於不同來源和不同類型的資料,以利在最少的時間內提供答案。因此平台架構需要盡可能地支援多種類型的資料來源進行探索,基本上技術可以分為三種類型,分別為:

  1. In-database 分析
  2. In-stream 分析
  3. In-memory 分析

所謂 In-database 分析主要是會直接執行進階分析,而不會從資料來源移動資料,從而減少資料擷取的時間,特別是針對來自於叢集環境的資料,像是 Hadoop。所謂 In-stream 分析主要是分析串流資料時不需要進行儲存,因此取得資料的時間是非常關鍵的因素,可以透過簡單的資料持續訓練模式演算法,以利進階分析。所謂 In-memory 分析主要是進行快速計算大量資料的工具,通常會將資料移至記憶體中進行快速的進階分析,因此記憶體的大小是非常關鍵的因素。此外許多進階分析是組合多個來源資料,此時若我們將其資料整合至特定資料來源時將會導致空間和效能的問題發生,需要特別小心謹慎。

部署

最後部署主要是實際從分析中獲得價值,價值來自於獲取資料,並且了解和開發演算法。當我需要使用這些資訊時,理應就能夠以清晰可理解的方式呈現資訊,並且將資料產生回來源系統或資料倉儲,以利整合至營運系統中進行自動化決策。因此透過部署能夠讓我們清楚地呈現資訊,使其容易了解和進行自動化決策,其中的主要有三個重要的功能,分別為:

  1. 視覺化
  2. 提供資料
  3. 自動化決策

所謂視覺化主要應用於企業內部呈現客戶資訊的強大工具。所謂提供資料則是將結果輸出回企業資料倉儲或資料湖中,以供其它系統更進一步分析和使用。所謂自動化決策則是系統本身以智慧的方式進行行動,此時需要一種基於適當演算法來定義決策的方法,並且持續訓練和評估演算法,然後將結果匯整至決策系統中。此外為了達成彈性和更短的實作時間,通常部署會搭配 REST API 技術標準進行不同服務與系統之間的溝通。

總結建立人工智慧的分析平台架構則會結合資料、發現和部署三大領域的應用;然而企業中很難透過單一平台符合人工智慧的分析平台架構三大領域的需求,因此不同領域的系統與服務進行整合就會是非常重要的事項,像是透過 REST API 、微服務、…等技術標準進行不同服務與系統之間的溝通。

相關資源