Leo Yeh's Blog

SAS 資料管理 (8)

教學目標

初步了解 SAS 平台大數據管理的基本概念。

重點概念

首先所謂大數據主要是用於描述無法透過傳統基礎設施、架構和技術進行管理和分析的資料,因為大數據是巨量資料的集合,所以很難透過現有的資料庫管理工具進行處理。然而無論資料如何定義,大數據皆與組織現有的資料管理的基本設施相關,並且必須具備處理資料的能力。此外當我談論大數據時,通常會有三種常見的屬性或特徵,分別為:

  1. 大小:主要代表所收集資料的整體大小。
  2. 速度:主要代表資料傳輸的頻率。
  3. 種類:主要代表資料來自於多種來源。

除了上述三種屬性或特徵之外,還有第四種屬性或特徵,也就是價值,企業組織皆期望能夠從大數據中透過分析找出最大的價值,以利企業組織進行市場競爭。

接著大數據主要是由結構化和非結構化資料所組成,根據估計,其中近 90% 的大數據來自於非結構化資料,主要隨著網際網路和線上應用程式的成長,以致於大部分的大數據皆是以非結構化資料為主。同時雲端運算、社群媒體和行動裝置將為企業組織帶來巨量的資料,也就是大數據,其中資料來源主有五大類,分別為:

  1. 公開資料。
  2. 社群媒體。
  3. 企業資料。
  4. 感測資料。
  5. 交易資料。

再來大數據面臨許多的挑戰,主要有六大項,分別為:

  1. 服務等級標準。
  2. 資料延遲。
  3. 資料轉換。
  4. 處理非結構資料。
  5. 儲存成本。
  6. 擴展能力。

主要是因為傳統的的資料處理架構伺服器和資料庫已經無法處理巨量的資料,此時大數據處理架構,則主要是以分散式節點進行資料處理為主,相較於傳統架構中邏輯撰寫至應用程式中,大數據架構則是將邏輯盡可能撰寫至分散式節點之間進行處理。此外傳統資料管理中主要是先定義資料綱要才能夠進行讀取,也就是 Schema On Write,但是在大數據管理中主要是無需先定義資料綱要就能夠進行讀取,也就是 Schema On Read。

最後針對大數據的處理模式,主要可以分為兩種,請參考下表 。

Scale Up Scale Out
擴展 重直 水平
成本 便宜
硬體 專屬 叢集
容錯
儲存 TB PB

其中 Scale Up 就是增加更強大的機器,像是 Teradata,至於 Scale Out 就是購買更多相同的機器進行叢集,像是 Hadoop。傳統資料系統皆是以 Scale Up 為主,而大數據技術則是以 Scale Out 為主,以利大數據管理時具備更強大的容錯能力和擴展能力,並且能夠處理非結構化資料,同時硬體成本相較於傳統資料系統更具經濟效益。至於 SAS 平台則能夠同時支援 Teradata 平台和 Hadoop 平台,以利進行大數據的管理。

相關資源

⬅️ Go back