Big Data

資料科學 Cognitive Class (1)

教學目標

初步了解決 Cognitive Class 網站所提供一系列免費的資料科學相關課程。

重點概念

首先 Cognitive Class 網站主要提供一系列免費的資料科學相關課程,同時每上完任何一門課程皆可以獲得結業証書,並且由 IBM 頒發不同等級的徽章 (Badge),請注意徽章必須滿足多項課程的要求才能夠取得不同等級的徽章。

接著建議先取得下述資料科學相關的徽章,我個人在去年和今年陸續完成下述資料科學相關的徽章,真心推薦初學者學習,分別為:

  1. 大數據基礎概念:Big Data Foundations - Level 2
  2. Hadoop 基礎概念:Hadoop Foundations - Level 2
  3. 資料科學基礎概念:Data Science Foundations - Level 2
  4. 資料科學商業應用:Data Science for Business - Level 2

再來每個徽章皆有許多對應的課程需要完成,以上述四個個徽章為例我們將簡單說明相關的課程重點。

大數據基礎概念

所謂 Big Data Foundations - Level 2 徽章的課程重點在於了解 Big Data、Hadoop 和 Spark 的基礎概念。

Hadoop 基礎概念

所謂 Hadoop Foundations - Level 2 徽章的課程重點在於 MapReduce 和 YARN 的基礎概念、如何將資料轉移至 Hadoop 中以及如何透過 Hive 存取 Hadoop 上的資料。

資料科學基礎概念

所謂 Data Science Foundations - Level 2 徽章的課程重點在於資料科學方法論、R 語言基本介紹以及利用開放源碼工具進行資料科學動手實作。

資料科學商業應用

所謂 Data Science for Business - Level 2 徽章的課程重點在於資料隱私、數位分析和預測建模的基礎概念。

最後在上述課程內容中提到執行資料科學的方法主要有五個階段,分別為:

  1. 從問題到方法
  2. 從需求到收集
  3. 從理解到預測
  4. 從模型到評估
  5. 從部署到反饋

至於資料科學家若要執行資料科學的方法,並且協同合作,則建議使用 Jupyter Notebooks (前身為 iPython Notebooks) 免費工作平台執行 Python 或 R 的程式語言。

總結 Cognitive Class 網站提供許多資料科學相關的免費系列課程之外,更有提供深度學習課程,完成全部課程專屬的 IBM 深度學習徽章,若是上述課程太過簡單,則建議可以花些時間學習深度學習相關課程。

相關資源

SAS 資料科學 (3)

教學目標

初步了解 SAS 解決方案與大數據相關的學習主題。

重點概念

SAS 解決方案中有許多與大數據相關的應用,其中個人認為最關鍵的重點除了資料品質之外就是資料價值,在過去從 2008 年 Hadoop 平台誕生至今將近快滿十年的時間,對於 Hadoop 平台而言已經成熟可應用於企業中解決問題,然而為何 Hadoop 平台如此的重要,最主要的原因就是有能力快速儲存和處理龐大任何種類的資料,因此 Hadoop 平台的出現帶來所謂大數據應用的可能性,此時 SAS 平台整合 Hadoop 平台讓我們有能力從大數據中獲取資料價值,同時還能夠應用於資料探索和視覺化、資料管理、預測分析、資料科學分析、資料評分、…等解決方案。尤其是資料探索和視覺化 SAS Visual Analytics 解決方案將能夠簡化存取資料管理和減少資料準備所浪費的時間之外,更能夠透過視覺化資料探索協助我們快速獲取資料關聯性,同時藉由 In-memory 分析和機器學習的技術快速引導出有利於企業進行決策的觀點。

大數據專業知識

此時我們是否能夠有個學習方向呢?不妨可以先以 SAS Big Data Programming and Loading Exam 考試內容進行有系統的學習,其中主要包括四大部份,分別為 SAS 和 Hadoop、SAS DS2 程式設計、Hadoop 程式設計和透過 IMSTAT 程序進行資料操作,試想我們今天若要進行資料分析首先會需要準備資料,接著透過資料分析的方式驗證與分析資料,最後透過資料視覺化呈現的方式從中探索嘗試找出潛在的趨勢觀點。

SAS 和 Hadoop

首先 SAS 和 Hadoop 主要是了解 SAS 平台如何存取 Hadoop 平台的資源,我們若能了解其重點功能與實務應用,將有助於從 Hadoop 平台中獲取資料價值,此外其它學習重點則分別為:

  1. 描述 Hadoop 互動操作基本需求。
  2. 使用 Hadoop 程序和敘述從 SAS 工作階段與 Hadoop 進行互動。
  3. 查詢和管理儲存在 Hadoop 平台中的 Hive 資料表。
  4. 透過 SAS/ACCESS LIBNAME 敘述操作 Hadoop 檔案。

SAS DS2 程式設計

接著 SAS DS2 程式設計主要是了解 SAS 平台如何透過 DS2 程式語言更有效率的處理大數據,我們若能了解其重點功能與實務應用,將更有效率的處理大數據,此外其它學習重點則分別為:

  1. 撰寫 DS2 程式。
  2. 使用 DS2 讀取資料。
  3. 了解變數、陣列和 SQL 資料類型如何運作。
  4. 了解表達式和函數的使用。
  5. 了解方法、套件和執行緒。

Hadoop 程式設計

再來 SAS DS2 程式設計主要是了解如何管理 Hadoop 平台,這部份與 SAS 平台較無直接關係,主要重點應該在於管理指令、Hive 程式和 Pig 程式,我們若能了解其重點功能與實務應用,將有助於管理 Hadoop 平台,此外其它學習重點則分別為:

  1. 描述 Hadoop 架構。
  2. 透過命令提示工具操作和載入資料檔案。
  3. 撰寫 Hive 程式建立、加入和查詢資料表。
  4. 撰寫 Pig 程式執行 ETL 任務和分析大量資料集。

透過 IMSTAT 程序進行資料操作

再來透過 IMSTAT 程序進行資料操作主要是了解 SAS 平台如何透過 IMSTAT 程序更有效率的處理大數據,我們若能了解其重點功能與實務應用,將更有效率的處理大數據,此外其它學習重點則分別為:

  1. 執行 IMSTAT 程序。
  2. 執行繪圖程序 (PROC IMSTAT)。
  3. 操作 In-memory 資料。
  4. 使用高效能程序 (SAS LASR 分析伺服器)。

總結先以 SAS Big Data Programming and Loading Exam 考試內容進行有系統的學習,其中主要包括四大部份,分別為 SAS 和 Hadoop、SAS DS2 程式設計、Hadoop 程式設計和透過 IMSTAT 程序進行資料操作,其中有 30% 的內容皆是以 SAS 和 Hadoop 為主,30% 的內容皆是以 SAS DS2 程式設計為主,15% 的內容皆是以 Hadoop 程式設計,以及 25% 的內容皆是以視覺化透過 IMSTAT 程序進行資料操作為主,至於要如何學習就先看官方文件和教學影片吧。

相關資源

SAS 資料科學 (2)

教學目標

初步了解 SAS 解決方案與大數據相關的學習主題。

重點概念

SAS 解決方案中有許多與大數據相關的應用,其中個人認為最關鍵的重點在資料品質,正確的資料會是進行最佳決策的第一步,龐大的資料很難協助我們解決問題,了解問題,或進行更快更好的決策,為了達到競爭的優勢,維持利潤和滿足客戶,我們必須要有能力知道資料要告訴我們什麼事情。很不幸的雖然我們擁有資料管理的技術與工具,但是大量的資料通常分散在各部門、團隊和地點中,以不同的格式儲存至不同的系統中。此時我們將會需要花費大量的時間找尋和清理資料,而非浪費時間在分析、溝通和回應,即使資料清理完畢,但是我們卻還是無法確保資料的品質,此時 SAS 解決方案就能夠透過資料管理的方式有效的解決資料品質的問題。

資料管理

但是要如何進行資料管理呢?首先我們可以從六個面向定義資料管理,分別為:

資料存取

所謂資料存取代表我們有能力在任何儲存位置中查詢和檢索資訊,同時有些技術可以使用最簡單有效的方式完成,以利我們能夠花費更多時間使用資料,而不僅僅是找到資料。

資料整合

所謂資料整合代表我們有能力組合不同類型的資料,通常會在擷取、轉換和載入的 ETL 作業中完成,其中資料虛擬化是資料整合其中之一的應用,將會比傳統 ETL 批次處理程式提供更多敏捷性的應用,像是我們可以產生資料的動態檢視示表,其中可進行個人資料的處理,重點在於我們不需要移動和透過中介資料市集儲存,就能直接進行分析應用。

資料準備

所謂資料準備代表我們有能力讓使用者透過最少的學習就能夠自行存取他們所需要的資料,以利降低資訊人員的負擔提高資料的應用價值。

資料品質

所謂資料品質代表我們有能力確保資料準確和可用於其預期目的的做法,從資料的存取,接著資料的整合,再來資料的準備,最後資料的報表呈現,皆必須確保資料的品質。

資料治理

所謂資料治理代表我們有能力透過統一持續的規範和政策管理資料,以利確保我們組織中的資料戰略和業務戰略保持一致性,同時也有助於遵循法規的規範。

主數據管理

所謂主數據管理代表我們統一和管理組織內所有領域常見和必要的資料,主要是利用資料整合和資料品質的功能,為主要的資料建立一致性的檢視表,以利進行整體性的進階分析。

因此我們從六大面向了解資料管理的重點功能,若能真正導入企業為端點至端點的解決方案,將有助於企業在最需要資料時取得正確資料、建立可被信任的最佳資料決策,以及建立資料導向的企業文化。

大數據專業知識

此時我們是否能夠有個學習方向呢?不妨可以先以 SAS Big Data Preparation, Statistics, and Visual Exploration Exam 考試內容進行有系統的學習,其中主要包括三大部份,分別為資料管理、 統計分析和視覺化資料探索,試想我們今天若要進行資料分析首先會需要準備資料,接著透過資料分析的方式驗證與分析資料,最後透過資料視覺化呈現的方式從中探索嘗試找出潛在的趨勢觀點。

資料管理

首先資料管理對於 SAS 解決方案主要為 DataFlux Data Management Studio 產品,我們若能了解其重點功能與實務應用,其中 SAS Quality Knowledge Base (QKB) 就是非常關鍵的應用功能將有助於資料管理,此外其它學習重點則分別為:

  1. 了解 Data Management Studio 操作介面與應用。
  2. 建立和設定能夠瀏覽資料探索和解釋結果。
  3. 從探勘的結果中定義和建立資料集合。
  4. 建立和瀏覽資料檔案。
  5. 設計資料標準綱要。
  6. 建立資料作業。
  7. 套用標準化定義和綱要。
  8. 套用解析定義。
  9. 比較和對比 Identification Analysis 和 Right Fielding Nodes 的差異。
  10. 套用 Gender Analysis Node 決定 Gender。
  11. 建立實體的解決任務。
  12. 定義和建立商業規則。
  13. 描述組織結構和 QKB 基本概念。
  14. 說明何時使用 QKB 不同元件。
  15. 定義被使用在不同定義類型的處理步驟和元件。

統計分析

接著統計分析對於 SAS 解決方案主要為 SAS/STAT 產品,我們若能了解其重點功能與實務應用,其中變異數分析和迴歸分析就是非常關鍵的應用功能將有助於統計分析,此外其它學習重點則分別為:

  1. 驗證變異數分析的假設。
  2. 使用 GLM 和 TTEST 程序分析母體平均之間的差異。
  3. 進行變異數分析事後檢測以利評估成效。
  4. 檢測和分析因素之間的交互作用。
  5. 使用 REG 和 GLM 程序建立多元線性迴歸模型。
  6. 分析 REG、PLM 和 GLM 程序輸出結果,以利評估線性迴歸模型的選擇。
  7. 使用 REG 或 GLMSELECT 程序執行模型的選擇。
  8. 透過診斷和殘差分析確認給定之迴歸模型的有效性。
  9. 使用 LOGISTIC 程序進行邏輯迴歸。
  10. 透過輸入選項優化模型成效。
  11. 解釋 LOGISTIC 程序輸出的結果。

視覺化資料探索

最後視覺化資料探索對於 SAS 解決方案主要為 SAS Visual Analytics 產品,我們若能了解其重點功能與實務應用,其中視覺化資料探索就是非常關鍵的應用功能將有助於統計分析,此外其它學習重點則分別為:

  1. 檢驗、修改和建立資料項目。
  2. 選擇和使用資料來源。
  3. 建立、修改和解釋自動化視覺化圖表。
  4. 建立、修改和解釋自動化視覺化圖形和表格。
  5. 增強視覺化分析的應用。
  6. 透過視覺化的互動進行資料探索。

總結先以 SAS Big Data Preparation, Statistics, and Visual Exploration Exam 考試內容進行有系統的學習,其中有 50% 的內容皆是以資料管理為主,30% 的內容皆是以統計分析為主,以及 20% 的內容是以視覺化資料探索為主,至於要如何學習就先看官方文件和教學影片吧。

相關資源

SAS 資料科學 (1)

教學目標

初步了解 SAS 資料科學的學習主題。

重點概念

若是立志要成為資料科學家,則 SAS 官方的資料科學課程個人認為將會非常棒的選擇,然而 SAS 資料科學主要包括哪一些主題,請參考下表,以下資料取自於 SAS 官方網站。

主題 SAS 認證大數據專業 SAS 認證進階分析專業 SAS 認證資料科學家
具備 SAS 程式設計能力
探索和視覺化資料
了解 Hadoop 和 SAS 的操作
了解統計和分析基礎概念
改善報表和分析的資料品質
存取、轉換和操作資料
具備溝通能力
機器學習和預測模型技術
了解分散式和記憶體中資料集的操作
偵測模式和進行商業實驗
最佳化技術
時間序列預測
整合 SAS、R 和 Python

其中大數據專業主要是管理大數據,重點在於資料品質和視覺化資料探索,以利進行進階分析,以及關鍵的溝通能力,接著當我們擁有高品質的資料,並且透過視覺化資料探索,初步了解資料之後,我們開始需要進行進階分析,此時就會需要進階分析專業,重點在於如何進行分析建模、機器學習、實驗、預測和最佳化,最後資料科學家必須具備上述的能力。

總結 SAS 在於資料科學的領域提供很完整的學習課程,其中主要包括大數據和進階分析兩大重點領域,真是越來越有趣。

相關資源

資料處理 Business Intelligence vs Big Data (2)

教學目標

初步了解商業智慧與大數據分析如何搭配應用為企業帶來價值。

重點概念

商業智慧最早是由 Gartner 研究機構的 Howard Dresner 在 1989 年所提出,簡單來說就是企業透過已知資料支援決策能力的概念或方法。而今比較多人談論的則是大數據分析,其所定義最基本的三個特性,資料產生的速度、資訊數量和多樣性,皆是傳統以資料倉儲為基礎的商業智慧應用所難以處理的問題。此時各行各業皆深信透過大數據分析就能為企業帶來價值,例如金融業擁有百萬客戶的大數據資料最常被應用於精準行銷的進階分析應用,但是往往會面臨客戶資料真實性的問題,以致於分析人員無法有效為企業帶來價值。

這時企業可以透過資料治理針對資料品質進行控管,以利解決客戶資料真實性的問題。最常見的解決方案就是以資料倉儲為基礎建立資料市集,讓業務單位了解資料的定義,接著就能透過商業智慧中的即席查詢和動態報表相關應用立即驗證資料的品質。當企業中提供高品質的資料之後,就能夠解決客戶資料真實性的問題,更進一步透過精準行銷為企業帶來價值。因此企業對於商業智慧和資料倉儲的應用因著重於資料治理的管理,況且企業中的資料整合是非常複雜,以金融業為例,資料倉儲的資料就來自於核心系統、開放系統和通路系統,要如何有效的與各系統有效進行高品質的資料整合將會是資訊人員能夠為企業帶來價值的最重要且最關鍵的工作職責。

但是何謂企業的價值呢?價值又要如何創造呢?根據德勤全球的企業價值地圖,其主要針對利益關係人的價值分為四大類,分別為營收成長、利潤提升、資產效率和期望,其中營收成長又可再分為營收量的成長和價格利益的實現。此時我們針對營收量的成長,其主要可以採取獲取新客戶、留存與增加現有客戶、…、等策略行動,再來我們可以透過產品或服務的創新達到上述的策略行動,一般對於企業來說就是做好客戶經營,針對行銷與業務進行分析,其中行銷的重點在於找出正確的目標群眾,以利進行精準行銷。然而現今因為行動裝置的普及使得企業必須考量全通路的應用情境,因此就會需要透過行銷自動化的解決方案根據不同通路產生行銷活動的名單之外,更進一步會針對不同通路的回應檔資訊進行進階分析,以利優化不同通路的行銷活動名單,除此之外為了因應法規規範和避免客訴的情況發生,此時資訊人員必須確保拒絕行銷名單的資料真實性,以確保分析人員能夠透過行銷活動名單的產出進行精準行銷為企業帶來價值。

總結商業智慧的解決方案已經非常成熟,然而大數據分析的解決方案相對較不成熟,所以商業智慧的未來最關鍵應用之一為資料治理,藉由資訊人員提供高品質的資料,讓分析人員透過大數據的解決方案在確保資料真實性的情況下進行進階分析,更進一步為企業帶來價值。

相關資源