Visualization

SAS 資料科學 (2)

教學目標

初步了解 SAS 解決方案與大數據相關的學習主題。

重點概念

SAS 解決方案中有許多與大數據相關的應用,其中個人認為最關鍵的重點在資料品質,正確的資料會是進行最佳決策的第一步,龐大的資料很難協助我們解決問題,了解問題,或進行更快更好的決策,為了達到競爭的優勢,維持利潤和滿足客戶,我們必須要有能力知道資料要告訴我們什麼事情。很不幸的雖然我們擁有資料管理的技術與工具,但是大量的資料通常分散在各部門、團隊和地點中,以不同的格式儲存至不同的系統中。此時我們將會需要花費大量的時間找尋和清理資料,而非浪費時間在分析、溝通和回應,即使資料清理完畢,但是我們卻還是無法確保資料的品質,此時 SAS 解決方案就能夠透過資料管理的方式有效的解決資料品質的問題。

資料管理

但是要如何進行資料管理呢?首先我們可以從六個面向定義資料管理,分別為:

資料存取

所謂資料存取代表我們有能力在任何儲存位置中查詢和檢索資訊,同時有些技術可以使用最簡單有效的方式完成,以利我們能夠花費更多時間使用資料,而不僅僅是找到資料。

資料整合

所謂資料整合代表我們有能力組合不同類型的資料,通常會在擷取、轉換和載入的 ETL 作業中完成,其中資料虛擬化是資料整合其中之一的應用,將會比傳統 ETL 批次處理程式提供更多敏捷性的應用,像是我們可以產生資料的動態檢視示表,其中可進行個人資料的處理,重點在於我們不需要移動和透過中介資料市集儲存,就能直接進行分析應用。

資料準備

所謂資料準備代表我們有能力讓使用者透過最少的學習就能夠自行存取他們所需要的資料,以利降低資訊人員的負擔提高資料的應用價值。

資料品質

所謂資料品質代表我們有能力確保資料準確和可用於其預期目的的做法,從資料的存取,接著資料的整合,再來資料的準備,最後資料的報表呈現,皆必須確保資料的品質。

資料治理

所謂資料治理代表我們有能力透過統一持續的規範和政策管理資料,以利確保我們組織中的資料戰略和業務戰略保持一致性,同時也有助於遵循法規的規範。

主數據管理

所謂主數據管理代表我們統一和管理組織內所有領域常見和必要的資料,主要是利用資料整合和資料品質的功能,為主要的資料建立一致性的檢視表,以利進行整體性的進階分析。

因此我們從六大面向了解資料管理的重點功能,若能真正導入企業為端點至端點的解決方案,將有助於企業在最需要資料時取得正確資料、建立可被信任的最佳資料決策,以及建立資料導向的企業文化。

大數據專業知識

此時我們是否能夠有個學習方向呢?不妨可以先以 SAS Big Data Preparation, Statistics, and Visual Exploration Exam 考試內容進行有系統的學習,其中主要包括三大部份,分別為資料管理、 統計分析和視覺化資料探索,試想我們今天若要進行資料分析首先會需要準備資料,接著透過資料分析的方式驗證與分析資料,最後透過資料視覺化呈現的方式從中探索嘗試找出潛在的趨勢觀點。

資料管理

首先資料管理對於 SAS 解決方案主要為 DataFlux Data Management Studio 產品,我們若能了解其重點功能與實務應用,其中 SAS Quality Knowledge Base (QKB) 就是非常關鍵的應用功能將有助於資料管理,此外其它學習重點則分別為:

  1. 了解 Data Management Studio 操作介面與應用。
  2. 建立和設定能夠瀏覽資料探索和解釋結果。
  3. 從探勘的結果中定義和建立資料集合。
  4. 建立和瀏覽資料檔案。
  5. 設計資料標準綱要。
  6. 建立資料作業。
  7. 套用標準化定義和綱要。
  8. 套用解析定義。
  9. 比較和對比 Identification Analysis 和 Right Fielding Nodes 的差異。
  10. 套用 Gender Analysis Node 決定 Gender。
  11. 建立實體的解決任務。
  12. 定義和建立商業規則。
  13. 描述組織結構和 QKB 基本概念。
  14. 說明何時使用 QKB 不同元件。
  15. 定義被使用在不同定義類型的處理步驟和元件。

統計分析

接著統計分析對於 SAS 解決方案主要為 SAS/STAT 產品,我們若能了解其重點功能與實務應用,其中變異數分析和迴歸分析就是非常關鍵的應用功能將有助於統計分析,此外其它學習重點則分別為:

  1. 驗證變異數分析的假設。
  2. 使用 GLM 和 TTEST 程序分析母體平均之間的差異。
  3. 進行變異數分析事後檢測以利評估成效。
  4. 檢測和分析因素之間的交互作用。
  5. 使用 REG 和 GLM 程序建立多元線性迴歸模型。
  6. 分析 REG、PLM 和 GLM 程序輸出結果,以利評估線性迴歸模型的選擇。
  7. 使用 REG 或 GLMSELECT 程序執行模型的選擇。
  8. 透過診斷和殘差分析確認給定之迴歸模型的有效性。
  9. 使用 LOGISTIC 程序進行邏輯迴歸。
  10. 透過輸入選項優化模型成效。
  11. 解釋 LOGISTIC 程序輸出的結果。

視覺化資料探索

最後視覺化資料探索對於 SAS 解決方案主要為 SAS Visual Analytics 產品,我們若能了解其重點功能與實務應用,其中視覺化資料探索就是非常關鍵的應用功能將有助於統計分析,此外其它學習重點則分別為:

  1. 檢驗、修改和建立資料項目。
  2. 選擇和使用資料來源。
  3. 建立、修改和解釋自動化視覺化圖表。
  4. 建立、修改和解釋自動化視覺化圖形和表格。
  5. 增強視覺化分析的應用。
  6. 透過視覺化的互動進行資料探索。

總結先以 SAS Big Data Preparation, Statistics, and Visual Exploration Exam 考試內容進行有系統的學習,其中有 50% 的內容皆是以資料管理為主,30% 的內容皆是以統計分析為主,以及 20% 的內容是以視覺化資料探索為主,至於要如何學習就先看官方文件和教學影片吧。

相關資源

資料分析 Tableau (1)

基本介紹

教學目標

初步了解 Tableau 工具視覺化分析的應用。

重點概念

Tableau 主要為資料分析的視覺化工具,創辦人之一 Pat Hanrahan 主要研究電腦圖學,同時也是皮克斯動畫工作室的創始成員之一,因此 Tableau 工具非常注重資料視覺化的呈現方式,首先我們在過去會藉由 Excel、SQL、SAS Enterprise Miner 和 IBM SPSS 與資料進行對話,但是有一定程度的學習門檻,此時透過 Tableau 將能夠讓使用者非常直覺的進行操作。接著當我們收集完資料之後需要進行資料分析,此時透過 Tableau 進行視覺化呈現將能夠進行探索式的資料分析。再來傳統的報表分析已經無法快速滿足業務單位彈性的需求,因為主要皆是由 IT 負責製作分析報表,所以就會存在許多溝通上的瓶頸,此時透過 Tableau 製作分析報表將能夠有效降低溝通上的瓶頸。同時 Tableau 越來越受歡迎的原因,主要是因為探索式資料的視覺化分析需求快速增加。

接著我們從大數據的定義來更深入了解 Tableau ,大數據的定義主要有 4V,分別為資料量、多樣性、時效性和真實性,首先針對資料量,主要有 Connect Live 和 Data Extract 兩種讀取資料的功能,簡單來說 Data Extract 主要就是將小量的資料讀取至本機端進行處理,而 Connect Live 則主要就是直接從資料庫中讀取大量的資料。接著針對時效性,主要有 In-memory Computing 的功能,會將常常聚合運算的資料欄位放置於記憶體中,因此可以重複使用,雖然速度快但是記憶體成本更高。再來多樣性,主要有 Data Blending 的功能,當資料來源多元化時,像是檔案和資料庫,則可以進行關聯資料的匯整有助於進行資料探索,但是效能不佳。最後真實性,主要透過視覺化的方式來驗證資料的真實性和探索出資料所代表的價值,簡單來說針對資料我們會藉由交叉表呈現資料明細,以及圖表呈現視覺化分析,然而在 Tableau 工具中只要在任何維度和測量值上連按兩下左鍵就會自動判斷最適合的呈現方式,同時確保資訊能夠有效的進行傳達和快速理解,更進一步透過疊圖的功能加強交叉表和圖表的解釋。

再來 Tableau 工具主要可以分為 Desktop 和 Server 兩個版本,所謂 Desktop 版本能夠直接建立連線至資料庫藉由強大的功能進行探索分析,接著建立儀表板和故事,再來進行靜態匯出和分享。然而 Server 版本能夠讓使用者動態進行互動和分享,注意 Server 版本網站上只能夠建立報表的功能相較於 Desktop 相對簡易,像是無法建立階層關係、無法建立雙軸圖表、無法建立儀表板、無法建立故事、…、等實用功能。簡單來說我們可以透過 Tableau Desktop 匯整資料,接著進行維度和測量值的變更,再來動態建立階層結構,此時就能夠建立下鑽的動態報表。下一步則可以再透過 Show Me 的功能針對交叉資料表更改視覺化呈現樣式,像是折線圖、長條圖、橫條圖、圓餅圖、…、等圖表,其中視覺化圖表最實用的分析功能為可以客製化 Mark 主要包括 Color、Size、Label、Tooltip 和 Detail 等五種,包括,接著再設定 Filter 就能夠產生動態篩選的方式。此外當我們面臨兩個不同的資料來源時只要維度名稱一樣就能夠自動進行 Data Blending 的資料關聯。然而當我們要和主管們進行報告的時後,就能夠將報表整合成儀表版,同時進行動態篩選與同步更新不同報表的互動操作,以及以故事的方式進行報表註解與呈現說明。當然我們更可以將製作完成的報表發佈至 Tableau Server 中,針對發佈的報表、儀表板和故事則可以進行簡易的編輯、分享和下載。

至於 Tableau Server 則是由多個伺服器、多個處理程序和多個執行續所組成,像是 Gateway Load Balancer、App Server、Repository、VizQL、Data Server、Data Engine、Backgrounder 和 Data Source Drivers 等相關伺服器,其中 Data Server 主要進行資料庫的 Connect Live 的連線功能、Backgrounder 主要進行定期更新和訂閱報表的功能、…、等。再來主要可以透過 Tabcmd 進行批次排程的操作,像是針對使用者權限,以及 Tabadmin 進行系統管理者的例行管理工作。最後權限控管主要階層關係為 Site、Projects、Workbooks、Views、Groups、Users 和 Permissions ,一般來說 Site、Projects 和 Workbooks 權限設定的細項將會有所不同,以及當要進行大量使用者與群組的對應時,則需要透過 Tabcmd 進行批次排程的處理,因為群組中無法直接透過介面加入多個使用者。

總結 Tableau Desktop 一開始的學習門檻不算太高,非常適合初學者進行視覺化分析的應用。

相關資源

資料分析 Chart & Visualization (3)

基本介紹

教學目標

初步圖表和視覺化的歷史源由與實務應用。

重點概念

首先圖表最早源自於 18 世紀 1786 年由 William Playfair 出版商業和政地圖集 (Commercial and Political Atlas) 中描述經濟數據及人口變化,主要以 43 個長條圖、橫條圖和折線圖的方式呈現,以及在 1801 年又出版統計摘要 (Statistical Breviary) 中描述土耳其帝國於亞洲、非洲和歐洲面積,主要以圓餅圖的方式呈現。接著在 1858 年 Florence Nightingale 出版影響英國軍隊健康、效率和醫院行政的筆記 (Matters Affecting the Health, Efficiency and Hospital Administration of the British Army) 描述 1854 年和 1855 年克里米亞戰爭中士兵死亡的情形,主要以圓餅圖的方式呈現,但是卻有些不同,所以又稱南丁格爾玫瑰圖,之後就演變成目前的雷達圖。並且統計學之父 Karl Pearson 更稱她為應用統計發展中的女先知,此外 Karl Pearson 在 1892 年則發明了直方圖,主要用於呈現連續型資料的次數分佈圖,反之呈現非連續型資料的次數分佈圖,則會使用長條圖,其中連續型資料中間是沒有空隙的,但是非連續型資料中間必須留有間隔。此外 Ronald Aylmer Fisher 在 1925 年出版研究者的統計方法 (Statistical Methods for Research Workers) 中透過散佈圖解釋統計方法的應用,之後就演變成目前的泡泡圖。小結 William Playfair 在 1786 年至 1801 年所應用的長條圖、橫條圖、折線圖和圓餅圖為現今最常應用的圖表,其中長條圖、橫條圖、折線圖和圓餅圖基本皆為一個類別型變數和量值型變數,所謂類別型變數就是維度、量值型變數就是量測值,同時一般來說維度也就是文字資料,量測值也就是數值資料,所以我們只要有一組文字資料對應數值資料就能夠產生基本的圖表,但重點則是如何有效傳達資訊。

接著視覺化最早源自於 19 世紀 Charles Joseph Minard 在 1861 年以資訊圖表的方式描繪了 1812 年拿破侖軍隊在俄國戰役中蒙受的損失,透過資訊圖表同時傳達多個資料維度,包括了規模、方向、地理、溫度、… 等資訊。接著視覺化量化資訊的先驅 Edward Tufte 則評論該圖說:「這是至今為止最好的統計圖。」,同時他出版的數量資訊的視覺呈現 (The Visual Display of Quantitative Information) 提出了 ChartJunk 和 Data-ink Ratio 兩大視覺化應用的重點,所謂 ChartJunk 代表無效的圖表,也就是不要將時間浪費在沒有意義的圖形表達上,以及所謂 Data-ink Ratio 代表資料墨水比例,也就是強調盡量精簡圖表,以利突顯出核心資訊的理念,至於更多偉大的視覺化作品皆有記載於 Tufte 的個人網站中。

再來進入了 21 世紀,網際網路成為了新的視覺化媒體,產生了許多新的技術和新的功能,並且能夠大量的傳播影響廣大的受眾,同時能夠與視覺化圖表進行即時的動態互動。此外現代視覺化專家 Stephen Few 在出版的現在看到了吧?量化分析視覺化訣竅 (Now You See It, Simple Visualization Techniques for Quantitative Analysis) 書籍中提到:「身為『以數量指出企業訊息』的提供者,我們的責任不只要篩選數據並且要傳遞下去,還必須幫助我們的讀者獲得其中的見解。我們必須用一種帶領讀者踏上探索旅程的方式設計訊息滿確保重要的事件清楚地看到並且明白。數字裡有很重要的故事要說,得依告你賦予他們清楚又有說服力的聲音。」,也就是說未來視覺化將會以故事的方式解釋數字背後所代表的意義。

最後視覺化主要為用圖表呈現資料,以及視覺化呈現最主要的作用,是以清晰易懂的方式直指重點。此外 Cole Nussbaumer Knaflic 在 2015 年出版 Google 必修的圖表簡報術 (Storytelling with Data: A Data Visualization Guide for Business Professionals) 中提到選對有效的視覺元素,像是點型圖看分佈、線型圖看關聯、條狀圖比多少、區域圖看差異、盡量別用圓餅圖和向立體圖說不等建議在於視覺化圖表的分析應用時將會非常實用。

相關資源

Cognos 報表應用 (8)

基本介紹

教學目標

初步了解 IBM Cognos BI 如何有效應用視覺化圖表傳達重要的資訊。

重點概念

在 IBM Cognos BI 平台中提供了視覺化的工具,能夠讓我們更容易產生視覺化圖表,然而文件中只教我們如何操作卻沒有教我們如何應用,此時要如何開始呢?若只是將數據轉換為圖表真的能夠有效傳達資訊嗎?此我們就需要了解圖表的基礎應用概念。首先圖表基本上可以先分為四大類型,分別為數量、推移、排序和內容,簡單來說我們會透過直條圖呈現比較連續數量的大小;透過折線圖呈現變化的推移;透過橫條圖呈現項目的排名;透過圓餅圖呈現詳細的內容。首先直條圖主要呈現連續且特定的數量,縱軸設為數量,橫軸設為時間或變化的要素,數量的基準點最好從 0 開始,像是年月季等連續時間軸搭配銷售數據以呈現時間序列下的銷售情況。接著折線圖主要呈現事件變化的走勢,縱軸設為比較項目的數值,橫軸設為時間順序,數值的基準點不一定要從 0 開始,且單位可以是百分比,主要目的在於呈現變化的程度。再來橫條圖主要呈現相同屬性的項目排序進行比較,縱軸設為比較項目,橫軸設為呈現排序和比較結果的數值,數值的基準點不一定要從 0 開始,最後圓餅圖主要為表示詳細內容,透過面積呈現不同內容的佔比,不適用於走勢比較。

接著圖表盡量放大呈現,若是圖表做得太小也是一種干擾,因為圖表主要是藉由面積和形狀來呈現數據重點的工具,此時要注意圖例的位置,刪除不需要標註也看得懂的縱軸或橫軸名稱,刻度的表示,像是當數字大到出現好幾位數時,就以千元為單位,因為圖表主要是呈現數量與變化的趨勢,而非呈現精確的數值,以及當需要特別強調數量與變化的趨勢時,設定不同的刻度,呈現出來的面積與趨勢也會跟著改變。然而上述四大類型的圖表無法呈現數據的分佈與相關性,此時就可以透過散佈圖或泡泡圖呈現,此時縱軸與橫軸的刻度間距最好一致等距,至於要如何設定縱軸和橫軸,基本上我們會將變化的項目 A 設為橫軸,然後將隨著變化的項目而發生變化的項目 B 設為縱軸,像是信用額度與消費金額的關係,此時信用額度的變化會影響消費金額,因此橫軸為信用額度和縱軸為消費金額。此外在泡泡圖中透過泡泡的位置和大小最能吸引人們的視線,若巧妙設定座標軸的單位,將會使得差距變的更明顯,並且放大泡泡,呈現壓倒性的大小和出人意料之外的位置,都能加強資訊的說服力。

再來針對不同的視角該如何選擇圖表,首先要有效呈現數量的遞減,此時就能採用瀑布圖,主要能夠呈現兩個時間點前後的數量變化,強調狀態變化的過程,找出變化的多個起因,像是實施各式各樣的策略之後,要以視覺效果呈現哪些策略有助於提升業績或利潤。接著當數量單位完全不同時請設成左右兩軸,也就是組合圖表,以柏拉圖最為普遍應用,主要將項目的數量由多到少以直條圖排列,再針對右軸畫出累積百分比的折線圖,此時就能夠看出比較項目造成的影響成效,簡單來說若數據是數量與百分比的組合請優先考慮組合圖表。再來若當折線圖無法有效傳達出重點時,則可以嘗試轉換為面積圖,主要能夠以折線表現變化,且以面積表現數量、更能夠以堆疊表現每一段縱軸的比率,同時傳達三種資訊的圖表。最後當我們需要透過圖表呈現綜合能力時,可以採用雷達圖,主要進行能力比較,讓人能一眼看清楚能力強弱的圖表,此外當為圓形時則代表完整能力的圖表,但若有不足之地方,則可進行改善以利取得平衡,簡單來說若比較的對象達三種以上時,容易導致重疊而呈現不清楚時,建議採用雷達圖呈現進行比較。

總結除了基本的四大類型圖表包括長條圖、折線圖、直條圖和圓餅圖之外,針對數據的分佈與相關性會選擇散佈圖和泡泡圖,以及針對不同的視角會選擇瀑布圖、柏拉圖、面積圖和雷達圖等進階圖表應用,可是當我們針對大數據的分析應用時上述圖表真的能夠的清楚呈現資訊嗎?此時我們就能夠透過熱力圖、樹狀結構圖、壓縮泡泡圖、文字雲和網絡圖等進階圖表呈現大數據所要傳達的資訊,至於圖表設計最好能夠以最小的對比傳達最大的力量,原則就是簡化與聚焦,再搭配 2013 年開始流行的扁平化設計將能回到原點思考如何以簡單、直接的方式呈現要傳達的訊息,此時再透過 IBM Cognos BI 平台應用視覺化的工具以數據為基礎產生視覺化圖表將能夠更清楚傳達重要的資訊。

相關資源

資料分析 Chart & Visualization (2)

基本介紹

教學目標

初步比較 SAS Visual Analytics Designer 和 IBM Cognos Workspace Advanced 圖表視覺化。

重點概念

首先 SAS Visual Analytics Designer 中有部份圖表是隱藏起來,需要顯示才可以應用,此外 IBM Cognos Workspace Advanced 中的視覺化需要上網下載匯入才可以應用。

圖表視覺化 SAS Visual Analytics Designer IBM Cognos Workspace Advanced
直條圖 「圖形」→「長條圖」 「圖表」→「直條圖」
長條圖 「圖形」→「長條圖」→「屬性」→「方向」→「水平」 「圖表」→「直條圖」
目標直條圖 「圖形」→「目標長條圖」 「圖表」→「長條圖」→「內容」→「數字基準線」
目標長條圖 「圖形」→「目標長條圖」→「屬性」→「方向」→「水平」 「圖表」→「長條圖」→ 「內容」→「數字基準線」
瀑布圖 「圖形」→「瀑布圖」 「圖表」→「漸進」
折線圖 「圖形」→「折線圖」 「圖表」→「折線圖」
區域圖 「圖形」→「折線圖」→「屬性」→「群組樣式」→「堆疊已填滿」 「圖表」→「區域圖」
圓餅圖 「圖形」→「圓形圖」 「圖表」→「圓餅圖」
散布圖 「圖形」→「散布圖」 「圖表」→「散佈圖」
時間序列圖 「圖形」→「時間序列圖」 「圖表」→「折線圖」
泡泡圖 「圖形」→「氣泡圖」 「圖表」→「泡泡圖」
樹狀結構圖 「圖形」→「樹狀圖」 「視覺化」→「Treemap」
群組直條圖 「圖形」→「雙座標軸長條圖」 「圖表」→「叢集直條圖」
群組長條圖 「圖形」→「雙座標軸長條圖」→「屬性」→「方向」→「水平」 「圖表」→「叢集長條圖」
群組折線圖 「圖形」→「雙座標軸折線圖」 「圖表」→「叢集折線圖」
組合圖 「圖形」→「雙座標軸條線圖」 「視覺化」→「組合圖」
雙座標軸時間序列圖 「圖形」→「雙座標軸時間序列圖」 「圖表」→「叢集折線圖」
甘特圖 「圖形」→「排程圖」 「視覺化」→「甘特圖」
數值序列圖 「圖形」→「數值序列圖」 「圖表」→「折線圖」
階梯圖 「圖形」→「階梯圖」 「圖表」→「叢集階梯分點式線圖」
點圖 「圖形」→「點圖」 「圖表」→「點」
旋風圖 「圖形」→「碟型圖」 「視覺化」→「旋風圖」
相對時間序列圖 「圖形」→「相對時間序列圖」 「圖表」→「折線圖」
地圖 「其它」→「地圖」 「視覺化」→「地圖」
測量儀器 「其它」→「測量儀器」 「圖表」→「項目符號」
文字雲 「其它」→「文字雲」 「視覺化」→「標籤雲」
柏拉圖 「圖形」→「雙座標軸條線圖」 「圖表」→「Pareto」
向量圖 「圖形」→「向量圖」
針狀圖 「圖形」→「針狀圖」
股票高低圖 「圖形」→「股票高低圖」
股票交易量和波動圖 「圖形」→「股票交易量和波動圖」
氣泡變化圖 「圖形」→「氣泡變化圖」
網路圖 「視覺化」→「網路圖」
雷達圖 「視覺化」→「雷達圖」
熱力圖 「視覺化」→「熱力圖」
壓縮泡泡圖 「視覺化」→「壓縮泡泡圖」
量表 「視覺化」→「量表畫面」
弦圖 「視覺化」→「弦」

相關資源