Teradata 基本介紹 (3)

基本介紹

教學目標

初步了解 Teradata 之 Data Warehouse 與 Data Lake 整合應用。

重點概念

Data Lake 概念接近 Apache Hadoop Ecosystem,主要是描述企業組織如何從現有 Data Warehouse 的資料架構評估過程中,透過 Apache Hadoop Ecosystem 建立具成本效益和技術可行性,並且滿足大數據所帶來的挑戰之 Data Lake。

Data Warehouse 和 Data Lake 差別 ?

維度 Data Warehouse Data Lake
負載 主要來自於使用者互動分析查詢(Query)的效能。 主要延展資料的批次處理,支援更多使用者互動。
綱要 在資料儲存前定義綱要,Schema on write 是代表資料會在被需要之前進行識別和建模,提供存取效能、資料安全和整合分析,適合已知價值的資料類型。 在資料儲存後定義綱要,Schema on read 是代表資料必須在任何程式存取資料時被擷取,提供靈活和易用的資料擷取,適合未知價值的資料類型。
延展 中低成本且延展高 低成本且延展性非常高
效益 透過一致性且非常快速回應時間將從多個不同來源的相關資料整合成單一企業視圖(Single Enterprise View),並且轉換一次重複使用,以提供最安全的資料跨函數之分析(Cross-functional Analysis)服務。 擁有非常良好的伺服器延展能力,並行處理傳統程式語言(JAVA、C++、Python、Perl、…),同時支援高階的程式語言 (Pig、HiveQL、…),此外有能力儲存更大量的資料。
存取方法 ANSI SQL標準、ACID規範 程式設計、進階 SQL
資料 淨化(Cleansed) 原始(Raw)
複雜度 複雜連結(Joins) 複雜處理(Processing)
成本效益 有效率的使用 CPU 和 I/O 低成本的儲存和處理

Data Warehouse 與 Data Lake 整合應用 ?

事實上 Data Lake 非常適合擔任大數據之 ETL 角色,更進一步改進 ETL 處理流程,此外 Data Lake 若要與 Data Warehouse 整合應用,則會考慮五個問題:

  1. 資料是否安全嗎?
  2. 存取是否被控制呢?
  3. 所有規範準則皆有被遵循嗎?
  4. 所有活動皆有被追蹤的稽核軌跡嗎?
  5. 資料是否透過生命週期進行控管呢?

在進行整合之後下一步就會考慮發掘 (Discovery) 和探索 (Exploration) 之功能,簡單來說 Data Warehouse 能夠透過不同查詢 (Query) 方式取得 Data Lake 中的資料,以 Teradata 為例即是 SQL-H ,這是個非常複雜的整合應用,但 Teradata 已有提供完整的解決方案,如下圖所示。
Teradata 之 Data Warehouse 與 Data Lake 整合應用

如何開始建立 Data Lake ?

最後要如何考慮現有企業 Data Warehouse 應用下開始建立 Data Lake ,主要則有四大步驟。

  1. 處理延展性的資料。
  2. 建立轉換和分析的能力。
  3. 擴大企業的影響力。
  4. 企業能力。

更多詳細內容請參考相關資源的 CITO Research 文件,此篇僅以個人心得筆記的方式分享提供資訊。

相關資源