資料處理 Data Integration (1)

基本介紹

教學目標

初步了解資料整合 (Data Integration,DI) 的概念。

重點概念

資料整合主要可以分為企業應用與互聯網應用,有很多的原因會導致企業資料分散在多個不同的資料庫中,例如: 企業併購、部門合併,特定需求的專案、…等,因此在企業進行內部重組時,應該適時的進行調整與對應。此外互聯網中有成千上萬的網站提供特定主題領域的資訊,例如: 影劇、音樂、美食、旅遊、新聞、…等,此時面臨最大的困難為大規模資料庫的整合,資料會由不同的人用不同的語言建立,質次提取資料相當困難,因此會藉由爬蟲的功能擷取出有意義的資訊,當然資料不一定正確且適用,因此需要透過不同的方法針對資料進行組合和排序。所以以資料整合為基礎建立的系統就是為了自行治理和差異結構的資料來特提供統一的存取入口,其中包括查詢處理、差異結構性、自行治理和資料來源的數量等重點處理應用。

接著資料整合目前面臨三個挑戰分別為系統原因、邏輯原因和管理原因,其中系統原因主要為不同的關聯式資料庫系統雖然已經支援 SQL 標準和 ODBC/JDBC 連線,但不同供應商的實作方式還是會有些差異,因此在整合過程中,這些差異就需要進行協調,再著如何有效地針對分散式資料庫和不同效能資料庫執行查詢更是一大挑戰。接著邏輯原因主要為在面對完全相同的資料庫應用需求時,不同人會計計出非常不同的資料庫模型,因此資料來自於多個資料來源時就會產生差異,並且資料的表達格式也有可能不同,例如: 貨幣單化為多國單位、語言為多國語系、…等,因此若把多個不同資料來源進行整合,必須解決彼此之間的語義差異結構的問題。再來管理問題主要為資料存取的共享和匿名等問題,所以資料整合應用是個很難的問題 永遠不會被徹底解決,因此實務上最重要的是設置適當的預期,此外越精確的資料花費的時間越多,但若能讓使用者以較小的時間代價從資料整合系統中獲得更精確的結果,將會是資料整合的目標。

然而資料整合的架構主要為資料倉儲與中介平台<->包裝器<->不同資料來源,在企業中會將多個獨立資料來源的資料載入至資料倉儲中,然後使用者就能以這些資料為基礎進行查詢操作,其中資料主要是透過 ETL 工具定期進行擷取、轉換和載入。然而資料倉儲開發之初並不是以資料整合為目的,而是進行更深入的分析而開發的工具,例如: 將交易系統中的資料經由 ETL 工具進行清理和匯整,並且載入至資料倉儲中以利決策支援查詢之應用。中間平台則是資料仍然儲存於原本的資料來源中,只有在需要查詢時才被存取,其關鍵在於語義對應,主要是將資料來源與中間平台進行關聯,此時資料整合系統就能讓使用者透過中間平台進行查詢之應用。此外資料整合系統的查詢與資料庫的查詢主要有兩個差別,第一為查詢需要從中介平台重寫成對應於資料來源的格式,第二為查詢執行需要根據不同的突發事件自動適應不同的查詢優化與執行。

總結資料整合主要分為企業應用和互聯網應用,企業應用也就是資料倉儲相關應用,例如: 銀行業針對核心系統的資料匯整至資料倉儲中,以利解決跨部門整合查詢分析的問題,重點在於專業領域的知識。互聯網應用也就是網站爬蟲相關應用,例如: 藉由爬蟲處理將互聯網中所有影劇連結和相關資訊匯整至看劇 App 中,重點在網路駭客的技術。以利解決人們看劇的龐大需求,然而未來最有趣的應用則是社交媒體的資料整合應用,不僅僅資料龐大且又要能即時進行分析將會是一大挑戰,例如: 應用社群網站的 API 存取每個人的社交資料進行分析,以利解決個人隱私、趨勢話題、…等問題,重點在於數學理論的應用。

相關資源