2014Q4 工作心得 (1)

規劃與實作資料 API ,主要評估 Amazon Kinesis 和 Google BigQuery 兩大主要的雲端服務,在進行前端開發時程、後端實作彈性、資料存取介面、資料儲存成本和資料分析成本等因素比較之後,我們選擇 Google BigQuery 的串流資料服務。

目前一個月已經存儲存幾十 GB 資料,串流資料存取幾乎不用成本,主要花費則在於分析服務,但是整體花費則比 Amazon Kinesis 基本等級還便宜,同時又能滿足我們彈性開發、資料分析和自動處理的需求,此外 Google BigQuery 可以透過 Node.js 排程以進階 SQL 查詢進行 ETL ,將結果轉成 CSV 檔案儲存至 Google Storage 中。

最後透過 Google Compute Engine 的點擊部署 Hadoop ,就能在幾分鐘內直接存取 Google Storage 中的 CSV 檔案進行 Mahout 分析,更重要的是分析結果直接匯出至 Google Storage 中,此時又能再透過 Node.js 排程將分析結果轉成 CSV 格式上傳至 Google BigQuery 中重複使用。