Leo Yeh's Blog

R 專業證照 (4)

教學目標

初步了解 RevoScaleR 函數進行資料轉換的基本概念,此篇為學習筆記。

重點概念

首先載入初始資料集通常是資料處理工作的第一步,此時我們會透過 RevoScaleR 函數進行資料轉換,其中主要有兩種資料轉換方法,分別為:

  1. 外部函數。
  2. 內部轉換。

接著 RevoScaleR 函數引用外部函數,主要會透過參數進行引用,目前引用外部函數的參數請參考下表。

參數 使用
transforms 主要是資料轉換的公式。
rowSelection 主要是篩選目前資料框中資料列。
function 主要是使用基本的 R 函數。
transformFunc 主要是資料轉換的函數。
transformVars 主要是傳送變數列表傳送給外部轉換函數。
transformObjects 主要是指定資料轉換的物件列表。
transformPackages 主要是指定資料轉換的套件列表。
transformEnvir 主要是用於資料轉換使用者定義環境。

再來 RevoScaleR 函數並非全部皆支援內部轉換,目前支援內部轉換的函數請參考下表。

函數 使用案例
rxDataStep 透過資料轉換建立資料子集或變數。
rxImport 透過資料轉換建立資料框或 XDF 檔案。
rxSummary 透過資料轉換進行資料的統計匯總資訊。
rxLinMod 透過資料轉換建立線性回歸資料集中的使用變數。
rxLogit 透過資料轉換建立邏輯回歸資料集中的使用變數。
rxCube 透過資料轉換應用於變數之間關係的比較資訊。

最後外部函數能夠的提高複雜性和重複性的應用,但是內部轉換卻更容易進行處理。所謂外部函數主要是在外部函數中提供資料操作的指令,然後由 RevoScaleR 函數進行引用,而內部轉換主要是透過函數的參數進行資料的轉換。

總結我們主要可以透過 RevoScaleR 函數根據資料管理和分析的使用者需求選擇適當外部函數或內部轉換進行資料的轉換。

相關資源

⬅️ Go back