Leo Yeh's Blog

SAS 文字分析 (4)

教學目標

初步了解 SAS 文字分析的基本概念。(此篇主要為準備考試的心得筆記)

重點概念

首先文字探勘的資料集有兩個欄位,分別為目標主題 (Target_Subject) 和文字欄位 (TextField),重要的是需要理解目標主題欄位用於解釋每個文字欄位的內容,主要是人為建立而不是由文字探勘自動建立的節點,而文字欄位是所謂的文件 (Document),而所有文字欄位在一起則被稱為語料庫集合 (Corpus Collection)。至於 SAS 資料存取功能主要有三種,分別為:

  1. 存取引擎 (Access Engines):SAS 提供存取資料庫引擎,SAS / ACCESS 引擎提供與商業資料庫直接連接。
  2. 資料匯入精靈 (Data Import Wizard):SAS Enterprise Guide 透過精靈匯入資料,包括逗號分隔值 (CSV) 和 Microsoft Excel文件。
  3. 輸入/輸出函數 (I/O Functions):SAS語言支持 I/O 函數用於讀取資料檔案。

接著除了上述三種資料存取功能之外,我們還能透過文字匯入節點 (Text Import Node) 主要是將文件檔轉換為可在文字探勘中使用的文字文件檔,然後每個文件成為一個 SAS 資料集中的列資料,此時我們需要指定文件的匯入資料夾和目標資料夾,以及修改輸入資料夾中文字大小的參數,預設值為 100,請注意文字匯入節點處理大於文字大小值的文件檔,主要是使用目標資料夾中的文字檔案,每個文件檔的文字皆存儲在匯出的資料集過濾欄位中,該 URL 欄位在匯入之前引用原始文件檔來源。

再來輸入資料來源必須至少有一個角色為文字或文字位置的變數,其中文字變數可以包含整個文件檔或整個文件檔的截斷片段,該文字變數是一個字元變數,SAS 只能容納長度為的字元變數至 32K (32,767 Bytes),若文件檔長度超過 32K,則 SAS 必須從匯入資料夾中指定的位置讀取整個文件檔,若未指定位置,則僅指定文字探勘節點處理截斷的文件檔。若要處理超過 32K 的文件檔,必須包含具有文字位置角色的變數輸入資料,文字位置必須是文件檔資料夾相對於文字的完整路徑。請注意若文件檔不是受支持的類型之一,則會省略 (Omitted) ,若文字大小超過 32KB,則會截斷 (Truncated) 。

最後透過文字匯入節點將 Microsoft Word,Excel 和 PowerPoint 文件轉換為 ASCII 文字,處理超過 32,767 或 32k 個字元的文件檔,以及當網路爬蟲或機器人,以獲取網際網路頁面並將其轉換為 ASCII 文字文件檔,此外若設定了文字位置變數,則會自動使用它,但若沒有文字位置變數,則會使用長度最長的文字變數或資料集的列順序中第一個的文字變數。

相關資源

⬅️ Go back