Leo Yeh's Blog

SAS 文字分析 (7)

教學目標

初步了解 SAS 文字分析的基本概念。(此篇主要為準備考試的心得筆記)

重點概念

首先文字規則建立器節點提供獨立的具有文本的資料的預測建模解決方案變數和分類目標變數,此節點將會產生一組有序的規則一起用於描述和預測目標變數,有助於使用者主動學習可以迭代地動態地與演算法互動建立預測模型,並且從小的子集建立布林規則用於預測分類目標變數的術語,請注意必須以文字解析和文件開頭的過濾節點,以及必須有一個目標變數,其格式有二元,序數或標稱的測量級別,至於分割節點應出現在文字解析節點之前,驗證或測試資料集必須包含在中標識的相同目標變數訓練資料。

接著文字規則建立器節點訓練屬性除了指定變數之外,還有三個屬性設定,分別為:

  1. Generalization Error:主要決定預測規則的機率,使用未經訓練的驗證資料集,這是為了防止過度訓練,設定值有五個等級,分別非常低、低 、中等 (預設值),高和非常高,等級越高所需時間越少。
  2. Purity of Rules:主要考慮控制規則的複雜度,其決定如何選擇性每條規則皆是透過控制必要的最大 p 值為規則增加術語,設定值有五個等級,分別非常低 (p <.17)、低 (p <.05)、中等 (預設值,p <.005),高 (p <.0005) 和非常高 (p <.00005),等級越高所需時間越少。
  3. Exhaustiveness:主要決定規則搜尋的詳當過程,或有多少潛在規則,在每一步皆被考慮,隨著增加窮舉,增加了那個時間文字規則建立器節點需要並增加機率過度訓練模型,設定值有五個等級,分別非常低、低 、中等 (預設值),高和非常高,等級越高所需時間越多。

再來文字規則建立器節點評分屬性,主要有二個屬性設定,分別為:

  1. Content Categorization Code:內容分類程式碼。
  2. Change Target Values:更改目標值。

其中更改目標值屬性設定將有助於激活學習,使用者可以動態學習與演算法交互迭代建立預測模型,文字中的觀察結果包含訓練中的所有觀察,驗證或測試滿足任何一個的資料集遵循條件,包括所有錯誤分類的觀察結果、觀察目標的遺漏值以及之前已更改導入的觀察結果目標值到不同的目標值,觀察結果按模型的後驗順序排列機率從 1 至 0 的降序。

最後文字規則建立器節點可以產生術語規則,以顯示哪些術語確定瞭如何它被歸類為哪種方式,這個問題需要一個預測模型,其會排除了文字群集節點,基於記憶的推理節點不包含有關內容的資訊術語是鍵入的,決策樹節點也不會在此上下文中,因為它將被建立關於主題評分而不是術語,其流程為文字解析節點 - >文字過濾器節點 - > 文字主題節點 -> 文字規則建立器節點。

相關資源

⬅️ Go back