Leo Yeh's Blog

SAS 文字分析 (6)

教學目標

初步了解 SAS 文字分析的基本概念。(此篇主要為準備考試的心得筆記)

重點概念

首先有關頻率計數偏差的問題是透過對頻率應用權重來解決,這是一個雙層加權方案文字過濾節點,主要有局部權重 L 也稱為頻率權重,其主要計算文字 j 中的術語 i,全局權重 G 也稱為術語權重,其主要計算述語 i ,而最終權重 = 頻率權重 (全局權重) × 術語權重 (局部權重) 。

接著頻率權重通常在文字探勘和資訊檢索中稱為局部權重是改變原始資料的第一步,
頻率權重有三種選擇的方式,分別為:

  1. Log (預設)
  2. Binary
  3. None

所謂資訊檢索主要為尋找非結構化的文件滿足資訊需求,使用互動式篩選器進行篩選和查詢,查詢運算符控制如何執行過濾要清除查詢,我們儲存當前的查詢,並且重新執行節點導出查詢的結果而不是完整的資料集。

再來術語權重主要為修改頻率權重以進行調整文件大小和術語分配,若術語表中的術語具有非常低的頻率和高的權重,則術語的影響將在權重和頻率之間得到平衡,術語權重有四種選擇的方式,分別為:

  1. Entropy (當沒有目標存在時為預設值)
  2. Inverse Document Frequency (IDF)
  3. Mutual Information (僅用於目標存在時為預設值)
  4. None

請注意有目標時則術語權重預設值為 Mutual Information,若沒有目標時則術語權重為 Entropy,因此與分類目標變數關聯的文件檔的預設值建議使用 Mutual Information 術語權重,此外 Mutual Information 加權將會增加與文件檔標籤關聯性更強的術語權重。

最後分析中的主要資料集中非結構化文字是由術語文件檔矩陣組成,因此我們需要集中注意力在術語文件矩陣上。我們主要透過線性代數包括矩陣和矩陣的研究矩陣屬性為基礎進行奇異值分解 (SVD),其最相關的應用方面就是為了減少維度。

相關資源

⬅️ Go back