Leo Yeh's Blog

SAS 文字分析 (5)

教學目標

初步了解 SAS 文字分析的基本概念。(此篇主要為準備考試的心得筆記)

重點概念

首先 Stylometry 被定義為語言風格的使用特徵語言,其應用於歸因於匿名或有爭議的作者身份、文學作品、檢測抄襲、識別寫作風格、… 等,鑑識語言學 (Forensic Linguistics) 通常使用預測建模來對未知但是可疑的文件檔進行評分找出作者,所謂評分主要代表文件檔會由寫入的機率估計疑似,應用於鑑識語言學的文字探勘的價值在於可以識別嫌疑人調查,但是文字探勘結果很少被用作起訴中的證據,雖然證詞可能包括討論如何識別嫌疑人的技術,其中我們主要識別樣式和文字分類的特例,以及使用詞頻來衍生模型輸入以預測作者身份,所以 Stylometry 解決了從列表中識別作者的問題作者,文字分類使用文字探勘,使用書面或口頭交流的單詞頻率進行分類文件分為預先確定的類別,鑑識語言學適用於由犯罪分子撰寫文件,而不是由犯罪調查員撰寫的報告。此時若我們需要使用預測建模來對未知但是可疑的文件檔進行評分,則必須先將非結構文字進行量化,此時我們採用的策略主要將會使用文字探勘相關節點進行以下步驟:

  1. 獲得將在之後使用的術語集應用詞幹,同義詞、過濾、…等。
  2. 在向量中表示每個文檔和每個術語,按照術語或文件列出空間矩陣。
  3. 將文件和術語投射到較低的位置三維向量空間。
  4. 進行群集和主題產生低維向量空間中的文件檔。

接著我們按照術語頻率獲取文檔顯示如何在向量空間中表示文件檔,其元素是每個術語的頻率,然而這可能是一個高維度空間有會很多零值,透過諸如詞幹之類的語言處理步驟可以減少同義詞維度的建立,過濾掉低頻術語,並且按術語矩陣顯示原始文件檔,每個術語使用的頻率,在這裡我們可以將文檔視為觀察和術語作為變數,因此我們能夠按照術語頻率的文件檔轉換為術語文檔頻率矩陣,此時我們能夠透過術語限制減少了列數,以及應用同義詞並過濾掉非常常見的和非常罕見的術語也減少了列數。

再來我們主要會透過文件檔矩陣 (Term by Document Matrix) 將資料表轉換為術語,這個術語通常是文件檔矩陣用於分析目的,並且將這些術語視目標文件作為變數,但是這種類型的資料存在各種問題,即使在詞乾和過濾之後,也有通常會留下大量的術語。當我們獲得頻率計數後,此時就會看到術語和文件皆可用的向量空間,在這兩種情況下即使在詞幹已應用其它過濾節點 (Filter) 和解析節點 (Parsing),但是仍然面對一個非常高維度的資料集,頻率計數矩陣稀疏非常大,通常 90% 或更多的資料在矩陣是 0,此時頻率計數高度傾斜,根據 Zipf 定律,術語頻率計數非常高代表在大多數文件檔中反複使用非常常見的術語,所謂 Zipf 定律除了可能用於確定每個字詞的相對頻率術語之外,更有助於識別字典中的術語。

最我們為了解決矩陣稀疏問題,主要會透過線性代數的關鍵理理將空間導入低維度空間,也就是奇異值分解 (SVD),當然在應用奇異值分解之前,我們也能夠加權原始文件檔的方式產生更好的文字探勘結果,以及透過降低較高頻率的影響力來緩解較高頻率的偏斜問題。

相關資源

⬅️ Go back