SAS 文字分析 (12)

教學目標

初步了解 SAS 文字分析的基本概念。(此篇主要為準備考試的心得筆記)

重點概念

首先透過文字主題節點我們可以根據已發現和使用者定義的主題自動關聯術語和文件檔,從而探索文件檔集合,主題是描述和表徵主題或想法的術語集合。該方法與群集不同,因為群集會將每個文檔分配給唯一的群組,但是文字主題節點為每個主題的每個文檔和術語分配一個分數,然後使用門檻值來確定關聯是否足夠強大以考慮文件檔或術語是否屬於該主題。因此文件檔和術語可以屬於多個主題,也可以不屬於任何主題,我們請求的主題數應與文件檔集的大小直接相關。請注意文字主題節點必須以文字解析節點開頭,若它前面沒有文本過濾節點,則文字主題節點使用 Log 頻率權重對術語進行加權,若存在分類目標則使用 Mutual Information 術語權重對術語進行加權,否則使用 Entropy 術語權重對術語進行加權。

接著探索文字主題過程中最耗費記憶體的任務是計算逐個文檔頻率矩陣的奇異值分解。當記憶體資源有限時,文字主題節點可能會使用文件檔的簡單隨機樣本,而不是完整的集合,文字主題節點執行此操作以嘗試成功運行節點,僅當節點在嘗試計算未經取樣的奇異值分解期間遇到記憶體故障時才會進行取樣。此外由於取樣通常在文件檔集合非常大時發生,因此通常不會對建模結果產生不利影響,發生取樣時,確切取決於許多參數,包括集合的大小,執行系統的平台以及可用的記憶體。

再來我們您可以在文字主題節點中使用使用者定義的主題列表,使用者定義的主題列表使我們可以定義自己感興趣的主題,並且提供了一個使用者主題列表的範例提供分析應用。使用者定義的主題資料集具有所需的格式,我們必須包含主題、術語、角色和權重等變數。主題和權重變數必須具有資料集中所有觀測值的非遺漏值,主題包含每個主題的唯一標識符。術語包含在由主題的值標識的主題中使用的術語,若此值為空,則將為該主題分配與給定角色匹配的所有術語,角色可以是詞性,實體分類或價值名詞組。如果此值為空,那麼只要術語出現在任何角色中,就會認為它在主題中,角色中的值不區分大小寫,權重包含術語和角色對的權重,其給予最重要的術語和角色對權重 1,給予不太重要的術語和角色對小於 1 的正權重,以反映相對重要性。請注意權重為 0 的術語將被省略,可以在同一主題中使用多個術語,要使用多個術語定義主題,請包含所有具有相同主題值的多個觀察,每個觀察對應於不同的術語。

最後透過互動式主題查看器,我們可以在執行文字主題節點時進行優化,也就是自動或從使用者定義的主題產生成主題。當關閉互動式主題查看器時,可以儲存對主題所做的任何更改,對於主題名稱,截止值或任何主題權重的任何更改都將導致該主題成為使用者主題,並且儲存在使用者主題屬性的資料集中。此外若要將多個主題合併為一個主題,請為要合併的所有主題輸入相同的主題名稱,這些主題最初仍會顯示為不同的主題,但是當您重新運行節點時,它們將合併為一個,所有主題都包含所有術語,對於主題之間的所有共同術語,權重將是每個主題的平均值。

相關資源