Leo Yeh's Blog

SAS 文字分析 (3)

教學目標

初步了解 SAS 文字分析的基本概念。(此篇主要為準備考試的心得筆記)

重點概念

首先文字分群節點 (Text Cluster Node) 主要將文件集合分為互斥群組,預設情況下會顯示十五個分群最強關聯的術語,這些描述性術語將幫助分析師了解給定分群群組中的文件類型,像是若群組中多數是寒冷,下雨,下雪和冬天,這就突出了這個群組主要由文件組成的事實,也就是天氣。文字分群節點主要分隔整個語料庫將文件分成互斥的群組,每個文件屬於一個且只有一個群組, 並且使用者可以控制產生的數量群組,並且解釋來自的關鍵描述性的術語,每個文件都會自動顯示屬於的群組,並且描述性術語將 有助於分析師理解正放入分群的文件類型。文字分群節點使用描述性術語演算法來描述兩個分群群組的內容和分層分群群組,若指定為每個群集顯示 m 個描述性術語,則前 2 m 每個群集中最常出現的術語用於計算描述性術語,對於 2 m 項中的每一項,計算每個群組的二項式機率,機率為群組 j 分配一個項是 prob = F(k|N,p),F 是二項式累積分佈函數,k 則是該項在群組 j 中出現的次數,N 則是群組 j 中的文件數,p 則是 (sum-k) / (total-N),sum 是該術語在所有群組中出現的總次數,以及 total 是文件總數,請注意當我們執行文字分群節點時,預設情況下 TextCluster_SVD 變數被賦予預測模型的輸入角色。

接著針對文字分群我們需要了解奇異值分解 (Singular Value Decomposition,SVD) ,其被稱為文字探勘的線性代數方法,其代數操作是有很多方法的基礎,像是潛在語義索引 (Latent Semantic Indexing,LSI)、潛在語義分析 (Latent Semantic Analysis,LSA) 和向量空間模型 (Vector Space Model,VSM)。此外使用者還能夠控制衍生的分群群組,像是選擇確切的或最大的數字,選擇最大分群群組數,以及選擇使用分群演算法,分別為期望最大化 (Expectation-Maximization,EM) 和層次結構 (Hierarchical)。

再來雖然分群群組是一種強大的分析方法,但是其有個缺點,若是報紙文章涉及體育和體育政治,但是它只能放在一個或另一個分群群組中,此時就會發生問題,此時文字主題節點 (Text Topic Node) 就能夠解決此問題。主題主要是在一份文件中發生的主題或想法,像是若文件是報紙,則包含運動、政治、法律內容相關的主題文章,而文件可以包含多個主題,但文件只能屬於一個群組。此外產生主題基本上是由文字主題節點自動使用與文字相同的基礎數學演算法進行分群,當然也可以透過使用者進行定義。自動主題產生的基本思想主要是是找到經常在一起發生的術語文件再定義相關話題。我們可以透過思考術語來研究這種方法作為社群網路中潛在的朋友關係,即使他們不是直接的朋友關係,在同樣的文件中,其仍然可以成為朋友的朋友,預設情況下,會自動產生 25 個主題,這些主題由識別或解釋分析師最常透過檢查 5 個關鍵列表自動顯示的描述性術語,以及預設情況下沒有單個術語主題,使用者最多可以指定 1,000 個多個術語主題,預設情況下會衍生出 25 個多個術語主題。

最後使用者也可以提供自定義的主題表,其可以匯入或使用編輯器手動建立,使用者由標籤和一個或多個術語定義主題,每個術語都有一個角色和一個權重,所謂權重代表分析師對相對主題重要性的判斷,在最佳實務中,客製定義主題表中的列具有名稱,分別為主題 (topic)、術語 (term)、角色 (role) 和權重 (weight),其權重可以是任何數值、正數或負數,負權重代表該術語支持概念的負面或相反, 建議使用最容易的 0 - 1 系統,也就是定義的權重範圍為 0 到 1,其中 1 為最高重要性和高權重,0 為最低重要性和低權重。請注意在文字主題節點中旋轉奇異值分解維度的目的主要是用一組術語解釋每個維度,而非確定發現的主題數、避免產生太相似的主題和確保主題與興趣相關,以及若我們已使用分群節點或主題節點在文字變數上建立奇異值分解 (SVD) 變數,則在建立將文字與其他量化和質化變數相結合模型時,我們主要會將 SVD 變數、量化變數和質化變數輸入到建模節點中,請注意文字變數將會轉換為 SVD 變數,所以這不是必需的。

相關資源

⬅️ Go back