Leo Yeh's Blog

SAS 文字分析 (10)

教學目標

初步了解 SAS 文字分析的基本概念。(此篇主要為準備考試的心得筆記)

重點概念

首先我們可以使用文字過濾節點來減少已分析的術語或文檔的總數,因此我們可以過濾無關資訊,以利僅考慮最有價值和最相關的資訊,像是文字過濾節點可用於刪除不需要的術語,並且僅保留討論特定問題的文件檔,該減少的資料集可以比原始集合的資料集小幾個數量級,所謂原始集合的資料集可能包含數十萬個文檔和數十萬個不同的術語。文字過濾節點必須在過程流程圖中以文字解析節點作開頭,文字過濾節點直接從文字分析節點導入文件檔,但它還依賴於文字解析節點放置在其工作空間目錄中的幾個資料集。

接著文字過濾節點中的術語加權選項能夠讓我們根據術語在單個文檔中出現頻率和術語在整個文件檔集中的分佈方式來改變術語的重要性,透過首先將子頻率分配給其父項,為文字探勘分析建立加權的逐個文件檔的頻率矩陣。接下來將加權函數應用於每個文件檔中每個術語的出現頻率,以及每個術語透過乘以術語權重來縮放,這種加權的逐個文件檔的頻率矩陣成為集合的基礎表示,主要有術語權重和頻率權重。

再來文字過濾節點和互動式過濾查看器能夠讓我們使用搜索表達式來過濾文件檔,並且返回與我們查詢匹配的文件檔子集,查詢主要由術語列表組成,搜索結果顯示一組包含至少一個查詢術語的文件檔。相關性分數表示每個文檔與查詢的匹配程度,相關性1表示哪個文檔是該查詢的集合中的最佳匹配,透過互動式過濾查看器,我們可以優化文字過濾器節點執行後存在的已分析和過濾的資料,關閉交互式篩選器查看器時可以儲存對資料所做的任何更改,編輯的資料主要用於後續節點的分析。

最後對於給定的一對術語,使用二項分佈計算它們彼此的關聯強度,此強度測量主要用於在文字過濾節點的互動式過濾查看器中生成概念連接圖 (Concept Linking Diagrams),n 是包含術語 B 的文件檔數,k 是包含術語 A 和術語 B 的文件檔數,而假設它們彼此獨立,則 p = k / n 是當術語 B 出現時術語 A 出現的機率,此外在概念連接圖中心術語和概念鏈接之間的線寬代表了接近程度這些條款是相關的,較粗的線表示更緊密的關聯。

相關資源

⬅️ Go back