Leo Yeh's Blog

SAS 文字分析 (2)

教學目標

初步了解 SAS 文字分析的基本概念。(此篇主要為準備考試的心得筆記)

重點概念

首先當文件儲存在單一檔案中時,同一目錄或同一目錄下的子目錄,然後我們可以使用文字匯入節點 (Text Import Node) 為文字探勘建立適當的 SAS 資料集。當文件儲存在一起時,像是 Microsoft Excel 試算表中的每一列資料,然後我們可以使用匯入資料精靈節點 (Import Data Wizard Node) 和文字匯入節點 (Text Import Node) 用於建立文字探勘資料集,請注意有時針對匯入的特殊資料我們會搭配 SAS 程式節點 (SAS Code Node) 與其它資料進行合併應用。在 SAS 資料探勘的應用中主要支援兩種資料類型,分別為文字 (Text) 和文字位置 (Text Location),資料集包含至少一個變數角色文字和文件可以完全存儲作為 SAS 字元變數,其限制為 32K,以及資料集包含至少一個變數角色文字位置 (Text Location),主要用於輸入文件檔大小超過 32K 的情況,其中位置必須是文字探勘伺服器文件檔的完整路徑,此外網站位置 (Web Address) 角色為附加變數,以及還能夠包括未過濾版本的路徑要在互動式查看器中顯示的文件,像是互動式篩選器查看器。

接著文字解析節點 (Text Parsing Node) 主要是建立語料庫詞典 (Corpus Dictionary) 識別與詞性相關聯的統一術語 (Term),對於數字或標點符號的識別為統一術語 (Term),最多可識別十六個實體 (Entities) 像是地址、公司、姓名、貨幣和人名,以及我們還能夠匯入由產品建立的自定義實體,像是 SAS Concept Creation 或 SAS Content Categorization Studio ,此外我們還能夠執行詞幹 (Stemming) 以使不同的詞語等同動詞的時態,或是等同於它的術語是同一名詞的單數或複數形式,至於什麼情況下我們能夠不執行詞幹的功能呢?在文字解析節點我們更能夠手動指定停止列表 (Stop List) 中的語料庫詞典,所謂語料庫詞典 (Corpus dictionary) 主要是指所有術語的結合在語料庫中,所謂停止列表 (Stop list) 主要是指在分析中要忽略的術語字典,其由使用者指定通常用於刪除低資訊,只為分析增加噪音的術語的噪音資料,其沒有描述性或預測性的價值,而開始列表 (Start list) 主要是指在停止列表中語料庫詞典中沒有的術語。

再來文字過濾節點 (Text Filter Node) 中我們主要能夠設定頻率權重 (Frequency Weight) 和術語權重 (Term Weight),若在術語表中的術語具有非常低的頻率和高的權重,術語的影響將在權重和頻率之間得到平衡,高權重只是影響力的一個指標,而頻率也起著重要作用,其是兩者的結合。其中頻率權重主要有三種表達方式,分別為 Log (預設)、Binary 和 None (計數或頻率),而術語權重主要有四種表達方式,分別為 Entropy (預設)、Inverse Document Frequency、Mutual Information 和 None。此外我們主要對於罕見術語執行頻率過濾,此時可以使用最小文件數 (Minimum Number of Documents) 屬性而不是搜索罕見術語並將其增加到停止列表中,以及透過檢查併音 (Check Spelling) 使用拼寫字典和單詞相似度演算法找到和正確的拼寫錯誤。

最後我們更能夠透過過濾查看器互動式查看要刪除或保留的術語,以互動方式建立同義詞,並且執行查詢和查看概念連接,其能夠在屬性面板和互動式過濾查看器中使用,返回滿足查詢的文件,並且可用於對文件集合進行子集化,以及針對該集合的持續進行分析,其查詢運算符,分別為:

相關資源

⬅️ Go back