Leo Yeh's Blog

SAS 文字分析 (9)

教學目標

初步了解 SAS 文字分析的基本概念。(此篇主要為準備考試的心得筆記)

重點概念

首先文字解析節點能夠使我們解析文件檔集合,以量化其中包含的術語的相關資訊,我們能夠將文字解析節點與大量文字資料一起使用,像是電子郵件,新聞文章,網頁,研究論文和調查。而文字解析節點必須以一個或多個輸入資料來源節點開頭,其中每個資料來源包含要解析的文檔集合或一個至多個文字匯入節點,至少有一個資料來源必須具有訓練的角色,其它可以當訓練、驗證、測試和評分的角色。輸入資料來源或文字匯入節點中的每個觀察值表示文件檔集合中的單個文件檔,該資料可以具有兩種結構,其可以包含每個文件檔的整個文字,或者可以包含純文字或包含該文字的文件檔的路徑。若資料來源中包含每個文件檔的全部文字,則此文字必須存儲在分配了文字角色的字元變數中,請注意 SAS 變數只能容納 32KB 的文字,若集合中的任何文件檔超出該限制,則不應使用此資料來源結構。若資料來源包含指向包含文件檔的路徑,則這些路徑必須存儲在分配了文字位置角色的字元變數中,路徑必須相對於 SAS Text Miner 伺服器,此結構可用於包含較小文件檔的集合或超過 32KB 限制的文件檔,使用具有文字位置角色的路徑,即使文件長度超過 32KB,SAS Text Miner 也可以處理每個文件的完整內容。

接著我們可以在文字解析節點中使用開始列表或停止列表,透過這些列表,我們可以控制文字探勘分析中使用或未使用的術語,開始列表主要是包含要包括在解析結果中的術語列表的資料集。若我們使用開始列表,則只有該列表中包含的術語才會出現在解析結果中,另一方面停止列表是包含要從解析結果中排除的術語列表的資料集,停止列表通常用於排除包含很少資訊或與文字探勘任務無關的術語。請注意,我們不能同時指定停止列表和開始列表。此外開始列表和停止列表具有相同的所需格式您必須包含術語 (Term) 變數,其中包含要分別包含或排除的術語,以及包含角色 (Role) 變數,其中包含關聯的角色,若包含角色,並且已將文字分析節點的不同詞性屬性設置為是,則會根據術語和角色所排除或包含術語,請注意術語變量必須是字元變數,而角色可以是詞性,實體分類或價值名詞組。

再來我們可以透過詞幹 (Stemming) 找到詞的詞幹或詞根形式的過程, SAS Text Miner 使用基於字典的詞幹提取,也稱為詞形還原 (lemmatization),與尾部詞幹提取器不同,它只產生有效的詞作為詞幹,當啟用詞性標註時,詞幹選擇過程將詞幹限制為與原始詞語相同的詞性。詞幹對於文字探勘非常重要,因為文字探勘主要是基於整個集合中術語的共同發生關係,透過將術語的變形視為術語本身,可以澄清文件檔關係,並且文件檔將通過這個共同的詞幹來關聯,至於 SAS Text Miner 使用相同的等效術語概念來管理詞幹,就像管理同義詞一樣,我們可以通過編輯同義詞列表來自定義詞幹。

最後我們可以在文字解析節點中使用同義詞列表,透過同義詞列表將能夠指定應當等效處理的不同單詞,作為相同的代表性父術語,同義詞資料集具有所需的格式。若我們的同義詞資料集不包含術語變數和父母變數,則文字解析節點將返回錯誤,所謂術語變數主要包含一個術語作為父母的同義詞,而所謂父母變數包含應指定術語的代表性術語,請注意若同義詞列表包含多個術語,這些術語將相同的術語分配給不同的父級,則解析結果將僅反映第一個術語。

相關資源

⬅️ Go back