Leo Yeh's Blog

SAS 文字分析 (1)

教學目標

初步了解 SAS 文字分析的基本概念。(此篇主要為準備考試的心得筆記)

重點概念

首先文字分析是個非常有趣的研究領域,它涉及許多應用,所謂文字分析,又稱文字探勘,主要使用演算法將非結構化的文字轉換為可以進行分析的結構化的資料,並且應用統計、機器學習方法以及自然語言處理技術,其特點主要有:

  1. 針對文件檔中的語料庫 (Corpus) 進行操作。
  2. 建立字典 (Dictionary) 或詞彙表 (Vocabulary) 以識別相關術語 (Term)。
  3. 產生指標 (Metrics) 量化各種語料庫中文件檔中的內容。
  4. 針對每個文件檔相對於語料庫匯出結構向量 (Structured Vector) 。
  5. 使用適合的分析方法 (Analytical Methods) 基於目標的測量結構向量進行分析。

其中字典的概念可以被認為是詞彙,而每個文字檔集合具有詞彙表,這是每個文件中包含的所有術語的聯合,而文字探勘主要是將匯出字典或詞彙表作為分析相關的術語進行分析,文字探勘與一組文件檔一起使用,該每組文件檔集合可以是動態的,即文件檔可以增加到集合中,我們可以使用該集合來訓練模型,同時可以申請模型至新文件檔,並且匯入集合中,新的文件檔的評分與其相關與集合中的原始文件檔進行比較,若新的文件檔包含新術語,則為文字在該文件用於新的訓練步驟之前,所以文字探勘確實使用字典或詞彙表來代表分析中使用的術語集合,請注意若術語不在字典則會被忽略不使用。

接著我們能夠僅使用 SAS 文字探勘工具組中的節點執行文字探勘的訓練,SAS 文字探勘節點可以匯入和匯出資料,以及我們更能夠套用預測建模節點。雖然有許多的商業文字探勘產品具有強大的文字分析功能,但是大多數缺乏文字之外的進階分析,像是使用決策樹或神經網路針對新的文件檔進行評分呈現出新的效果,以利改善文字探勘的結果,而 SAS Enterprise Miner 則可以使用來自預測模型中文字分析的衍生變數,並且使用在原始語料庫上訓練的模型針對它們進行評分,最終我們可以透過增加在新文件檔的語料庫上重新訓練和更新模型。至於在 SAS Enterprise Miner 中與資料探勘工具相關的節點主要有:

  1. 文字分群 (Text Cluster)
  2. 文字過濾 (Text Filter)
  3. 文字匯入 (Text Import)
  4. 文字解釋 (Text Parsing)
  5. 文字規則建立 (Text Rule Builder)
  6. 文字主題 (Text Topic)
  7. 高效能文字探勘 (HP Text Miner)
  8. 資料分區節點 (Data Partition Node)
  9. 決策樹節點 (Decision Tree Node)
  10. 回歸節點 (Regression Node)
  11. 基於記憶推理節點 (Memory-Based Reasoning node)
  12. 評分節點 (Score node)

再來資料探勘主要有兩大領域,分別為:

  1. 無監督學習:模式發現或探索性分析
  2. 監督學習:預測建模

所謂無監督學習主要是沒有目標變數,並且以某種形式的執行識別或定義同類群體、群集或細分等分析,像是查找在購物籃分析中實體之間的連接或關聯,此外還能夠用於查看具有相關且感興趣內容之文件檔的資訊檢索,用於將文件檔分群成自然發生之群組的
提取主題或概念,以及用於識別可能存在的異常文件與需要特殊處理相關的案件,像是不滿意的客戶、欺詐活動、…等等,此外異常檢測有時可能是建立不存在之目標變數的第一步。

所謂監督學習主要是有目標變數,並且以某種形式的開發了預測或分類模型,輸入變數與值相關聯目標變數,模型產生一個預測給定輸入集的目標值。除了傳統輸入變數之外的資料,許多預測建模或分類主要透過文字合併更進一步強化應用程式,像是客戶傾向模型、住院預測模型、保險欺詐模型、客戶情緒分類模型、…等,其關鍵重點是預測建模應用其中可以使用非結構的文字資訊來導出新類型的輸入變數,預測建模需要標記資料具有已知目標變數的結果。

再來對於分析領域不熟悉的使用者通常對噪音有一種天真的概念為理解人類語言的計算機和機器人,我們期望在掌握文字探勘之後,將可以完美地完成根據對在線調查的回應預測客戶行為,這種期望是不現實的,因為現實是噪音隨處存在。在預測建模中的信號與噪聲相結合才會產生目標,也就是目標 (Target) = 信號 (Signal) + 噪音 (Noise),所謂信號為系統變化且可預測,而所謂噪聲為隨機變化且不可預測,最佳實務中最常見的情況是信號和噪聲的混合,我們能夠更準確地預測,預測的好壞取決於資料是否由主導系統變化或隨機變化。

最後文字探勘之文件分離主要有三種類型,分別為沒有混合主體的完美分離,主體混合很少的良好分離以及主體的大量混合的不良分離,而當沒有目標變數可用時,我們仍然可以調查是否發生自然分離,在許多分析目標的資料中像是欺詐案件為不同尋常維度空間,但在許多方面看起來很正常,此時欺詐案件就是目標變數,但是欺詐案件量通常很少,此時將會大幅影響欺詐模型的成效,此時我們應該採取什麼調整方法呢?過度取樣 (Oversampling) 也許是個適合的調整方法之一。

相關資源

⬅️ Go back