Leo Yeh's Blog

SAS 文字分析 (8)

教學目標

初步了解 SAS 文字分析的基本概念。(此篇主要為準備考試的心得筆記)

重點概念

首先 SAS Text Miner 主要提供工具使我們能夠從一組文字文件檔中提取資訊,並且揭示其中顯示的主題和概念,此外由於我們可以在 SAS Enterprise Miner 流程圖中加入 SAS Text Miner 節點,因此能夠在資料探勘的過程中將定量變數與非結構文字結合使用,這代表著我們將文字探勘與其他傳統資料探勘技術相互結合。

接著在 SAS Text Miner 中,文字探勘的過程通常包括以下列出的步驟,分別為:

  1. 文件檔預處理 (File Preprocessing):主要使用文字匯入節點從文件檔集合中建立資料集,該文件檔集合用作於文字解析節點的輸入。
  2. 文字解析 (Text Parsing):主要使用文字解析節點分解文字資料,並且產生適合資料探勘目的定量表示,解析可能包括詞幹、自動識別多字詞、各種實體的標準化、詞性標註、提取組織名稱、產品名稱和地址等實體、支持同義詞和語言特定的分析。
  3. 文字過濾 (Text Filtering):主要使用文字過濾節點將定量表示轉化為緊湊和豐富資訊的格式和減少維度。
  4. 文件檔分析 (Document Analysis):主要使用文字主題節點、文字分群節點、文字規則產生器節點、文字檔案節點和預測建模節點進行分群,分類,預測或連結概念。

再來 SAS 文字探勘提供視覺化圖表,主題建立和分群技術,能夠讓我們探索已解析的文件檔集合,應用包含電子郵件、客戶評論、調查數據的知識庫和無監督的類別學習。我們可以產生資料驅動的主題,並且提供已在文字主題節點中定義的主題,以用於評分新資料。我們可以在文字分析節點中執行分層分群,主要使用 Ward 的最小方差方法產生分層集群,結果以樹形圖形式呈現,以及我們可以在文字分群節點中執行期望最大化分群,主要識別群集,其是資料點的最密集區域,以及輔助群集。其不包括在主群集中的較不密集的資料點群組,這是一種空間分群技術,可以靈活地調整分群的大小和形狀,當然可以使用 SAS Enterprise Miner 其它節點進行分群。

最後我們可以使用 SAS Enterprise Miner 建模功能來預測目標變數,文字規則建立器節點可用於預測主要包括自動電子郵件路由、過濾垃圾郵件、配對簡歷、根據公司新聞公告的內容預測股票價格的變化、根據問題的文本描述預測服務呼叫的成本、根據客戶意見預測客戶滿意度、從一組預定的候選作者中識別作者身份、…等。

相關資源

⬅️ Go back