Leo Yeh's Blog

SAS 文字分析 (14)

教學目標

初步了解 SAS 文字分析的基本概念。

重點概念

首先 SAS Visual Text Analytics 主要是一個基於網站的文字分析應用程式,其使用上下文為識別和分類關鍵文字資料的挑戰提供全面的解決方案,我們主要使用以下分析節點基於訓練文件檔來建立和自動化模型,分別為:

  1. 概念節點 (Concepts):主要提取預定義的概念或建立可在文件檔或文件檔集合中發現的其他自定義概念。
  2. 文字解析節點 (Text Parsing):主要查找文件檔集合中的所有術語,主要使用為所選語言提供的預設停止列表,以利排除停止詞。
  3. 主題節點 (Topics):主要將集合中的類似文件檔分組為相關主題,同時自動主題識別能夠將集合中每個文檔進行主題分類。
  4. 分類節點 (Categories):主要根據文件檔內容進行分類,我們能夠建立符合組織利益的新分類,或者增加已發現的主題作為類別。
  5. 情緒節點 (Sentiment):主要透過情緒評分確定文件檔是表示正面、中性或負面。

接著 SAS Visual Text Analytics 結合了 SAS Text Miner 的視覺化流程和 SAS Contextual Analysis 中基於規則的分類和概念提取語言方法,以及每個元件的文件檔等級評分都集中在一個使用者界面中。同時我們可以識別文件檔集合中的關鍵文字資料,對於這些資料進行分類,建立概念和分類模型,以及刪除無意義的文字資料,在預設情況下,我們主要從主題分析中排除提供很少或沒有資訊的單詞,也就是停用詞,停用詞在停止列表。

再來 SAS Visual Text Analytics 主要是使用自然語言處理 (Natural Language Processing, NLP) 解析和處理文字資訊,而自然語言處理的大部分演算法皆內建在 SAS Visual Text Analytics 中,因此使用者能夠透過參數設定或使用機器學習工具學習適當的設定,以利讓使用者可以專注於文字分析的任務。

最後 SAS Visual Text Analytics 主要功能和優勢有以下幾點,分別為:

  1. 自然語言處理:增強文字解析以增加語言功能和展開文檔集合術語表,支援主題推導。
  2. 自動提取特徵:發現主題和展示每個主題的相關術語和文件檔。
  3. 支援多種語言:主要支援全球性一項業務超過三十種世界語言。
  4. 情緒分析:主要透過揭示趨勢來支援商業決策的觀點。
  5. 上下文提取:主要從文件檔中提取特定資訊的專業知識。
  6. 靈活部署:最大化文字資料的價值,並且加速透過文字資料進行決策。
  7. 促進多使用者環境中的協作:加強協作和開放分析生態系統中的資訊分享。

相關資源

⬅️ Go back