Leo Yeh's Blog

SAS 視覺分析 (11)

教學目標

初步了解 SAS Visual Analytics 7.4 文字雲的基本概念。

重點概念

首先文字雲主要是呈現來自於字元資料項目的一組單詞,其有兩種不同的類型的文定雲,分別為:

  1. 文字分析
  2. 使用類別值

接著文字分析的文字雲主要是分析非結構化的內容,以利產生主題或經常出現在一起的單詞,其中每個單詞的大小代表與該主題的相關性。此外我們還能夠針對文字分析進行情緒分析,針對主題分析情緒,主要包含了愉快,中立和不滿意的情緒。請注意使用文字分析的文字需需要一個文件集合,其中包括要分析的單詞的類別資料項目。此外若要建立文件集合,則我們還會需要一個唯一的行標識符號或唯一標識每個值的資料項目。

再來使用類別值的文字雲主要是將類別中的每個值分析為單個內容字串,其中單詞的大小和顏色可以代表不同的測量值量,像是我們以夠分析不同類型的產品,其中更大的單詞代表那些購買的產品最多,同時透過顏色了解哪些產品帶來更高的價值。此外文件檔中的每個單詞皆會與停止列表進行比較,所謂停止列表主要是在文字分析的過程中被忽略的常用詞庫表,以利建立主題和確定相關性。

最後若我們要建立文字雲的視覺化圖表,建議先搭配第三方網站爬蟲程式以利取得更多相關資料,以利進行文字分析,或者找出相關類別主題。

(註:此篇所介紹的 SAS Visual Analytics 是 7.4 版本)

相關資源

⬅️ Go back