SAS 文字分析 (15)

教學目標

初步了解 SAS 文字分析的基本概念。

重點概念

首先在 SAS Viya 平台中的文字分析處理程序,不論是自然語言處理、機器學習、LITI、…,主要有五大處理程序,分別為術語、概念、情緒、主題和分類,其中每個處理程序皆有對應的節點,像是術語主要是透過文字解析節點主要是從大量文字資料中自動進行提取,每個術語都有一個相關的角色,並且可以根據相似性和頻率識別和分類術語的拼寫錯誤,因為拼寫錯誤實際上是指另一個術語,所以它們在分析期間被視為同義詞,同義詞是一種提供使用者建立自定義術語,以及我們可以使用開始列表和停止列表來控制在文字解析期間保留或刪除哪些術語,解析結果還控制在主題發現中使用的術語,開始列表是一個資料集,其中包含要包含在解析結果中的術語列表,如果使用開始列表,則只有該列表中包含的術語才會出現在解析結果中,而停止列表是包含要從解析結果中排除的術語列表的資料集,我們可以使用停止列表來排除包含很少資訊或與文字探勘任務無關的術語。

接著概念節點主要是對於分析上下文中的資訊和提取有用資訊,也就是能夠讓我們使用語義屬性,實體類型,事實或關係,而我們主要使用寫入規則識別非常重要的概念,其主要是使用對於文字資訊的語言解釋 (Language Interpretation for Textual Information, LITI) 語法撰寫規則來提取文字。更進一步建立自定義概念,預定義概念主要是編寫規則的概念,至於概念擷取主要有三個步驟,分別為:

  1. 輸入文字內容:像是社群資料、新聞、電子郵件、…等。
  2. 解析概念分類內容:對應資訊和要提取文件檔的概念。
  3. 輸出結果:進行索引或輸入現有系統用於搜索和分析。

至於情緒節點要是識別在文件檔中表達的語氣或態度是正面、負面或中立的過程,其主要使用一組專有規則來識別和分析暗示情緒的術語,短語和字元串,然後根據該分析為每個文件檔分配情緒分數。

再來主題節點主要針對文件檔中出現的重要術語進行自然分組,其會自動生成主題,並且將其分配給文件檔,單個文件檔可以包含多個主題,主題的預設名稱是主題中經常出現的前五個術語,這些術語根據其權重按照降序排序。此外可以按照主題對最相關的文件檔進行排名,主題可以進一步合併或拆分,並且可以修改衍生主題以建立自定義主題。

最後分類節點主要是將具有共同特徵的一組文件檔識別為一個群組,我們主要可以使用將主題增加為類別,並且指定類別變數,當然我們也可以編輯為類別變數,以利透過自動產生的規則增加為類別主題,以及為自定義類別編寫規則。

相關資源