Leo Yeh's Blog

SAS 文字分析 (19)

教學目標

初步了解 SAS Visual Text Analytics 中以 LITI 語法撰寫概念規則的基本概念。

重點概念

首先 SAS Visual Text Analytics 其中有個最大的特點就是文本資訊語言解釋 (Language interpretation and text interpretation,LITI) 主要能夠從文本中提取特定資訊或資訊之間的關係。當我們建立新的文字分析專案,預設情況下資料會先進行概念規則的處理,此時我們主要能夠進行透過 LITI 語法撰寫概念規則,其主要用於識別內容中的項目,僅有符合規則的文件才會被擷取。

接著一個概念能夠被多個規則類型的概念進行定義,並且一個概念能夠參考一個或多個其它概念,至於概念規則主要分為擷取概念和擷取事實,通常基本的事實會由多個概念所組成,至於複雜的事實會需要進行自然語言了解 (Natural Language Understanding,NLU)。此外每一個概念規則類型主要提供一個或多個功能,而常見的規則類型功能對應表,請參考下表。

功能 CLASSIFIER CONCEPT C_CONCEPT CONCEPT_RULE PREDICATE_RULE
符合特定單字或字串
使用萬用字元符合任何單字
展開單字格式
參考詞性
參考定義實體
設定指代
偵測局部符合
使用布林運算

再來不同的概念規則類型將會有不同的用途,分別為:

  1. CLASSIFIER:主要用於識別在內容中我們想要符合的單一述語或字串。
  2. CONCEPT:主要用於識別參考其它概念的相關內容。
  3. C_CONCEPT:主要用於識別符合述語的部份內容。
  4. CONCEPT_RULE:主要用於透過布林運算元決定是否符合內容。
  5. PREDICATE_RULE:主要用於識別在文字中的事實。

其中不同的概念規則類型會有不同的參數語法,但是其格式皆為「規則類型: 參數」為主,且規則類型會以大寫字母為主。

最後 LITI 更有支援正規表達式 (Regular Expressions),其規則類型為 REGEX 主要用於透過正規表達式找出符合的內容,所以若是有 LITI 語法無法解析的概念內容,則我們就能夠透過正規表達式來解決,至於 LITI 語法要如何撰寫,請參考官方文件

相關資源

⬅️ Go back