Leo Yeh's Blog

SAS 詐欺分析 (2)

教學目標

初步了解 SAS Adaptive Learning and Intelligent Agent System 解決方案的基本概念。

重點概念

首先目前隨著數據量快速增加,威脅偵測的任務越來越多且越來越複雜,像是銀行需要從每天發生數十億筆交易識別潛在的詐欺交易,此時我們不再能夠透過手動的方式查看所有可用的資料,因此需要依靠系統來縮小資料範圍,以利幫助銀行找到真正的詐欺交易,而這些系統往往是以下二種,分別為:

  1. 專家驅動系統:主要由領域專家根據產業經驗定義規則或預測模型,以利發現潛在的詐欺行為。
  2. 資料驅動系統:主要由機器學習技術識別交易行為資料中的可疑模式,以利發現潛在的詐欺行為。

儘管這些方法被證明是有效的,但是需要產業領域的專業知識來定義適當的專家驅動規則或數據科學專業技能來定義適當的資料驅動規則,並且隨著威脅模式的變化和趨勢發展,兩者皆需要定期進行更新。

接著詐欺罪犯會一直在尋找新的欺詐方式,這種不斷發展的威脅給專家驅動的方法論檢測帶來了問題,因為隨著新的詐欺模式的出現,需要一些時間和專業知識才能夠製定新的規則。同時當偵測威脅,就需要人力資源進行進一步調查以識別是否確實是威脅,以及需要採取什麼進一步的措施,但是企業組織通常僅有部份的分析人員可以對產生的警報進行分類,並且按照威脅劃分警報的優先級,以及確保低誤報率是最關鍵考慮因素,因此銀行需要在未發現的詐欺成本和處理成本之間取得平衡。此外真正的交易要比欺詐交易多,守法公民多於詐欺罪犯,而對於大多數機器學習演算法來說,這是一個非常具有挑戰的罕見事件問題,需要透過資料科學專業技能來解決此問題。

再來不論由領域專家根據產業經驗定義規則或預測模型,或由機器學習技術識別交易行為資料中的可疑模式,皆能夠透過 SAS Adaptive Learning and Intelligent Agent System 解決方案進行詐欺分析,以利發現潛在的詐欺行為。其主要能夠自動化建立模型以進行偵測,在自動化建立模型的過程中,智慧代理應用程式主要查看企業組織中的資料,並且使用有監督和無監督的機器學習技術來建構準確且經過專門調整用於偵測罕見事件的模型,然後可以將此模型部署在 SAS Visual Investigator 中針對現有資料產生警報,並且透過圖表、地圖、時間表和網路分析等調查工具來處理這些警報,以利確定威脅是否真實。最重要的是智慧代理應用程式會持續監控警報調查的結果,並更新結果進行持續學習,同時智能代理會根據更新的資料自動重新訓練模型,如果認為它比上一個模型更好,則可以發佈到正式環境。

最後 SAS Adaptive Learning and Intelligent Agent System 主要提供網站操作界面,僅需要透過設定表格、目標、事件旅標和模型屬性的步驟設定,就能夠在最短時間內自動化查看企業組織中的資料,並且使用有監督和無監督的機器學習技術來建構準確且經過專門調整用於偵測罕見事件的模型。此外當模型自動化建立完成之後,就會產生結果報表,預設主要會顯示四個指標資訊,分別為:

  1. 偵測率:正確命中事件的比例。
  2. 誤發現率:錯誤命中的比例。
  3. 未命中事件率:應命中但未命中的事件之比例。
  4. 命中率:記錄命中的比例 (正確和錯誤命中的總和)。

當然還有提供效能矩陣、 ROC 曲線、PR 曲線和增益圖表等視覺化呈現,以及針對效能矩陣將會產生「在 0.7 的臨界值下,此預測模型成功命中 292 個事件,同時未命中 247 個應命中事件。模型命中率為 54.17% 且事件未命中率為 45.83%。事件命中的轉換率為 82.72%。」敘述說明,更進一步我們能夠直接透過網站操作畫面動態調整臨界值,當調整之後會立即更新模型結果,至於相關操作畫面,請參考官方論文

相關資源

⬅️ Go back