SAS Experimentation

SAS 實驗設計 (3)

教學目標

初步了解 SAS 實驗設計中有關增量回應模型的基本概念。(此篇主要為準備考試的心得筆記)

重點概念

首先我們主要會遵循科學方法根據資料來獲得很重要的準確結果,資料科學實驗可以證明某些事情是否成功,並且找出影響最有效的方法,當我們能夠衡量所採取的行動的價值時,評估模型部署就能夠進行真實的測試,並且透過提升值選擇正確的模型,以及決定如何應用模型的結果,在資料庫行銷應用中,這需要透過控制組根據各種模型評分仔細追踪客戶的回應,像是將實際結果與預期進行比較,挑戰者比較冠軍的結果,找到了適合的模型。當我們在考慮設計實驗來評估結果時,需要確保隨機選擇任何測試組並獲得相同的處理過程,透過實驗使我們可以評估識別關鍵的許多因素互動,這些實驗基於資料能夠讓資料科學家仔細控制因素,以利模擬類似實驗室環境。此外資料科學實驗室可以透過許多實驗來豐富嘗試小規模的想法,成功的實驗可以導致企業營運方式的變化,請注意也有可能會產生意外的後果,像是產品推薦產生新銷售的計劃,將會造成銷售另一種產品之淨利潤損失的後果。

接著使用傳統預測模型的直接行銷活動針對所有可能購買的客戶,這種方法都會導致他們購買的商品會浪費金錢,然而使用訓練資料集 (實驗和控制) 的增量回應模型測量增量直接影響行銷的有效性,這些模型尋找可能購買或積極回應的客戶行銷活動,此時產生的收入主要稱為增量收入。因此我們應該選擇哪些客戶進行促銷提供最大化淨利潤,行銷建模工具專注於總體回應的機率最高的預測客戶,針對增量回應建模背後的想法是比較兩者之間回應率的差異,對照組 (未應用行銷活動) 和實驗組 (應用行銷活動),其衡量所採取行動的真實效果的指標,並且在沒有行動的情況下,附加值不會意識到,而最常見的增量應用回應建模是針對性行銷活動,增量回應模型用於識別誰需要進行促銷優惠,也就是僅在促銷時預測誰將購買產品,以利透過識別正確的目標來節省行銷成本,請注意雖然我們假設存在增量回應,但是卻不知道有哪些增量客戶。

再來 SAS Enterprise Miner 中的增量回應節點具有用於變數選擇的內建工具,這個工具基於衡量資訊價值的差異,在每個潛在輸入變數的對照組和實驗組之間,稱為淨資訊價值,淨資訊價值主要測量資訊值之間控制組和實驗組的差異,因此增量回應模型變數選擇的最佳測量為淨資訊價值,其中重要的是因為增量回應建模是依靠雙重計算,計算公式為增量效應 = 實驗結果 - 控制結果,而淨資訊價值方法為直觀、易於實施和靈活,修改證據權重的概念和資訊價值。至於選擇變數表顯示按淨資訊值排名的前 50% 的輸入變數,淨資訊價值評分代表與模型回應具有最強相關性的變數是每個輸入的實驗組和對照組之間資訊值的差異變數,因此淨資訊價值主要用於對輸入變數進行排名。此外在 SAS Enterprise Miner 中使用驗證資料集,則自動使用懲罰淨資訊價值,所謂懲罰淨資訊價值 = 淨資訊價值 - 處罰,處罰訓練之間淨證據權重的差異和驗證資料,以及選擇可提高模型穩定性的變數。然而增量回應節點基於逐步回歸模型,這代表著我們可以選擇一些標準自動變數選擇技術之間向前、向後和逐步回歸,預設情況下不執行變數選擇,也就是說使用所有候選輸入變數,在回歸模型中要為模型選擇變數,請使用以下模型選擇標準提供 AIC,SBC,驗證錯誤和交叉驗證錯誤,至於針對增量模型診斷,主要在於最高十分位數的高增量率,底部十分位數應該是低增量率,並且在所有十分位數,預測和預測之間的差異觀察到的增量反應率應該很小。

最後有關增量銷售分析預設設定是從模型中為每個客戶估算預期收入,我們可以透過指定每個觀察應使用一個固定收入進行設定,並在屬性收益中指定常量收入回應,屬性成指定行銷活動的成本為每個客戶聯繫,若增量收入大於直接成本,則表示客戶有利可圖,屬性成本的預設值為 0,而若沒有回應主要是因為未觀察目標選擇的偏差,此時我們將能夠透過 Heckman 的兩階段選擇模型進行修正。

相關資源

SAS 優化研究 (2)

教學目標

初步了解 SAS 優化研究的基本概念。(此篇主要為準備考試的心得筆記)

重點概念

首先我們可以透過優化改善決策過程,分別為:

  1. 結構性 (Structure):了解決策的動機。
  2. 一致性 (Consistency):推動所有決策目標。
  3. 可重複性 (Repeatability):隨著時間推移以相同方式做出決策。
  4. 適應性 (Adaptability):更新且保持相同的原則。
  5. 持久性 (Persistence):與個人經驗無關。
  6. 可擴展性 (Scalability):解決更大且複雜的問題。

接著數學優化的分類問題,主要能夠分為四種類型,請參考下表。

所有連續變數 一些整數變數 所有整數變數
線性函數 線性規劃 (LP) 混合整數線性規劃 (MILP) 整數線性規劃 (ILP)
非線性函數 非線性規劃 (NLP)

至於解決數學優化問題就是代表著找到最佳解或確定數學優化問題沒有最佳解。

再來線性規劃的條件限制在多個維度下決定了可行區域,若滿足所有條件約束,則解決方案是可行的,像是下述線性程序有決策變數 X 和 Y,而可行區域的維度由限制中包含的決策變數的數量確定,因此下述線性規劃為二個維度,此外線性規劃問題將具有有限數量的極值點解,但是兩個最佳解之間的任何點也將是最佳的,因此也可能是獨特、無限或沒有最佳解。

線性規劃問題範例

1
2
3
4
5
maximize 15x + 20y
subject to x + 4y <= 220
x + y <= 120
3x + 5y <= 360
x >= 0, y >= 0

最後極端點是可行區域的角落,最佳解是一種可行的解決方案,可以是最大化或最小化的目標函數,若有可行的解決方案,則總有一個極值點最佳解任何解決方案,若沒有可行的解決方案,則我們會認為線性規劃問題是不可行的,像是若限制條件 3x + 5y <= 360 被限制 3x + 5y >= 360 代替,則問題是不可行的,若目標可以任意大或在最小化,則線性規劃問題是無限的。

相關資源

SAS 實驗設計 (2)

教學目標

初步了解 SAS 實驗設計的基本概念。(此篇主要為準備考試的心得筆記)

重點概念

首先實驗設計涉及十個屬性,分別為:

  1. 回應 (Response):回應主要是依變數或目標變數在預測建模中這被稱為目標,選擇適當的回應用於特定目的進行實驗,在分析實驗中收集的資料時,可以使用多個回應變數。
  2. 因子 (Factor):因子主要是一個潛在的獨立變數,回應測量變化來源,因子是可由我們控制的特定的屬性之一。
  3. 因子水平 (Factor Level):因子水平主要是因子的特定值或設定,因為一個因素在研究者的控制之下,所以可以選擇和使用在實驗中不同的值或水平。
  4. 影響 (Effect):效果主要是測量關係因子水平和回應指標之間的變化,其主要是因子不同水平回應值的差異。
  5. 權力 (Power):權力主要是我們檢測效果的機率。
  6. 實驗單位 (Experimental Unit):實驗單位主要是最小可以應用實驗的單位。
  7. 實驗 (Treatment):實驗主要是所有因素的組合,每個因素在一個層面和典型的行銷背景下,一個實驗方法構成一個獨特的優惠。
  8. 正交 (Orthogonality):正交主要是至少有代數解釋、幾何解釋和統計解釋三種方式來考慮重要性
  9. 複本 (Replication):複本主要是發生於當多個實驗單位接受同樣的實驗,因此實驗設計需要針對個別因素進行複本。
  10. 平衡 (Balance):平衡主要確保了因子實驗的正交性,雖然有可能不平衡的設計是正交的,所有平衡因子設計都是正交的。

其中實驗是所有因素的組合,每個因素在一個層面,若我們會有三個因素 (Factors),每個因素分為兩個層次 (Levels),則會有八種可能的實驗方法 (Treatments)。適當的實驗單元取決於實驗的目的,實驗通常針對個人或家庭,網站實驗單位,實驗設計通常是存取,因為識別回訪者的問題使其變得困難或不可能識別個人。儘管考慮什麼是有幫助的,為了獲得足夠的資訊,應該為我們的實驗提供適當數量的觀察結果檢測因素的影響,諮詢統計專家可以幫助進行這些計算。

接著通常與實驗設計相關的另外兩個術語是區塊 (Blocks) 和協同變異 (Covariates),所謂區塊是實驗單元組,在某種程度上通常是同質的,其代表干擾變異,像是地區、學校和公司,所謂協同變異是實驗單位的特徵,被測量但是不能分配或強加的在他們之上,其代表干擾變異,像是年齡,性別和收入。此外有時會處理區塊和協同變異可以互換,並且區別並不總是很清楚,區塊通常是分類的,可以被認為是作為一組實驗單位,區塊通常是在模型中用作隨機效應,而協同變異可以是連續的或分類的個別實驗單位的特徵,協同變異是被測量實驗單位的特徵,但不能分配或強加的在他們之上,阻止限制隨機化,協同變異可以是連續的或分類的固定預測變數。

再來根據觀點和技術,效率對不同的人代表著不同的知識,在這種情況下,效率由與成本相關的大量資訊代表實驗,但是資訊量可以有不同的含義和成本實驗可能意味著不同的事情,無論一個人的觀點如何,效率越高越好,若分子增加或分母減少,或兩者都有效,則可以提高效率。像是市場行銷執行副總裁可能會考慮測試項目的數量和總的財務成本,統計學家可能會將資訊量量化為誤差範圍估計的影響,較小的誤差範圍意味著更多的資訊,財務成本的主要驅動力是總樣本量,效率被定義為按總樣本量測試的項目數量。

最後資料科學家使用不同類型的實驗回答問題,其中最常見的實驗類型就是 A / B 測試,所謂 A / B 測試,或稱冠軍挑戰者測試其是非常簡單的設計,常用於網站設計和電子商務,在這些設計中有許多不同的因素,隨機分配為實驗中進行不同特徵的因子設計的效果比較許多替代方案,直到挑選出最適合的冠軍方案,與任何設計一樣 A/B 測試也有缺點,其最關心的是我們不能確定冠軍的哪個特徵 (與挑戰者或挑戰者相比),使其更受歡迎,這使得很難將發現推廣到其他設計專案,但是在快速市場反應電子商務的測試環境,能夠針對每一個新問題都不需要更複雜的實驗設計而獲得經驗客戶偏好的速度。

相關資源

SAS 實驗設計 (1)

教學目標

初步了解 SAS 實驗設計的基本概念。(此篇主要為準備考試的心得筆記)

重點概念

首先統計模型可以回答問題,正如在擬合模型在設計實驗時理解主題領域非常重要,資料科學家可以回答很多問題,主要包括:

  1. 我們是否擁有執行分析的資料,並且回答這個問題?
  2. 我們是否考慮了控制中,並且無法控制變數的類型?

而我們的問題是否代表著需要進行比較?或者我們有做過實驗嗎?所謂實驗主要是了解某項事情進行一系列的科學測試行動和仔細觀察其影響,以作為測試完成的事情,並且了解我們要做的事情有多好或有多糟糕。此外實驗與觀察資料不同,我們可以從中得出的結論類型。

接著相關並不代表著因果關係,透過實驗使我們能夠識別因果驅動因素,與預測建模相比,實驗的優勢是回答了因果關係的問題。我們更聰明的工作和進行實驗,為了得出關於一個變數是否影響另一個變數的因果推斷,有必要使用一個實驗。此外我們還需要考慮下下問題,分別為:

  1. 我們想回答的問題是什麼?
  2. 我們想要答案之母體是多少?
  3. 我們想要比較什麼類型的東西是可以控制嗎?
  4. 我們如何衡量結果?
  5. 我們無法控制影響的衡量結果有哪些?

請注意在分析結果實驗時,若使用滋擾變數進行建模將會有可能增加誤差變異,而大量樣本、隨機分配樣本和因素之間的相互作用通常會減少誤差變異。

再來我們會啟用小規模部署實驗,實驗主要是在受控制的條件下進行的系統程序或控制以發現未知的效果影響,並且在分析業務流程時,實驗是通常用於評估哪些輸入對輸出有重大影響,以及這些輸入應該是為了達到預期的效果。我們能夠透過許多不同的方式設計實驗來收集此資訊,應該對許多業務決策進行事實檢查評估是否有預期的後果,小規模測試許多可能的情境使我們能夠比較哪個是最有利可圖,成功的小規模實驗將使其變得更容易向利益相關者傳達價值,並且實驗回答因果關係的問題。

最後實驗設計涉及多個屬性,我們可以透過推論母體、母體實驗單位和感興趣回應變數定義來設置實驗的屬性,此外我們還必須做到確定實驗中將使用哪些因子和因子水平,指定對將要做出的決策有意義的效果的大小以及指定檢測有意義效果的能力。至於我們必須決定使用哪種方法 (因子和水平的組合),每次所需的複製次數,重要的平衡和正交性實驗設計的整體效率以及我們經常要在資源限制內獲得最多資訊妥協選擇。

相關資源