A/B Test 的指標選擇:Cumulative vs. Windowed

A/B test 的指摽幾乎是要做實驗前首要決定的事情,比如說當我們想要衡量網站改版前後,使用者的點擊率是否會提高?使用者的平均停留時間是否會改變?但這樣的指標定義確實是挺空泛的,比如說使用者有沒有包含那些未註冊的用戶?我們該如何衡量點擊率,是累積的點擊率?還是次日、七日的點擊率?在時間的維度上,Spotify 最近就發表了一篇我覺得挺有意思的文章,他們主要將指標分成兩類:

  • Cumulative metric: 每個樣本被測量到的時間區間是不一致的,這個區間也就是從樣本接受暴露開始($e$)到當下測量的時間($t$)。
  • Windowed metric: 每個樣本固定在接受暴露 ($e$), 並過了 $\nu$ 時間之後被測量 ($e + \nu$),所以要是測量的時間 $t < e + \nu$,此時這個指標是未被定義的。

而另外一種衍生出來的指標類型,就是兩者的結合。

  • Cumulative windowed metric: 我們一樣考慮 $\nu$ 大小的 window,當測量的時間在接受暴露後 $\nu$ 的時間內,此時的指標就等同於 cumulative metric ($t < e+\nu$)。而在 $t \geq e + \nu$ 之後,處置效果就不會持續累積,這時候指標的表現就會趨近於 windowed metric。

但不同的指標定義在統計上到底有什麼差異?其實就是 Estimand 的不同!但其實我長久以來都不知道 Estimand 的中文是什麼 XD,總之 estimator 要估計的對象就會是 estimand,比如當我們想要知道母體平均的時候,我們可以用樣本平均來做估計,此時 estimand 就會面對母體,estimator 就會面對樣本。在因果推論或實驗設計裡,treatment effect 通常就會是我們在意的 estimand,而我們會搜集樣本並建構 estimator 來估計之。

因為我們也將時間的因素考慮其中,所以處置效果並不是一個定值,而是一個與時間相關的函數(treatment effect curve),考慮 cumulative metric 的 estimand 為 $\tau_C(t)$,windowed metric 的 estimand 為 $\tau_W(t)$,則 cumulative windowed metric 的 estimand $\tau_{CW}(\nu, t)$ 可以寫作:
$$\tau_{CW}(\nu, t) = \alpha(t) \tau_W(\nu) + \beta(t) (\tau_C(\nu) – \tau_C(t))$$

其中 $\alpha$ 與 $\beta$ 是係數,隨著時間的增加,$\alpha$ 會降低,而 $\beta$ 會提升,從式子中可以很明顯地看出,$\tau_{CW}$ 在實驗之初會很接近 $\tau_W$,並會逐漸向 $\tau_C$ 收斂,這與上述的說明是一致的,詳細的數學定義與推導可參考

上圖也是一個有趣的示意圖,其 y 軸是 power (1 – type II error),x 軸是曝露之後的時長,除了再一次地展現 cumulative windowed 介於兩類指標的特性之外,更有趣的是這張圖揭露了在某些設定之下,樣本的增加有可能會導致 power 的降低,這跟一般的直覺是有出入的,而其背後跟 treatment effect curve 與當時有多少樣本接受處置有關。

總而言之,cumulative metric 是一個比較複雜的指標,因為我們所在乎的處置效果會一直被累積,這也導致這個指標的 variance 會因為實驗時長而有所變動,進而影響到 power analysis。甚至同樣的實驗,若考慮的實驗時長不同,其結果也有可能會大相徑庭,畢竟時長不同,estimand 也就不同,做假設檢定所需的 variance 也不一定會相同。

至於實驗的指標選擇當然也沒有一體適用的標準,比如說 cumulative metric 就很適合拿來做異常檢測 (abnomaly detection, error detection),畢竟我們也不知道什麼時候會發生異常,所以事前給定一個 window 並不實際。至於 windowed metric 是一個相對穩定、適合拿來做比較的指標,但其缺點也顯而易見,我們必須等到 window 過去,才能基於這個實驗做決策與解釋。而 cumulative windowed metric 結合了兩種指標的優缺點,算是一個比較中庸的設計。


挺喜歡這種小品文章,兼具理論與實務,頗有醍醐味。

References

作者: boboru

A NTU IM master student. I am interested in causal inference, statistics and machine learning. / boru0713@gmail.com

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *