根據 Cluster 調整標準誤的時機與誤區

之前寫完〈Doordash 如何透過 Switchback Experiment 處理 Network Effect〉之後,順藤摸瓜看到 ,這篇的作者陣容十分堅強,內容自然也是不在話下。

在 Doordash 的 Switchback experiment 裡面,他們依照 cluster 的特性調整標準誤(CRSE),主因就是實驗設計會使樣本之間存在關聯性。當然,這樣的調整並不僅限於實驗資料,在一般的觀測性資料裡面,也有一些人認為在 cluster 裡面有一些未被觀察到的成分是有相關性的,所以他們會基於 cluster 調整標準誤。

基於我們對於資料本身的理解,我們或許會有許多想像:

  • 當殘差在 cluster 內有相關性且自變量在 cluster 內也有相關性的時候,根據 cluster 做調整才會對於標準誤的估計有影響。所以,(1) 只要殘差或自變量在 cluster 內沒有相關性,對於 cluster 做調整便不會有影響。(2) 如果我們考量每一個 cluster 有一個 fixed effect,並且把這一個 effect 加進模型中,那麼就可以消除每一個 cluster 中殘差的相關性,此時根據 (1),也沒有必要調整 cluster 的標準誤。
  • 當考慮 cluster 會影響到標準誤的估計時,我們就應該要調整標準誤。因為即使事實上 cluster 不重要,只要樣本數夠大,基於 cluster 調整標準誤差,也不會有什麼損害。

可惜的是,這些印象都是錯誤的, 透過簡單的實驗找到一些反例來指出這一些說法都是不正確的。這更進一步地指出:我們無法簡單地透過資料決定,要不要依據 cluster 做標準誤的調整。那什麼才是決定調整與否的關鍵呢?答案是資料怎麼被搜集的,也就是你的抽樣設計 (Sampling Design) 或實驗設計 (Experimental Design)

  • 抽樣設計 (Sampling Design)
    當抽樣是一個兩階段的設計的時候,我們在第一階段先選定數個 cluster,第二階段再在這些選中的 cluster 當中,抽取裡面的樣本,此時這樣的抽樣設計就會需要考量到 cluster,畢竟有一些 cluster 是沒有觀察到的。
  • 實驗設計 (Experimental Design)
    又或者,在一個實驗裡面,如果處置的分配與不同的 cluster 有關,那們就應該要考量 cluster 。

Notation

我們先整理一下會使用到的變數與統計量。在 Doordash Switchback Experiment 文章中介紹的 CRSE,其實就是 所給出的的估計,我們姑且稱之為 $\text{Var}(\hat{\beta})_{LZ}$,而 Heteroskedasticity-consistent (HC) variance 等同於 Eicker-Huber-White (EHW) variance,寫成 $\text{Var}(\hat{\beta})_{EHW}$:
$$\begin{aligned}
\text{Var}(\hat{\beta})_{LZ} &=\left(\mathbf{X}^\intercal \mathbf{X}\right)^{-1} \left( \sum_{c=1}^{C} \mathbf{X}_c^\intercal \boldsymbol{\Omega}_c \mathbf{X}_c \right) \left(\mathbf{X}^\intercal \mathbf{X}\right)^{-1} \\
\text{Var}(\hat{\beta})_{EHW} &=\left(\mathbf{X}^\intercal \mathbf{X}\right)^{-1} \left( \sum_{i=1}^{N} \Omega_{ii}X_i X_i^\intercal \right) \left(\mathbf{X}^\intercal \mathbf{X}\right)^{-1}
\end{aligned}
$$

  • $P_{C}:$ Cluster 被選到的機率。如果 $P_{C} = 1$,代表所有的 cluster 都有被選到,那麼這個抽樣就是完全隨機的。
  • $P_{U}:$ Cluster 裡面樣本被選到的機率。如果 $P_{U} = 1$,代表一個 cluster 裡面所有的樣本都有被選到。
  • $q_{c}:$ 在 cluster c 裡面樣本被給予處置的機率,而 $q_{c}$ 是從一個平均為 $\mu$ 變異數為 $\sigma^2$ 的分佈裡面抽取的。在這邊我們假設 $\mu = 0.5$,此時若 $\sigma^2 = 0$,代表說在每一個 cluster 裡面,每一個樣本都是隨機地被給予處置($q_{c} = 0.5$);若 $\sigma^2 = 1/4$,則 $q_{c} = \{ 0, 1 \}$,也就是說一個 cluster 裡面不是所有樣本都有接受到處置,就是所有樣本都沒有接受到處置。

何時才應該要根據 Cluster 調整標準誤?

  1. $P_C < 1$(Clustering in the sampling) 且處置效果有異質性($ Y_i(1) – Y_i(0)$ 不是一個定值)。
  2. $\sigma^2 > 0$(Clustering in the assignment)。

只要滿足上面其中一個條件,就應該要根據 cluster 調整標準誤,但如果我們用 $\text{Var}(\hat{\beta})_{LZ}$ 做調整的話,這一個標準誤的估計什麼時候才會是正確的呢?

  1. 處置效果沒有異質性(對於所有的樣本 $i$,$Y_i(1) – Y_i(0) = \tau $)。
  2. $P_C \to 0$,所以我們只能觀察到小部分的 cluster。
  3. $P_U \to 0$,所以在每一個 cluster 裡面,被觀察到的樣本都非常少。

只要三個條件當中符合任一個,則 LZ 就會是一個正確的標準誤估計,但條件 1. 在實務上通常都是不存在的;條件 2. 也無法單獨的藉由資料判斷,仍需思考目前的抽樣在整個 population 涵蓋了多少 cluster,條件 3. 可以簡單地看每個 cluster 裡面樣本數量的分佈。如果這三個條件沒有任一個符合的話,$\text{Var}(\hat{\beta})_{LZ}$ 會給出一個較保守的標準誤估計,也就是說這個標準誤會被高估。

結論

我覺得大部分的人應該都認可資料有時候會存在 cluster,以致於在估計的時候需要特別考慮相關的影響,但是做與不做本身竟是與你對資料的認知無關,而是與更前段的實驗設計與抽樣設計有關,這個對我來說就非常新穎且重要。而且即是做了必須的調整,這個調整是不是正確的,又是另一個更深層的問題。在 Doordash 的實驗當中,可以發現藉由 CRSE($\text{Var}(\hat{\beta})_{LZ}$)調整的實驗,其 power 都沒有太高,我猜想可能是因為 $P_C \to 1$,以致於 LZ 高估了標準誤,那麼就更不容易去拒絕虛無假設。於是,如果不做調整,OLS 會低估標準誤,但做了調整 LZ 又會高估,從這個視角來看的話,這個問題應該還是沒有一個很 solid 的解法。

References

作者: boboru

A NTU IM master student. I am interested in causal inference, statistics and machine learning. / boru0713@gmail.com

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *