根據 Cluster 調整標準誤的時機與誤區

之前寫完〈Doordash 如何透過 Switchback Experiment 處理 Network Effect〉之後,順藤摸瓜看到 ,這篇的作者陣容十分堅強,內容自然也是不在話下。

在 Doordash 的 Switchback experiment 裡面,他們依照 cluster 的特性調整標準誤(CRSE),主因就是實驗設計會使樣本之間存在關聯性。當然,這樣的調整並不僅限於實驗資料,在一般的觀測性資料裡面,也有一些人認為在 cluster 裡面有一些未被觀察到的成分是有相關性的,所以他們會基於 cluster 調整標準誤。

閱讀全文〈根據 Cluster 調整標準誤的時機與誤區〉

Doordash 如何透過 Switchback Experiment 處理 Network Effect

Doordash 是一家總部位在舊金山的外送平台,如同在台灣的 Uber Eats 或 Foodpanda,Doordash 作為一個平台負責媒合消費者與店家,並透過外送師(Dasher)協助完成每筆訂單。假設今天 Doordash 想要在某個地區發放折扣並檢視其成效,於是他們隨機地將一個地區裡面的消費者分為實驗組 (Treatment Group) 與對照組 (Control Group),可想而知實驗組的消費者可能會更傾向去訂購,於是那一個地區的外送師會為了處理實驗組的訂單而疲於奔命。最後當我們檢視實驗效果的時候,其實很難說實驗組與對照組下訂的數量差異,到底是來自於優惠券的發放?還是因為外送師被實驗組大量佔據,導致根本就沒有 Supply 可以去處理對照組的 Demand?這個時候透過 A/B testing 估計的處置效果就會有 bias。

閱讀全文〈Doordash 如何透過 Switchback Experiment 處理 Network Effect〉

Netflix 如何透過短期 A/B Testing 結果估計長期成效

實驗一直是 Big Tech 用以推動產品迭代的重要步驟,好的實驗可以驗證產品的改變是否對使用者來說有正面的效益,公司也才會有信心將這個功能正式上線,而對於一個網路產品來說最常用的手法即是 A/B testing。然而,在講求快速迭代的產品開發過程當中,A/B testing 的實驗週期通常不會太長,也就很難透過 A/B testing 衡量長期效益。舉例來說,Netflix 想要加強推廣旗下的遊戲產品,於是試圖在 App 上新增廣告欄位,透過實驗發現遊戲的下載數確實因為廣告而有所提升,但我們卻很難回答:長期來看這個功能是否使得使用者更喜歡 Netflix?更願意留在產品內並提供營收?

閱讀全文〈Netflix 如何透過短期 A/B Testing 結果估計長期成效〉