根據 Cluster 調整標準誤的時機與誤區

之前寫完〈Doordash 如何透過 Switchback Experiment 處理 Network Effect〉之後,順藤摸瓜看到 ,這篇的作者陣容十分堅強,內容自然也是不在話下。

在 Doordash 的 Switchback experiment 裡面,他們依照 cluster 的特性調整標準誤(CRSE),主因就是實驗設計會使樣本之間存在關聯性。當然,這樣的調整並不僅限於實驗資料,在一般的觀測性資料裡面,也有一些人認為在 cluster 裡面有一些未被觀察到的成分是有相關性的,所以他們會基於 cluster 調整標準誤。

閱讀全文〈根據 Cluster 調整標準誤的時機與誤區〉

Doordash 如何透過 Switchback Experiment 處理 Network Effect

Doordash 是一家總部位在舊金山的外送平台,如同在台灣的 Uber Eats 或 Foodpanda,Doordash 作為一個平台負責媒合消費者與店家,並透過外送師(Dasher)協助完成每筆訂單。假設今天 Doordash 想要在某個地區發放折扣並檢視其成效,於是他們隨機地將一個地區裡面的消費者分為實驗組 (Treatment Group) 與對照組 (Control Group),可想而知實驗組的消費者可能會更傾向去訂購,於是那一個地區的外送師會為了處理實驗組的訂單而疲於奔命。最後當我們檢視實驗效果的時候,其實很難說實驗組與對照組下訂的數量差異,到底是來自於優惠券的發放?還是因為外送師被實驗組大量佔據,導致根本就沒有 Supply 可以去處理對照組的 Demand?這個時候透過 A/B testing 估計的處置效果就會有 bias。

閱讀全文〈Doordash 如何透過 Switchback Experiment 處理 Network Effect〉

Netflix 如何透過短期 A/B Testing 結果估計長期成效

實驗一直是 Big Tech 用以推動產品迭代的重要步驟,好的實驗可以驗證產品的改變是否對使用者來說有正面的效益,公司也才會有信心將這個功能正式上線,而對於一個網路產品來說最常用的手法即是 A/B testing。然而,在講求快速迭代的產品開發過程當中,A/B testing 的實驗週期通常不會太長,也就很難透過 A/B testing 衡量長期效益。舉例來說,Netflix 想要加強推廣旗下的遊戲產品,於是試圖在 App 上新增廣告欄位,透過實驗發現遊戲的下載數確實因為廣告而有所提升,但我們卻很難回答:長期來看這個功能是否使得使用者更喜歡 Netflix?更願意留在產品內並提供營收?

閱讀全文〈Netflix 如何透過短期 A/B Testing 結果估計長期成效〉

視覺化 Apple Health Data (Streamlit + Altair)

Online Demo: https://boboru-apple-health.streamlit.app/

意外發現手機裡面的 Apple Health 儲存了大量歷年來的資料,於是想說來做個專案轉換一下心情,順便練習一下新的玩具。想法是要做一些 Apple 沒有做到的事情,比如說使用者其實不太能自由地選擇要分析的時間區段(但使用上很直覺,也沒什麼不好);Apple 基本上都是選擇「平均數」當作敘述統計量,但想想許多資料分佈肯定是長尾,而平均數對於極端值很敏感,所以這個時候或許可以考慮其他敘述統計的方式。

閱讀全文〈視覺化 Apple Health Data (Streamlit + Altair)〉

如果你在前方抬頭,而我亦抬頭

在 1968 年的某個冬日下午,一條繁忙的紐約街道上,一群人正抬頭望向身旁的建築物,這群莫名其妙的人吸引了路人的目光,有些人因此佇足,也有些人也跟著抬起了頭,望向遠方。 而他們的一舉一動正默默地被記錄下來⋯⋯

今年的搞笑諾貝爾獎(Ig Nobel Prize)於心理學領域,頒給了這篇 1969 年發表的研究, 他們試圖找出不同群眾大小所發揮的影響力是否相異,於是如同前段所述,研究者找了一個會有行人經過的場域,並且派出數量不等的群眾(1 ~ 15 人),站在街上仰望天空 60 秒,研究者並接著統計在這 60 秒期間,有多少路人會停下來,甚至是加入這個群體一起抬頭。

閱讀全文〈如果你在前方抬頭,而我亦抬頭〉

關於主成份分析 PCA 的一個小秘密

主成份分析 (Principal Component Analysis, PCA)常用於在低維空間空間表示高維資料,以達到維度縮減的功用,在資料科學實務上或能降低維度詛咒(the curse of dimensionality)所帶來的風險。想必大部分人在學習資料科學都會學到 PCA (而不是在多變量分析 🙁 ),而在某天我偶然得知關於 PCA 第一個 Principal Component (PC)的小秘密……但在那之前我們可能要一起複習一下背景知識。

閱讀全文〈關於主成份分析 PCA 的一個小秘密〉