快轉到主要內容

為什麼 A/B 測試超重要:我要科學、不要只靠直覺

Data-Science Ab-Testing
好豪
作者
好豪
Google 資料科學家,以部落格寫作記錄自己的知識焦慮,記下我看過的書、寫過的程式碼、以及數據分析工作的見聞。歡迎透過 此表單 點播新文章、或者給部落格任何回饋!
目錄

每次聊到我的資料科學工作,我幾乎都會提到 A/B 測試這個關鍵字。

很多人會問:「究竟為什麼需要 A/B 測試?」

ab test

不能只是「某人說了算」
#

想像一下:會議室裡,公司某位官威很大的主管突然靈光一閃,提出一個他相信「絕對會讓用戶超愛」的功能。底下的人當然(只能)點頭如搗蒜,誰敢反對老闆的天才想法?

結果呢?六個月後,這個「超讚功能」不但沒有提升用戶體驗,反而讓產品表現變更爛,甚至收到用戶負評。

不管你做哪一行,你肯定也覺得這個情境不稀奇吧?

至少在我的工作經驗裡,這幾乎天天在上演。

這個現象即使在科技業也超常見,因為我們總是高估自己預測用戶喜好與行為的能力。身為資料科學家,我親眼看過太多經驗豐富的產品經理和設計師,他們當然都是聰明絕頂的人才,但依然有可能對用戶需求的判斷完全大錯特錯。甚至有研究與實際數據證明這點:

「在微軟進行 A/B 測試的想法中,只有三分之一能真的能改善商業指標」
《Trustworthy Online Controlled Experiments》.Ron Kohavi

人類的經歷累積出商業直覺,雖然很適合用來產生假設,但對於預測和評估產品改動的實際價值,表現很糟,連擁有世界級人才的科技巨頭都經常錯估。如果沒有 A/B 測試,我們基本上就是在瞎子摸象,濫用七嘴八舌的意見(而不是證據)來做決策。

ab test
你不會閉著眼睛走路,產品開發也不該是蒙著眼瞎忙
(Source: unsplash)

A/B 測試:讓產品開發「很科學」
#

A/B 測試把產品開發從「憑感覺」變成「科學」。透過隨機分配用戶到對照組和實驗組(稱為 隨機對照試驗),我們可以獨立衡量特定改動的因果效果,直接觀察「造成」用戶行為的實際效果(用商業指標來衡量)。我在 雷亞遊戲 擔任遊戲分析師時,就是用 A/B 測試來最佳遊戲教學流程,衡量出哪些新改動是真的對玩家黏著度有幫助的,用多項實驗提升了隔日留存率。

商業決策不只是要數據,而是要可信任、可行動的數據。

A/B 測試的厲害之處在於能過濾外在因素的雜訊,找出真正的因果關係。如果資料分析只看相關性,很容易被 混淆變項 誤導、看到虛假的相關(“Spurious Correlation”),而 A/B 測試提供的嚴謹統計方法、幫助我們做出可信的產品決策。A/B 測試的科學方法讓產品團隊能快速迭代,想法不行就快速失敗、快速改進。有可靠的產品迭代過程,產品的成長才有可能規模化。

A/B 測試是產品開發必備技能,連 AI 都需要實驗
#

在技術跟產品都快速演進的時代,能夠快速且精準分辨什麼改動有效、什麼沒效,是決定產品存亡的關鍵因素。即使在 AI 時代,A/B 測試依然不可或缺。Chatbot Arena (lmarena.ai) 就是我很喜歡的範例,不同的 AI 模型要透過隨機對照試驗來「盲測」,以此衡量 AI 實際上到底好不好用,而不是只靠理論說嘴(例如 LLM 研究論文裡常用 BLEU、MRR 等離線指標)。連 AI 模型都需要 A/B 測試才能產生可信的表現分數排行榜(leaderboard):

不管你要設計新功能、AI 模型、還是 UI 介面,經過 A/B 測試的資料驗證永遠勝過瞎猜臆測

ab test
Chatbot Arena 排行榜截圖

A/B 測試不只是「很加分」的分析方法,它是商業決策的必備工具。現在的實驗服務很成熟(例如第三方實驗平台 Eppo),任何公司都能做到同時跑數百個實驗,從按鈕顏色到演算法改動的各種變化都可以測試,在幾十年前根本不可能取得的數據洞察、現在可以輕鬆取得。

更重要的是,A/B 測試也是開發過程的風險控管工具,讓產品能在一小群用戶先測試改動,確認沒問題才全面推出(這稱為 Canary Test),要是團隊不小心搞砸了,才不會一次讓所有你的忠實客戶同時崩潰、釀成大災難。幾乎你想得到的科技公司,從 Google、Netflix、到 Booking.com 等等,商業實驗早已植入公司 DNA,把每個產品改動都當成「需要測試」的假設,而不是鴕鳥心態,每個想法都不問好壞直接實踐並上線。

我個人主觀相信:有 A/B 測試與因果推論的商業決策,才是真正的 Data-Driven。否則,都只是瞎猜。


推薦閱讀: