快轉到主要內容

P 值越小越好?破除新手誤解:你需要信賴區間與效果量

Data-Science Ab-Testing Statistics
好豪
作者
好豪
Google 資料科學家,以部落格寫作記錄自己的知識焦慮,記下我看過的書、寫過的程式碼、以及數據分析工作的見聞。歡迎透過 此表單 點播新文章、或者給部落格任何回饋!
目錄
常見迷思:P 值越小 = 結果越厲害?

剛接觸統計學的同學肯定聽過「P 值要小於 0.05 才算顯著」這個說法。久而久之,很容易產生一個直覺:P 值越小,結果就越好、越重要

這種想法看似合理,但其實隱藏著不少問題。你覺得 P 值 = 0.001P 值 = 0.01厲害 10 倍」,這種想法正確嗎?

在學術界和業界,這種讓 P 值「過譽」的現象相當普遍。許多研究報告會強調獲得了p-value < 0.001 的結果,彷彿這就是研究品質的保證;有些統計軟體還會用星號標示不同程度的顯著性(* p < 0.05, ** p < 0.01, *** p < 0.001),無形中建立了「星號越多越好」的印象。

p值越小越好
(梗圖來源:Reddit

更危險的是,單純追求極小的 P 值可能讓我們忽略真正重要的問題:這個發現在現實世界中真的有意義嗎? 這種迷思在現在的大數據時代尤其需要警惕,因為我們很容易獲得統計顯著但實際無意義的結果。我們以下就來破除這個「P 值越小越好」的迷思。


個人工商時間:歡迎訂閱我的每週電子報,我將會分享資料科學跟 AI 工具,也寫下我正在看什麼、學什麼,想到什麼就寫,讓我們透過 Email 聊聊吧!


正確解讀:P 值到底在告訴我們什麼?
#

P 值的正確定義是:
在虛無假設為真的前提下,觀察到目前這樣極端(或更極端)結果的機率

換句話說,P 值 = 0.01 的意思是:「假如真的沒有差異存在,那麼我們看到這麼明顯差異的機率只有 1%」,這確實提供了反對虛無假設的強力證據。

舉例來說,假設你想知道台北和高雄的手搖飲價格是否有差異,收集了兩地各 100 家店的資料後發現台北平均貴 5 元,P 值 = 0.02。這個 P 值告訴我們:如果兩地價格實際上沒有差異,我們觀察到這種程度差異(或更大差異)的機率只有 2%

較小的 P 值確實代表:

  • 在虛無假設為真的情況下,觀察到這種結果(現有資料)的可能性很低
  • 有更強的證據反對「沒有差異」這個假設
  • 降低了 型一錯誤(Type I Error)的風險,也就是「實際上沒效果、卻誤判有效果」的風險

然而,統計顯著 ≠ 效果很重要,這是關鍵的概念區別,顯著只代表我們相信差異真的存在、不代表這個差異大到很重要。即使我們很確定台北手搖飲確實比較貴,5 元的差異對消費者來說可能根本不重要。

(你知道這只是假設情境,對吧?要是真的有 5 元差異,每週喝珍奶的我,會很有感)

順帶一提另一個重要觀念:P 值會受到樣本數影響。樣本數越大,即使很小的實際差異也可能產生很小的 P 值。這就是為什麼在數據分析中,我們經常看到統計顯著但實際無意義的結果。

你以為 P 值越小越好?其實你在問效果大小 Effect Size
#

我們接續到這個重要的觀念:極小的 P 值並不等於效果很大

剛剛手搖飲的 5 元差距大不大可能有些爭議,我們換個想像情境:某個網站改版後,頁面載入時間平均慢了 2 毫秒。如果樣本數夠大(例如百萬筆資料),這個微小差異可能產生非常小的 P 值(小於 0.0000001),在統計上「高度顯著」。但對用戶體驗來說,2 毫秒的差異根本感覺不到,實際意義微乎其微。

這就是為什麼我們需要關注的是這些關鍵字才對:

Effect Size(效果量):實際觀察到的差異大小,這才是告訴我們「改變有多大」的指標。常見的效果量指標是 Cohen’s d。比如剛才手搖飲的例子,5 元的價差再除以標準差就是一個直觀的效果量。

Practical Significance(實務顯著性或實用顯著性):表示數據差異在現實應用場景中是否重要。需要根據具體情境、成本效益來判斷。對於月收入 5 萬的上班族,5 元的手搖飲價差可能無關緊要;但對於每天要買手搖飲的學生來說,一個月就差了 150 元,可能就有實際意義。

(延伸閱讀:資料科學家的薪水每月有 5 萬元嗎?從 這裡 查得到!)

Minimum Detectable Effect(MDE、最小可檢測效應):實驗設計時預設的「最小有意義差異」,是 A/B 測試 必備參數。如果觀察到的效果比這個還小,即使統計顯著也可能不值得採取行動

在商業環境中,這些效果大小的概念特別重要。比如電商網站的轉換率提升 0.1%,在統計上可能非常顯著,但如果實施成本很高,這個微小提升可能不值得投資。

信賴區間:比 P 值更豐富的資訊
#

除了效果量,信賴區間(Confidence Interval) 也是很值得跟 P 值一起參考的統計指標。信賴區間除了看得出來是否顯著、也告訴我們效果量的可能範圍,提供更完整的數據樣貌。

回到手搖飲價格的例子,如果台北與高雄手搖飲價差的 95% 信賴區間是 [7, 9],這表示 7 到 9 元這個範圍很可能包含真實價差,此區間沒包含 0、判讀為顯著,而且此區間離 0 很遠、表示效果量很大、價差很大。此資訊比單純的 p < 0.05 更有價值,因為它告訴我們效果的大小和不確定性。

相較之下,如果價差的信賴區間是 [1.3, 1.8],雖然統計顯著(區間不包含 0),但差異很小且範圍很窄;如果是 [-1, 15],雖然可能不顯著(區間包含 0),但上界顯示可能存在重要的實用差異,值得進一步研究。

小結
#

我們學統計學的核心目標不僅僅是想方設法獲得顯著的 P 值,而是幫助我們在不確定性中做出更好的決策。P 值是統計推論的重要工具,但它只是分析過程的其中一塊拼圖。透過同時參考效果量與信賴區間,學會平衡統計顯著性與實務意義,才能拼出全貌、做出更明智的決策。

參考閱讀: