剛接觸統計學的同學肯定聽過「P 值要小於 0.05 才算顯著」這個說法。久而久之,很容易產生一個直覺:P 值越小,結果就越好、越重要。
這種想法看似合理,但其實隱藏著不少問題。你覺得 P 值 = 0.001
比 P 值 = 0.01
「厲害 10 倍」,這種想法正確嗎?
在學術界和業界,這種讓 P 值「過譽」的現象相當普遍。許多研究報告會強調獲得了p-value < 0.001
的結果,彷彿這就是研究品質的保證;有些統計軟體還會用星號標示不同程度的顯著性(* p < 0.05
, ** p < 0.01
, *** p < 0.001
),無形中建立了「星號越多越好」的印象。

更危險的是,單純追求極小的 P 值可能讓我們忽略真正重要的問題:這個發現在現實世界中真的有意義嗎? 這種迷思在現在的大數據時代尤其需要警惕,因為我們很容易獲得統計顯著但實際無意義的結果。我們以下就來破除這個「P 值越小越好」的迷思。
個人工商時間:歡迎訂閱我的每週電子報,我將會分享資料科學跟 AI 工具,也寫下我正在看什麼、學什麼,想到什麼就寫,讓我們透過 Email 聊聊吧!
正確解讀:P 值到底在告訴我們什麼?#
P 值的正確定義是:
在虛無假設為真的前提下,觀察到目前這樣極端(或更極端)結果的機率。
換句話說,P 值 = 0.01 的意思是:「假如真的沒有差異存在,那麼我們看到這麼明顯差異的機率只有 1%」,這確實提供了反對虛無假設的強力證據。
舉例來說,假設你想知道台北和高雄的手搖飲價格是否有差異,收集了兩地各 100 家店的資料後發現台北平均貴 5 元,P 值 = 0.02。這個 P 值告訴我們:如果兩地價格實際上沒有差異,我們觀察到這種程度差異(或更大差異)的機率只有 2%。
較小的 P 值確實代表:
- 在虛無假設為真的情況下,觀察到這種結果(現有資料)的可能性很低
- 有更強的證據反對「沒有差異」這個假設
- 降低了 型一錯誤(Type I Error)的風險,也就是「實際上沒效果、卻誤判有效果」的風險
然而,統計顯著 ≠ 效果很重要,這是關鍵的概念區別,顯著只代表我們相信差異真的存在、不代表這個差異大到很重要。即使我們很確定台北手搖飲確實比較貴,5 元的差異對消費者來說可能根本不重要。
(你知道這只是假設情境,對吧?要是真的有 5 元差異,每週喝珍奶的我,會很有感)
順帶一提另一個重要觀念:P 值會受到樣本數影響。樣本數越大,即使很小的實際差異也可能產生很小的 P 值。這就是為什麼在大數據分析中,我們經常看到統計顯著但實際無意義的結果。
你以為 P 值越小越好?其實你在問效果大小 Effect Size#
我們接續到這個重要的觀念:極小的 P 值並不等於效果很大。
剛剛手搖飲的 5 元差距大不大可能有些爭議,我們換個想像情境:某個網站改版後,頁面載入時間平均慢了 2 毫秒。如果樣本數夠大(例如百萬筆資料),這個微小差異可能產生非常小的 P 值(小於 0.0000001),在統計上「高度顯著」。但對用戶體驗來說,2 毫秒的差異根本感覺不到,實際意義微乎其微。
這就是為什麼我們需要關注的是這些關鍵字才對:
Effect Size(效果量):實際觀察到的差異大小,這才是告訴我們「改變有多大」的指標。常見的效果量指標是 Cohen’s d。比如剛才手搖飲的例子,5 元的價差再除以標準差就是一個直觀的效果量。
Practical Significance(實務顯著性或實用顯著性):表示數據差異在現實應用場景中是否重要。需要根據具體情境、成本效益來判斷。對於月收入 5 萬的上班族,5 元的手搖飲價差可能無關緊要;但對於每天要買手搖飲的學生來說,一個月就差了 150 元,可能就有實際意義。
(延伸閱讀:資料科學家的薪水每月有 5 萬元嗎?從 這裡 查得到!)
Minimum Detectable Effect(MDE、最小可檢測效應):實驗設計時預設的「最小有意義差異」,是 A/B 測試 必備參數。如果觀察到的效果比這個還小,即使統計顯著也可能不值得採取行動。
在商業環境中,這些效果大小的概念特別重要。比如電商網站的轉換率提升 0.1%,在統計上可能非常顯著,但如果實施成本很高,這個微小提升可能不值得投資。
信賴區間:比 P 值更豐富的資訊#
除了效果量,信賴區間(Confidence Interval) 也是很值得跟 P 值一起參考的統計指標。信賴區間除了看得出來是否顯著、也告訴我們效果量的可能範圍,提供更完整的數據樣貌。
回到手搖飲價格的例子,如果台北與高雄手搖飲價差的 95% 信賴區間是 [7, 9]
,這表示 7 到 9 元這個範圍很可能包含真實價差,此區間沒包含 0、判讀為顯著,而且此區間離 0 很遠、表示效果量很大、價差很大。此資訊比單純的 p < 0.05
更有價值,因為它告訴我們效果的大小和不確定性。
相較之下,如果價差的信賴區間是 [1.3, 1.8]
,雖然統計顯著(區間不包含 0),但差異很小且範圍很窄;如果是 [-1, 15]
,雖然可能不顯著(區間包含 0),但上界顯示可能存在重要的實用差異,值得進一步研究。
小結#
我們學統計學的核心目標不僅僅是想方設法獲得顯著的 P 值,而是幫助我們在不確定性中做出更好的決策。P 值是統計推論的重要工具,但它只是分析過程的其中一塊拼圖。透過同時參考效果量與信賴區間,學會平衡統計顯著性與實務意義,才能拼出全貌、做出更明智的決策。
參考閱讀:
- 《資料科學的商業應用》
- 《資料科學家的實用統計學》(用 R 與 Python 實作統計學觀念的工具書)