P 值越小越好？破除新手誤解：你需要信賴區間與效果量

常見迷思：P 值越小 = 結果越厲害？

剛接觸統計學的同學肯定聽過「P 值要小於 0.05 才算顯著」這個說法。久而久之，很容易產生一個直覺：P 值越小，結果就越好、越重要。

這種想法看似合理，但其實隱藏著不少問題。你覺得 P 值 = 0.001 比 P 值 = 0.01 「厲害 10 倍」，這種想法正確嗎？

在學術界和業界，這種讓 P 值「過譽」的現象相當普遍。許多研究報告會強調獲得了p-value < 0.001 的結果，彷彿這就是研究品質的保證；有些統計軟體還會用星號標示不同程度的顯著性（* p < 0.05, ** p < 0.01, *** p < 0.001），無形中建立了「星號越多越好」的印象。

更危險的是，單純追求極小的 P 值可能讓我們忽略真正重要的問題：這個發現在現實世界中真的有意義嗎？ 這種迷思在現在的大數據時代尤其需要警惕，因為我們很容易獲得統計顯著但實際無意義的結果。我們以下就來破除這個「P 值越小越好」的迷思。

個人工商時間：歡迎訂閱我的每週電子報，我將會分享資料科學跟 AI 工具，也寫下我正在看什麼、學什麼，想到什麼就寫，讓我們透過 Email 聊聊吧！

正確解讀：P 值到底在告訴我們什麼？
#

P 值的正確定義是：
在虛無假設為真的前提下，觀察到目前這樣極端（或更極端）結果的機率。

換句話說，P 值 = 0.01 的意思是：「假如真的沒有差異存在，那麼我們看到這麼明顯差異的機率只有 1%」，這確實提供了反對虛無假設的強力證據。

舉例來說，假設你想知道台北和高雄的手搖飲價格是否有差異，收集了兩地各 100 家店的資料後發現台北平均貴 5 元，P 值 = 0.02。這個 P 值告訴我們：如果兩地價格實際上沒有差異，我們觀察到這種程度差異（或更大差異）的機率只有 2%。

較小的 P 值確實代表：

在虛無假設為真的情況下，觀察到這種結果（現有資料）的可能性很低
有更強的證據反對「沒有差異」這個假設
降低了型一錯誤（Type I Error）的風險，也就是「實際上沒效果、卻誤判有效果」的風險

然而，統計顯著 ≠ 效果很重要，這是關鍵的概念區別，顯著只代表我們相信差異真的存在、不代表這個差異大到很重要。即使我們很確定台北手搖飲確實比較貴，5 元的差異對消費者來說可能根本不重要。

（你知道這只是假設情境，對吧？要是真的有 5 元差異，每週喝珍奶的我，會很有感）

順帶一提另一個重要觀念：P 值會受到樣本數影響。樣本數越大，即使很小的實際差異也可能產生很小的 P 值。這就是為什麼在大數據分析中，我們經常看到統計顯著但實際無意義的結果。

你以為 P 值越小越好？其實你在問效果大小 Effect Size
#

我們接續到這個重要的觀念：極小的 P 值並不等於效果很大。

剛剛手搖飲的 5 元差距大不大可能有些爭議，我們換個想像情境：某個網站改版後，頁面載入時間平均慢了 2 毫秒。如果樣本數夠大（例如百萬筆資料），這個微小差異可能產生非常小的 P 值（小於 0.0000001），在統計上「高度顯著」。但對用戶體驗來說，2 毫秒的差異根本感覺不到，實際意義微乎其微。

這就是為什麼我們需要關注的是這些關鍵字才對：

Effect Size（效果量）：實際觀察到的差異大小，這才是告訴我們「改變有多大」的指標。常見的效果量指標是 Cohen’s d。比如剛才手搖飲的例子，5 元的價差再除以標準差就是一個直觀的效果量。

Practical Significance（實務顯著性或實用顯著性）：表示數據差異在現實應用場景中是否重要。需要根據具體情境、成本效益來判斷。對於月收入 5 萬的上班族，5 元的手搖飲價差可能無關緊要；但對於每天要買手搖飲的學生來說，一個月就差了 150 元，可能就有實際意義。

（延伸閱讀：資料科學家的薪水每月有 5 萬元嗎？從這裡查得到！）

Minimum Detectable Effect（MDE、最小可檢測效應）：實驗設計時預設的「最小有意義差異」，是 A/B 測試必備參數。如果觀察到的效果比這個還小，即使統計顯著也可能不值得採取行動。

在商業環境中，這些效果大小的概念特別重要。比如電商網站的轉換率提升 0.1%，在統計上可能非常顯著，但如果實施成本很高，這個微小提升可能不值得投資。

信賴區間：比 P 值更豐富的資訊
#

除了效果量，信賴區間（Confidence Interval） 也是很值得跟 P 值一起參考的統計指標。信賴區間除了看得出來是否顯著、也告訴我們效果量的可能範圍，提供更完整的數據樣貌。

回到手搖飲價格的例子，如果台北與高雄手搖飲價差的 95% 信賴區間是 [7, 9]，這表示 7 到 9 元這個範圍很可能包含真實價差，此區間沒包含 0、判讀為顯著，而且此區間離 0 很遠、表示效果量很大、價差很大。此資訊比單純的 p < 0.05 更有價值，因為它告訴我們效果的大小和不確定性。

相較之下，如果價差的信賴區間是 [1.3, 1.8]，雖然統計顯著（區間不包含 0），但差異很小且範圍很窄；如果是 [-1, 15]，雖然可能不顯著（區間包含 0），但上界顯示可能存在重要的實用差異，值得進一步研究。

結語
#

我們學統計學的核心目標不僅僅是想方設法獲得顯著的 P 值，而是幫助我們在不確定性中做出更好的決策。P 值是統計推論的重要工具，但它只是分析過程的其中一塊拼圖。透過同時參考效果量與信賴區間，學會平衡統計顯著性與實務意義，才能拼出全貌、做出更明智的決策。

參考閱讀：

《資料科學的商業應用》
《資料科學家的實用統計學》（用 R 與 Python 實作統計學觀念的工具書）

正確解讀：P 值到底在告訴我們什麼？#

你以為 P 值越小越好？其實你在問效果大小 Effect Size#

信賴區間：比 P 值更豐富的資訊#

結語#

正確解讀：P 值到底在告訴我們什麼？
#

你以為 P 值越小越好？其實你在問效果大小 Effect Size
#

信賴區間：比 P 值更豐富的資訊
#

結語
#