你是否有看過,某些研究明明展現創新的結果,這些專家的發現後來仍可能被推翻?或者某些疫苗或藥品一開始在實驗中呈現_有顯著性_的結果,之後卻仍被證明不是真的有效?這些「虛驚一場」的發現,都來自統計學家口中的型一錯誤與型二錯誤(Type I Error & Type II Error)。就連心理學研究大作《快思慢想》引用的研究曾犯過型一與型二錯誤!
如果你正在研讀統計學,卻一直無法搞懂 P 值、顯著水準(α
)、或檢定力(1 - β
)的意義,型一與型二錯誤正是這些統計名詞背後共通的重要觀念,非了解不可。這篇文章將用圖示讓你輕鬆理解型一與型二錯誤的意義,並介紹為什麼數據分析這麼在乎這些錯誤、以及如何避免。
個人工商時間:歡迎訂閱我的每週電子報,我將會分享資料科學跟 AI 工具,也寫下我正在看什麼、學什麼,想到什麼就寫,讓我們透過 Email 聊聊吧!
型一與型二錯誤白話介紹#
型一錯誤與型二錯誤(Type I Error & Type II Error)表示統計學假說檢定中的兩種錯誤
介紹這些錯誤之前,必須先釐清虛無假設與對立假設的意思。根據 維基百科,虛無假設是希望能證明為錯誤的假設,而對立假設則是跟虛無假設完全相反敘述的假設,在大多數的研究場景可以這樣理解:
- 虛無假設(H0)代表「沒有效果」、「沒有差異」、或者「數據與現狀相同、沒有特色」的論述
- 新發明的長高藥,對身高沒有影響
- 而對立假設(Ha 或 H1)是與虛無假設完全相反的論述,通常代表「數據具有某種特色」
- 新發明的長高藥,會影響人類身高
正因為對立假設與虛無假設完全相反,虛無假設與對立假設一定有其中一方,符合現實世界的真相,基於這點,我們就能輕鬆了解型一與型二錯誤:
- 如果真相是「虛無假設是對的」,實際上數據沒有特色,我們卻判斷數據具有特色,這就犯了型一錯誤
- 如果真相是「虛無假設是錯的」,實際上數據具有特色,我們卻判斷數據沒有特色,這則是型二錯誤
現在,筆者好豪用一個圖示案例來幫你一目了然學會這兩種錯誤,假設箱子裡面有超多顆球,有藍色跟橘色兩種顏色,我想知道是否某種顏色的球特別多:
- 虛無假設:藍色跟橘色球一樣多(沒有特色)
- 對立假設:其中一種顏色的球特別多(有特色)
要理解這個箱子裡面兩種球顏色分佈,我的研究方法很簡單:伸手撈撈看!
第一種情況,如果真相是「虛無假設是對的」:
想像你已經事先知道箱子裡面的藍色與橘色球完全是一樣多的,也就是已經事先知道虛無假設成立、顏色分佈沒有差異,你能保證每次伸手去箱子裡面撈個 10 顆球,一定會很平均地撈出 5 顆藍色加上 5 顆橘色球嗎?不見得!即使機率不高,隨手撈還是有可能撈出藍色球遠遠多於橘色球的情形(如上方圖示)。
在做數據分析的時候,我們只有手上的樣本(撈出的少數幾顆球),無從得知真相(箱子實際上有哪些球),如果我們看到手上的樣本有某種特色,就結論此特色存在,然而實際真相卻是「無特色」,這就犯了型一錯誤。
型一錯誤也被稱為偽陽性錯誤,「陽性」表示我們得出「有特色」這項結論,「偽」則表示我們得出的結論不正確。
接著,我們再來看相反情況,如果真相是「虛無假設是錯的」:
就算事先可以精確知道箱子裡面的藍色與橘色球的比例逼近2:1,抽樣結果當然也不保證每次都是藍色球比橘色球多,伸手撈出恰好藍色球與橘色球數量完全相同也是有可能的(如上方圖示)。
如果看著手上撈出的幾顆球,讓你判斷「看來箱子裡的藍色與橘色一樣多」,表示箱子裡的球明明有顏色分佈不均的特色、卻沒被你發現,這就是型二錯誤。
型二錯誤也被稱為偽陰性錯誤,「陰性」表示我們得出「不具有特色」這項結論,「偽」表示結論錯誤。
型一與型二錯誤為何重要#
從上個小節的介紹可以知道,型一與型二錯誤不是只存在統計課本裡的學術名詞,這些「明明事實是A,我們卻誤以為是B」的錯誤,可能發生在我們生活中涉及決策的任何時候:
場景 | 虛無假設 | 型一錯誤 | 型二錯誤 |
---|---|---|---|
法院判決 | 嫌疑人無罪 | 實際上無罪,判決成有罪 | 實際上有罪,判決成無罪 |
癌症檢測 | 檢測對象沒有癌症 | 實際上沒有癌症,卻檢測出癌症 | 實際上罹患有癌症,卻沒有檢測出癌症 |
公司招募員工 | 應徵者不值得聘用 | 實際上表現不佳的應徵者,卻決定聘用 | 實際上表現優異的應徵者,卻決定不錄取 |
這些決策錯誤看起來難以完全避免,但認知並控制型一與型二錯誤的存在仍是非常重要的:
- 幫助理解研究成果的可靠程度:型一錯誤過高的分析報告表示其結果不可信,而型二錯誤過高的分析則讓人覺得沒什麼用處
- 影響決策:型一錯誤會讓我們做出浪費時間跟成本的無謂改變,型二錯誤則會害我們來不及及時應對
- 例如癌症檢測的型一錯誤會讓人虛驚一場,型二錯誤則讓真正的病人錯過了就醫的黃金時刻
- 控制這些錯誤的必要性:有許多研究正專注於減少型一與型二錯誤
- 例如 A/B 測試學者研究如何 降低資料變異數 來減低型二錯誤
(延伸閱讀:用 Python 程式呈現 A/B 測試中的型一與型二錯誤)
即使是經驗無比豐富的心理學研究者與諾貝爾經濟學獎得主 丹尼爾·康納曼 都免不了會犯這類型的偏誤。康納曼的熱門著作《快思慢想》中,曾被其他研究者指謫其特定章節引用研究的型二錯誤過高、讀者不該過度參考,而康納曼本人也承認這些錯誤,而再次強調控制型二錯誤的必要:
「我曾過度信任型二錯誤可能過高的研究成果了」
(“I placed too much faith in underpowered studies”)
如何避免型一與型二錯誤#
認識型一與型二錯誤的意義還有重要性後,我們更需要知道怎麼避免它們發生,這就是統計學發揮威力的時刻了!以下筆者好豪將介紹幾種方法:
統計學用兩個重要參數來表達這些錯誤:
- 型一錯誤:alpha(
α
),表示偽陽性錯誤的機率 - 型二錯誤:beta(
β
),表示偽陰性錯誤的機率
α
就是統計學不得不知的顯著水準(Significance Level),經常設定為 0.05,既然知道 α
就是型一錯誤、前面也學過型一錯誤的意義之後,相信你現在已經會解讀:0.05 代表「實際上虛無假設成立,我們仍有 5% 的機率在數據看到顯著的測試結果」。
β
本身是犯下型二錯誤的機率,統計分析則更通常用 1 - β
來表示檢定力(Statistical Power),也就是不犯下型二錯誤的「正確率」。
α
與 β
視覺化(來源:Nature)
控制顯著水準與檢定力是常見的避免型一與型二錯誤方法。假設你想要盡力避免型一錯誤,可以把顯著水準從常用的 0.05 改成 0.01,研究結果的型一錯誤率就會降低了。當然,這不是一個完美的做法,顯著水準與檢定力通常會互相消長,顯著水準降低代表我們更不傾向結論數據「有特色」、決策變得保守,而這同時也造成數據真的具有特色的時候,我們卻不敢做出「有特色」的結論(檢定力不足)。因此,該如何選擇顯著水準與檢定力,取決於犯了型一與型二錯誤各自有哪些成本或後果。
(延伸閱讀:顯著水準與檢定力會如何影響 A/B 測試?)
對於型二錯誤,增加樣本數與降低資料變異數都是增加檢定力的方法。增加樣本數這個做法相當直覺,更多資料將幫助你減少雜訊、產生更可信的結果,比起找一些奇招或捷徑,耐心搜集更多樣本通常是增加檢定力更可靠的做法。而降低變異數則是需要快速且大量 A/B 測試 實驗者會採行的方向,可以透過指標選擇、或 CUPED 等進階方法來達成,在此先不說明太多,有興趣的讀者建議從 這篇文章 開始入門。
(來源:Nature)
最後,貝氏統計 也是能避免型一與型二錯誤的方法之一。如上面提到的顯著水準,當我們(頻率學派)使用「P 值小於 0.05」來當作顯著與否的標準,其目標就是把型一錯誤率控制在恰好 5%,不能更多、卻也不能再少,連增加樣本數也不能減少型一錯誤;相對的,貝氏統計則會隨著我們搜集更多資料、持續更新已知資訊,樣本數越多、就對資料更有信心,比起頻率學派的顯著水準做法更能持續降低型一錯誤。同樣地,礙於篇幅,這裡只介紹大方向,想進一步理解貝氏為何能避免型一錯誤可以參考 這篇文章,而關於貝氏統計的入門介紹也推薦看 這一篇。
結語#
型一與型二錯誤是基於不同假設而可能產生的兩種錯誤率,這兩項錯誤通常會互相消長,因此透過監控顯著水準與檢定力,找到兩種錯誤率的平衡非常重要。我們希望分析足夠嚴謹,而不過分保守、導致不敢做出任何不同於現況的結論;我們也希望分析有夠大的檢定力以看出資料的特色,卻也不希望只是看見黑影就開槍。
本文也介紹了控制顯著水準、增加樣本數、還有貝氏統計等方法來減少型一與型二錯誤,但統計分析終究無法完美避免這些錯誤,我們形塑結論的過程依舊仰賴與決策者溝通,型一與型二錯誤是用來溝通分析潛在風險的好工具,幫助我們在犯錯前有機會多想一想:這個分析結果是否真的可信?有沒有可能是型一或型二錯誤?
參考資料:
- YouTube - jbstatistics
- 高雄科技大學 - 假設檢定講義
- 《資料科學家的實用統計學》:用 Python 進行統計檢定
最後,以下這幾篇文章都與型一與型二錯誤(顯著水準與檢定力)息息相關,推薦想增加統計功力的你繼續閱讀:
- 型一錯誤跟 P 值有什麼關係?這篇文章親手算給你看
- 偷看 A/B Testing 會大大增加型一錯誤!
- A/A Test:在商業實驗中密切監控型一與型二錯誤
- 顯著水準 0.05 隨之而來的信賴區間 95%,到底是什麼意思?
如果這篇文章有幫助到你,歡迎追蹤好豪的 Facebook 粉絲專頁、Instagram 與 Threads 帳號,我會持續分享資料科學以及 統計學的學習心得;也可以點選下方按鈕,分享給熱愛數據分析的朋友們。