虛無假設顯著性檢定(null hypothesis significance testing)或簡單稱為假設檢定(hypothesis testing),是一種運用統計模型來檢驗研究問題的方式,也是用來測試研究人員操縱的變項(也就是自變項)是否具有效果的統計推論方法,可說是統計分析中最關鍵也相當繁複的一個過程。
假設檢定結合了兩個不同的概念,分別由不同的學者提出。第一個概念為Ronald Fisher(1925)的機率計算和評估,他主張在自變項沒有任何影響的假設前提下,計算出研究所觀察到的結果之機率(值),並在整體研究背景和目的下評估該機率值。第二個概念則來自於Jerzy Neyman和Egon Pearson(1933)的相互對立之研究假設,他們強調研究假設應被劃分為可接受檢驗的對立假設(alternative hypothesis)和虛無假設(null hypothesis)。
雖然Fisher、Neyman和Pearson對彼此的論點抱持相當不同的見解,但至今實行的假設檢定過程仍舊融合雙方的看法,也被視為傳統的假設檢定的方法。本篇文章將介紹這一沿用至今的假設檢定過程,並舉個例子說明,最後再針對範例示範SPSS的操作。
假設檢定的步驟
假設檢定是設計用來檢驗研究人員對研究現象所做的預測是否為真實的一套方法,雖然過程頗為繁複,但簡單地說可分為下列幾個步驟:
- 提出研究假設。
- 設定顯著水準。
- 選擇合適的統計檢定方法。
- 計算檢定統計量和關聯的機率。
- 運用決策規則來評估研究結果。
上述的步驟雖然將假設檢定的過程稍微簡化,但邏輯上大多數統計檢定(statistical test)方法的假設檢定過程皆不脫離這些步驟,因此可廣泛地適用。在第3個統計檢定方法的選擇和第4個檢定統計量的計算之間應該還有個研究資料蒐集的步驟,不過資料蒐集屬於研究方法的內容,這裡就省略不討論了。下面將逐一說明這5個步驟。
1. 提出研究假設
研究假設(research hypothesis)可分為對立假設和虛無假設,這也是Neyman和Pearson提出的論點。對立假設用來主張兩個變項間有關聯性或自變項具有效果,通常用符號來表示;虛無假設剛好相反,主張兩個變項之間沒有關聯性或自變項不具有效果,符號為。
研究假設還可區分為無方向性(non-directional)和有方向性(directional)的假設,無方向性的假設不會指出關聯或效果的方向,然而有方向性的假設則須明確地闡述關聯或效果的方向。若對立假設()明確地指出關聯或效果的方向,虛無假設()則須表示關聯或效果不存在或相反於對立假設所闡述的方向。
對立假設和虛無假設彼此互斥且周延(mutually exclusive and exhaustive),代表除了這兩個假設以外,不會有其他的假設存在,而且僅有一個假設能夠解釋最後的研究結果。更多關於研究假設的說明和闡述的方式,請參考研究假設的種類和寫法。
2. 設定顯著水準
擬定完研究假設後,須設定一個顯著水準(significance level)。這個顯著水準是由研究人員所決定,用來和步驟4的資料適配統計模型後計算得到的機率(值)相比較的一個機率值,也稱為α水準(alpha level),通常為0.05或0.01,也有人使用更為嚴苛的0.001。
由於沒有研究人員能夠保證自己的研究結果百分之百的正確,所以顯著水準也可被視為研究人員願意接受第一類型錯誤的機率,也就是承擔拒絕一個真實的虛無假設的機率。換句話說,若將顯著水準設為0.05,代表在只有機會的影響之下,如果值在100次當中等於或小於5次,研究人員才願意拒絕虛無假設並接受對立假設。
顯著水準的選擇並沒有黃金準則,數值愈小代表愈嚴苛的顯著水準,也變得愈不容易拒絕虛無假設,雖然因此降低第一類型錯誤的機率,卻增加了第二類型錯誤的機率,也就是保留一個錯誤的虛無假設。關於第一類型錯誤和第二類型錯誤的詳細說明和兩者之間的關係,請參考第一和第二類型錯誤的意義和關聯。
若一個研究為探索(exploratory)性質,目的在於初步探索一個議題,以便決定之後是否進行更深入的探討,可選擇較寬鬆的顯著水準。反之,若一個研究為解釋(explanatory)性質,目的在於針對一個已知的問題建立因果關係並推論至其他群體上,因為錯誤的研究結果可能造成嚴重的後果,所以嚴苛的顯著水準較合適。更詳細的顯著水準的介紹,可參考顯著水準和決策規則。
3. 選擇合適的統計檢定方式
闡述完研究假設和設定好顯著水準後,須選擇合適的統計檢定方法。統計檢定方法有很多種,依據研究設計、研究問題、資料分布狀態、變項的測量尺度而有所不同。一般而言,統計檢定可分為母數檢定(parametric test)和無母數檢定(non-parametric test)。若資料呈現常態分配,母數檢定為合適的統計檢定方法;若資料沒有呈現常態分配,無母數檢定則較為合適。下表為幾種較常見的統計檢定方法:
除了上表列出的較常見且較基礎的統計檢定方法外,還有多種進階的統計檢定方法,而且新的統計檢定也不斷地被發展中。研究人員通常會視研究問題、研究假設、變項的編碼方式和測量尺度等,選擇合適的統計檢定方法後,再蒐集資料並進行分析。
4. 計算檢定統計量和關聯的機率
選擇好合適的統計檢定方法後,便可開始樣本抽取和資料蒐集。資料蒐集完成且整理後,在虛無假設為真實的假設前提下,依據已經選擇的統計檢定方法,對資料進行統計模型適配,計算出檢定統計量(test statistics)。
檢定統計量用來測量樣本資料和虛無假設為真實時之間的契合程度,雖然不同的統計檢定方法有各自的檢定統計量計算方式,但概念上而言,其為適配模型可解釋的變異對模型無法解釋的變異之比率,也就是自變項的效果(effect)對誤差(error)的比率:
當檢定統計量愈大或愈小時(方向視對立假設而定),代表虛無假設愈不可能為真實,由於這樣的結果不太可能因為機遇而產生,所以發生的機率(值)相對地小。將這個機率與上述步驟2中設定好的顯著水準相比較,即可評估拒絕或保留虛無假設。
在虛無假設為真實的前提下,每一種檢定統計量都有各自的抽樣分配,因此可計算出獲得某特定檢定統計量的機率。常見的統計檢定方法、所屬的抽樣分配和檢定統計量如下表:
統計檢定 | 抽樣分配 | 檢定統計量 |
---|---|---|
z檢定 | 常態分配 | z 統計量 |
t檢定 | t分配 | t統計量 |
變異數分析 | F分配 | F統計量 |
卡方檢定 | 卡方分配 | 卡方統計量 |
不過,由於多數的檢定統計量和獲得特定檢定統計量機率的計算過程相當複雜,若再加上較龐大的樣本總數,更增加計算上的困難,所以這個運算過程多透過統計軟體達成,例如SPSS、SAS或STATA。關於更詳細的檢定統計量的說明,請參考檢定統計量的意義。
5. 運用決策規則來評估研究結果
透過上述的步驟4計算得到檢定統計量和獲得特定檢定統計量的機率後,須再依據決策規則,評估拒絕或保留虛無假設。決策規則的行使有兩種方式,一種是值和α水準的比較,另一種則是檢定統計量和臨界值的比較,以下分別介紹。
方法1:比較p值和α水準
第一種方法是機率的比較,是獲得某特定檢定統計量的機率(值)和顯著水準(α水準)的比較。若檢定統計量很大或很小,代表研究的結果不太可能因為機遇而造成,所以相對地獲得這種結果的機率較低。若該機率等於或低於原先設定的顯著水準,即可拒絕虛無假設,接受對立假設;若該機率大於顯著水準,則保留虛無假設。因此,機率比較的決策規則如下:
- 若,拒絕虛無假設。
- 若,保留虛無假設。
方法2:比較檢定統計量和臨界值
第二種方法是數值的比較,是統計檢定的檢定統計量和臨界值(critical value)兩個數值的比較。臨界值是指可以拒絕虛無假設的臨界區域(critical region)之邊界值,這個臨界區域的大小由顯著水準所決定。
舉例來說,使用常態分配的z檢定在顯著水準為0.05、雙尾檢定的情況下,臨界區域會均分在分配的兩側尾端,所以每一側落在常態曲線下的面積為0.025。藉由查詢標準常態分配表,可知臨界值為。
更進一步來看,同樣是z檢定、顯著水準為0.05,但改為單尾檢定的情況下,若對立假設的方向為分配的右側(也就是臨界區域落在分配的右側尾端),則落在常態曲線下右側尾端的面積為0.05。查詢標準常態分配表,可發現臨界值為1.645。
反過來看,若對立假設的方向為分配的左側(也就是臨界區域落在分配的左側尾端),那麼落在常態曲線下左側尾端的面積為0.05,臨界值為-1.645。關於雙尾和單尾檢定的說明,可參考「顯著水準和決策規則」裡雙尾和單尾檢定。
不論是雙尾或單尾檢定,只要檢定統計量落在臨界區域裡,即可拒絕虛無假設,接受對立假設。從上面的例子可以發現,檢定統計量和臨界值比較的決策規則如下:
當研究人員拒絕虛無假設,接受對立假設時,此種研究結果稱為「顯著」(significant)。相反地,若研究人員無法拒絕虛無假設,也就是保留虛無假設時,研究結果則稱為「不顯著」(non-significant)。
一般來說,若是紙筆運算,先利用數學公式計算出所選擇的統計檢定方法的檢定統計量後,再查詢統計檢定臨界值表去找到臨界值時,通常會透過檢定統計量和臨界值比較的方法來評估研究結果。然而,若利用統計分析軟體進行分析,因為軟體會直接輸出獲得某特定檢定統計量的機率,所以通常會藉由值和α水準的比較來評估研究結果。
上面的說明即為假設檢定的步驟和各個步驟的相關內容,雖然內容涵蓋許多艱澀的概念,但可簡單地用下圖呈現:
假設檢定是推論統計的核心內容,也是研究過程中不可或缺的一部分,因此熟習該過程的操作便顯得很重要。以下將舉一個例子,示範假設檢定的實際操作過程。
假設檢定的範例:皮爾森積差相關係數
假設有位高中英文教師Alex想知道學生的英文期中考成績和期末考成績之間是否有顯著的關聯性,因此想做一個簡單的研究。由於Alex不確定學生的期中考和期末考成績的關聯方向,所以決定使用沒有方向性的研究假設,對立假設和虛無假設分別如下:
- 對立假設():學生的英文期中考成績和期末考成績有關聯。
- 虛無假設():學生的英文期中考成績和期末考成績沒有關聯。
Alex此次只想進行初步的探索,視研究結果再決定是否進行更廣泛的資料蒐集和深入的分析,因此採用較寬鬆的0.05顯著水準,可用符號來表示。此外,因為考試成績為比率尺度,且要測量兩次成績之間的關聯性,所以Alex選擇皮爾森積差相關係數的統計檢定方法。
她從任職的學校中隨機抽取出10位學生,並記錄他們在前一學期的英文期中考(MIDTERM)和期末考成績(FINAL),如下表所示。(這裡為了方便示範計算過程,所以只使用10筆資料,並假設資料呈現常態分配。)
首先,為了瞭解期中考和期末考成績之間的關聯方向和程度,須先計算出皮爾森積差相關係數。讓指X變項所有數值的總和、指Y變項所有數值的總和、指X變項和Y變項數值的交叉乘積和、為樣本總個數,皮爾森積差相關係數的公式如下:
(1)
若期中考成績為X變項,期末考成績為Y變項,套用公式(1)前可先在如下的表格裡計算出皮爾森積差相關係數公式所需要的數值:
再將上表中的、、、、等數值帶入皮爾森積差相關係數的公式(1)中,計算過程如下:
計算結果顯示英文期中考和期末考成績間的相關係數為0.617,因為相關係數為正數,代表兩者之間為正向的關係,而數值0.617也指出兩者間的關聯程度很高。
若您不熟悉總和運算的方法,可參考社會統計常用的基本數學符號和運算。另外,關於皮爾森積差相關係數的意義,請參考何謂皮爾森積差相關係數,而詳細的皮爾森積差相關係數之計算方法,可另參考如何計算皮爾森積差相關係數。
接著,為了進一步探討英文期中考和期末考成績間的關聯是否真實地存在,而不是因為機遇的關係,須進行顯著性檢定。皮爾森積差相關係數的顯著性檢定可用t檢定來評估,檢定統計量的公式如下:
(2)
將上面已經計算出來的皮爾森積差相關係數0.617帶入上面的公式(2)中,t檢定統計量的計算過程如下:
計算結果指出,t檢定統計量為2.218。接著,查詢t分配表,在雙尾檢定、顯著水準為0.05、自由度為時,t的臨界值為。
比較t檢定統計量和臨界值,因為,所以保留虛無假設。Alex的研究結果顯示,這所高中裡學生的英文期中考成績和期末考成績之間沒有關聯。
運用SPSS評估研究結果
假設檢定的過程中,須計算出檢定統計量和獲得該統計量的機率(上述的步驟4),考量到時而龐大的樣本總數和複雜的公式,通常不會使用紙筆運算,而會利用SPSS、SAS或STATA等統計軟體進行運算。
基本上,統計軟體的運算結果會顯示獲得特定檢定統計量的機率,而非臨界值,因此研究人員會以機率和顯著水準的比較作為決策規則,判斷是否拒絕虛無假設。以下將利用SPSS,示範皮爾森積差相關係數的計算和顯著性檢定的過程。
首先,將上面範例中的10筆資料輸入至SPSS的資料編輯器中,變項ID為學生的代號,變項MIDTERM指學生的英文期中考成績,變項FINAL則是期末考成績。關於SPSS的資料輸入方法,請參考SPSS操作環境和資料輸入。
資料輸入完成後,在SPSS資料編輯器的頁面,點選功能表的分析 » 相關 » 雙變異數,帶出「雙變量相關性」視窗。
在「雙變量相關性」視窗中,將MIDTERM和FINAL兩個變項從左邊的變項清單方框中移至右邊的變數(V)方框中。相關係數長框裡勾選Pearson,顯著性檢定長框裡點選雙尾(T),也勾選標示顯著相關性(F)的選項。完成後,點選視窗最下方的確定。
經過上面的步驟後,SPSS會輸出如下的相關性表格。從下表可看出,不論是看MIDTERM欄或FINAL欄都可以,學生的英文期中考成績MIDTERM和期末考成績FINAL的皮爾森積差相關係數為0.617,而獲得這種關聯程度的機率為0.057,也就是值。
為了評估期中考和期末考成績間的關聯是否真實地存在於母群體中,可比較值和資料蒐集前已設定的顯著水準0.05。因為,所以保留拒絕虛無假設。SPSS的分析結果指出,這所高中裡學生的英文期中考成績和期末考成績之間沒有關聯。
從上面的內容可以知道,不論是透過紙筆計算而求得的檢定統計量和臨界值的數值比較方式,或藉由統計分析軟體的值和顯著水準(α水準)的機率比較方式,皆得到相同的研究結果。
假設檢定的過程是推論統計的核心內容,因此瞭解和熟悉這過程變得相當重要。雖然這裡是以皮爾森積差相關係數的顯著性檢定為例子,但文章中所提及的步驟可以適用到所有統計檢定方法的假設檢定。關於其他統計檢定方法的假設檢定,將會在本網站的其他文章中做介紹。
以上為本篇文章對於假設檢定步驟的介紹,希望透過本篇文章,您瞭解了統計檢定方法的假設檢定過程,也學會了利用SPSS評估顯著性檢定的方法。
若您喜歡本篇文章,請將本網站加入書籤,作為您的學習資源,並持續回訪本網站喔!另外,您也可以在Facebook和Twitter上找到我們喲!
參考資料
Fisher, R. A. (1925). Statistical methods for research workers. Edinburgh: Oliver & Boyd.
Neyman, J., & Peterson, E. S. (1933). On the problem of the most efficient tests of statistical hypotheses. Philosophical Transactions of the Royal Society of London, Series A, 231, 289-337. https://doi.org/10.1098/rsta.1933.0009