Kruskal-Wallis檢定的假設檢定

Kruskal-Wallis檢定（Kruskal-Wallis test）是用來探討3個或3個以上的獨立群組是否有所不同，且變項資料至少為次序尺度的一種無母數檢定，而Kruskal-Wallis檢定的假設檢定即在檢驗3個或3個以上的獨立群組或樣本是否來自於完全相似的母群體之虛無假設。

Kruskal-Wallis檢定可視為獨立群組的單因子變異數分析（以下直接稱「單因子變異數分析」）的替代檢定方法，用在單因子變異數分析的基本假設受到嚴重違反的時候，所以也稱為Kruskal-Wallis單因子變異數分析（Kruskal-Wallis one-way analysis of variance），有些中文教材將其翻譯為克-瓦單因子變異數分析。

本篇文章將先介紹Kruskal-Wallis檢定的使用時機，再舉例子說明這個檢定的假設檢定過程，最後示範利用SPSS執行Kruskal-Wallis檢定的操作方法。由於文章內容牽涉假設檢定的過程，若您不清楚或不熟悉假設檢定的意義和步驟，建議您先閱讀假設檢定的步驟和範例，將有助於以下內容的理解喔。

Kruskal-Wallis檢定的使用時機
Kruskal-Wallis檢定的假設檢定
運用SPSS執行Kruskal-Wallis檢定

Kruskal-Wallis檢定的使用時機

Kruskal-Wallis檢定是一種無母數檢定，用來探討3個或3個以上的獨立群組或樣本是否有所不同，為母數檢定裡單因子變異數分析的替代檢定方法。Kruskal-Wallis檢定在檢驗所有的群組或樣本是否來自於完全相似的母群體，但無法指出哪些群組間如何地不同，所以屬於一種綜合檢定。

單因子變異數分析裡依變項的測量尺度須為等距或比率尺度，若變項資料為次序尺度，則單因子變異數分析已不合適，可改用Kruskal-Wallis檢定。換句話說，Kruskal-Wallis檢定適合用在測量尺度至少為次序尺度的變項資料上。

此外，由於單因子變異數分析為母數檢定，所以資料須滿足各個樣本來自的母群體為常態分配和母群體變異數皆相等（變異數同質性）的基本假設。如果這些假設受到嚴重違反的時候，例如樣本數目太小且各個群組的數目不相等和／或極為嚴重的變異數異質性，Kruskal-Wallis檢定會是個比單因子變異數分析更合適的統計檢定方法。

簡單來說，Kruskal-Wallis檢定適用在至少為次序尺度的依變項上，或單因子變異數分析的常態分配和／或變異數同質性基本假設受到嚴重違反的時候。不過，Kruskal-Wallis檢定畢竟是無母數檢定，統計檢定力較單因子變異數分析來得低，所以除非有這裡提到的情況，不然單因子變異數分析仍是個較好的選擇。

在假設檢定的過程中，Kruskal-Wallis檢定用來檢驗所有的群組或樣本來自於相同或極為相似的母群體之虛無假設，因為這檢定是無母數檢定，所以不會去推估母體參數，也不會有信賴區間。下面使用一例子來說明Kruskal-Wallis檢定的假設檢定過程，包括研究假設的擬定、檢定統計量的計算和檢定結果的評估。

Kruskal-Wallis檢定的假設檢定

有一位犯罪學家想要瞭解少年偏差行為者的居住環境和逃學之間的關係，她從偏差行為類型和次數相仿的少年偏差行為者裡抽取出18位，其中有6位住在原生家庭裡（origin）、6位住在寄養家庭裡（foster）、6位住在團體家屋裡（group home）。她向這些少年的學校尋問過去一個學期裡他們的未到校天數，資料如下表。她考量到各個群組的個數很少且沒有呈現常態分配，因此決定使用Kruskal-Wallis檢定來分析資料。若α水準設定為0.05，試問研究結果為何？

假設檢定的過程包含研究假設的擬定、顯著水準的選擇、檢定統計量的計算和決策規則的行使等步驟，下面將依序探討。

研究假設的擬定和顯著水準的選擇

這位犯罪學家想探討少年偏差行為者的居住環境和逃學間的關聯，自變項為不同類型的居住環境，依變項為未到校天數。和單因子變異數分析一樣，Kruskal-Wallis檢定為不具方向性的統計檢定方法，因此擬定研究假設時不會在對立假設裡寫出自變項效果的方向，只會指出自變項是否存在效果。這個研究的對立假設和虛無假設分別如下：

對立假設（ $H_1$ ）：少年偏差行為者的居住環境會影響逃學的天數，也就是說，至少有一種居住環境對逃學的影響會不同於另一種居住環境對逃學的影響。
虛無假設（ $H_0$ ）：少年偏差行為者的居住環境不會影響逃學的天數。

擬定完研究假設後，須依據研究的性質、目的和可能導致的後果，選擇適當的顯著水準或稱為α水準，習慣上為0.05或0.01。由於這個研究的目的在瞭解少年偏差行為者的居住環境是否和逃學行為有關聯，期望透過研究找出減少偏差行為的方法，偏向於一種探索性質的研究，所以選擇較為寬鬆的0.05顯著水準。

從數據資料來看，自變項有3個群組，每個群組僅有6位參與者，且資料很明顯地沒有呈現常態分配。在每一群組的個數很少且資料非常態的情況下，Kruskal-Wallis檢定會是個比單因子變異數分析更為合適的統計檢定方法。Kruskal-Wallis檢定使用 $H$ 檢定統計量，接下來說明 $H$ 檢定統計量的計算方法。

檢定統計量的計算

為了能夠評估虛無假設的真偽，須先計算出Kruskal-Wallis檢定的 $H$ 檢定統計量。首先，暫且忽略每位參與者所在的組別，將18位少年偏差行為者的未到校天數從小至大排序，未到校天數最少者給予等級1、第2少者給予等級2，以此類推，未到校天數最多者給予等級18。

如果未到校天數相同，則給予平均的等級。例如有2個人的未到校天數皆為7天，占據了第5名和第6名的位置，因此取這兩個等級的平均數， $(5+6) \div 2=5.5$ ，分別給予這兩個人等級5.5，下一個未到校天數8天則從等級7開始排序。排序完成後，每個人的等級會像下表的「rank」欄。

接著，將每一個群組裡的等級加總。若讓 $R_i$ 代表每個群組的等級總和，則原生家庭組的等級總和 $R_1$ 為55、寄養家庭組的等級總和 $R_2$ 為87、團體家屋組的等級總和 $R_3$ 為29。如果居住環境沒有影響的話，3個群組的等級總和會約略相等；但如果居住環境有影響的話，群組的等級總和之間應會存在相當程度的差異。

Kruskal-Wallis檢定的 $H$ 檢定統計量即是在測量群組的等級總和 $R_i$ 之間的差異程度， $H$ 值的計算公式如下：

(1) $\begin{equation*}H=\frac {12}{N(N+1)} \sum_{i=1}^k {\frac {R_i^2}{n_i}} - 3(N+1)\end{equation*}$

$\begin{equation*}\begin{CJK*}{UTF8}{bsmi}\begin{align*}k &= \text {群組的組數} \\n_i &= \text {第$i$個群組的個數} \\R_i &= \text {第$i$個群組的等級總和} \\N &= \text {樣本總個數}\end{align*}\end{CJK*}\end{equation*}$

將上表中各個群組的個數 $n_i$ 、等級總和 $R_i$ 與樣本總個數 $N$ 等數值帶入公式(1)裡，計算過程如下：

$\begin{align*}H &= \frac {12}{N(N+1)} \sum_{i=1}^k {\frac {R_i^2}{n_i}} - 3(N+1) \\&= \frac {12}{18(18+1)} \left ( \frac {55^2}{6} + \frac {87^2}{6} + \frac {29^2}{6} \right ) - 3(18+1) \\&= \frac {12}{342} (1905.833) - 57 \\&\approx 9.871\end{align*}$

計算結果顯示 $H$ 值為9.871，這個數值就是Kruskal-Wallis檢定的檢定統計量。最後，為了決定能否拒絕虛無假設，須找出和檢定統計量比較的臨界值，下面來進一步探討臨界值取得的方法和決策規則的行使。

決策規則的行使

在Kruskal-Wallis檢定裡，當各個群組的個數都至少為5的時候， $H$ 檢定統計量的抽樣分配會趨近於卡方分配，自由度（degrees of freedom）為 $k-1$ 。這個研究一共有3個群組，所以自由度為 $3-1=2$ 。查詢卡方分配臨界值表，當α水準為0.05、自由度為2時，臨界值為5.991。

critical value of chi-square when df equals 2

藉由檢定統計量和臨界值的比較，可以評估是否能拒絕虛無假設。如同大多數的統計檢定方法，Kruskal-Wallis檢定的決策規則如下：

若 $H$ 檢定統計量等於或大於臨界值，拒絕虛無假設。
若 $H$ 檢定統計量小於臨界值，保留虛無假設。

在這個研究裡， $H$ 檢定統計量為9.871，臨界值為5.991，因為檢定統計量大於臨界值，所以拒絕虛無假設，接受對立假設。Kruskal-Wallis檢定的分析結果指出，少年偏差行為者的居住環境會影響他們的逃學天數。

運用SPSS執行Kruskal-Wallis檢定

將少年偏差行為者的居住環境和未到校天數的資料輸入至SPSS資料編輯器裡，如下圖。變項ID為少年偏差行為者的代號，變項GROUP為居住環境，數值1代表原生家庭、數值2代表寄養家庭、數值3代表團體家屋，變項ABSENCE為未到校的天數。關於SPSS的資料輸入方法，請參考SPSS操作環境和資料輸入。

data input for Kruskal-Wallis test in spss

資料輸入完成後，點選功能表的分析 » 無母數檢定 » 舊式對話框 » K個獨立樣本，帶出「多個獨立樣本的檢定」視窗。

在「多個獨立樣本的檢定」視窗裡，把依變項ABSENCE移至檢定變數清單(T)方框中，再把自變項GROUP移至分組變數(G)長框裡，然後點選定義範圍(D)，會出現「多個獨立樣本：定義範圍」小視窗。在這個小視窗裡，輸入自變項群組編碼的最小值和最大值，這裡的例子分別為1和3。輸入完成後，按下小視窗下方的繼續(C)，回到「多個獨立樣本的檢定」視窗後，先確定檢定類型長方框裡的Kruskal-Wallis H選項有被勾選，再按下這個視窗最下方的確定。

dialog box of Kruskal-Wallis test in spss

經過上面的步驟後，SPSS會輸出兩個表格。第1個表格為「等級」表，顯示每個群組的個數和平均等級。從下表可看出，寄養家庭組的平均等級最高，團體家屋組的平均等級最低。

spss output of ranks for Kruskal-Wallis test

第2個表格為「檢定統計量」表，顯示Kruskal-Wallis檢定的分析結果。從下表可得知， $H$ 檢定統計量為9.892、自由度為2，而得到這檢定統計量的機率（ $p$ 值）為0.007。

spss output of test statistics for Kruskal-Wallis test

統計分析軟體如SPSS通常會輸出獲得檢定統計量的機率（ $p$ 值），而不是臨界值，因此會藉由 $p$ 值和α水準的比較來評估是否拒絕虛無假設。決策規則為 $p$ 值小於或等於α水準（ $p \leq \alpha$ ）時，可以拒絕虛無假設，反之則保留虛無假設。

上表顯示 $p$ 值為0.007，事先選擇的α水準為0.05，因為 $p < \alpha$ ，所以可以拒絕虛無假設，接受對立假設。SPSS的Kruskal-Wallis檢定分析結果指出，少年偏差行為者的居住環境會影響他們的未到校天數，這結果和上面使用紙筆計算所獲得的結果是相同的。

雖然SPSS的分析結果和紙筆計算的結果是相同的，但您可能會發現兩種方法的 $H$ 檢定統計量數值帶有些微差異，紙筆計算的值為9.871，而SPSS的值為9.892，相差0.021。這樣的差異在於SPSS考量了相同等級的存在，並調整了 $H$ 檢定統計量。這個調整 $H$ 值是將原本的 $H$ 值除以利用下面公式計算得到的數值：

(2) $\begin{equation*}1-\frac {\sum_{i=1}^g (t_i^3-t_i)}{N^3-N}\end{equation*}$

公式(2)裡的 $g$ 指資料裡相同分數的組數、 $t_i$ 指第 $i$ 組相同分數的數值個數。以這裡的研究來看，資料裡相同分數的組數有2組（7和12），而每一組相同分數的數值都是2個（7、7和12、12），所以上面公式(2)的計算過程為：

$1-\frac {\sum_{i=1}^g (t_i^3-t_i)}{N^3-N} = 1- \frac {(2^3-2)+(2^3-2)}{18^3-18} \approx 0.998$

將紙筆計算得到的 $H$ 檢定統計量9.871除以0.998，得到9.891，這就是調整後的 $H$ 值，也是SPSS使用的演算法（SPSS輸出的數值為9.892，和這裡計算出來的9.891相差0.001，這是因為進位誤差的關係）。若相同等級的組數不多，可以直接使用公式(1)來求得 $H$ 檢定統計量；但若相同等級的組數很多，則建議使用調整後的 $H$ 值。

以上為本篇文章對Kruskal-Wallis檢定的介紹，希望透過本篇文章，您瞭解了Kruskal-Wallis檢定的使用時機和假設檢定的過程，也學會了利用SPSS執行Kruskal-Wallis檢定的操作方法。

若您喜歡本篇文章，請將本網站加入書籤，作為您的學習資源，並持續回訪本網站喔！另外，您也可以在Facebook和Twitter上找到我們喲！

Kruskal-Wallis檢定的使用時機

Kruskal-Wallis檢定的假設檢定

研究假設的擬定和顯著水準的選擇

檢定統計量的計算

決策規則的行使

運用SPSS執行Kruskal-Wallis檢定

您可能也會喜歡