🐟 請您尊重本網站的智慧財產權,如有任何引用,請註明出處:Dr. Fish 漫游社會統計。(文章發表日期)。文章名稱。文章網址
Wilcoxon配對符號等級檢定的假設檢定
Wilcoxon配對符號等級檢定(Wilcoxon matched-pairs signed-rank test)是用來探討兩個關聯或配對樣本是否有所不同且變項資料至少為次序尺度的一種無母數檢定,而Wilcoxon配對符號等級檢定的假設檢定即是檢驗兩個關聯或配對樣本是否來自於極其相似的母群體之虛無假設。
Wilcoxon配對符號等級檢定相當類似於無母數檢定裡的符號檢定,但考量了配對分數的改變方向和大小,不像符號檢定只考量改變的方向,所以比符號檢定更具敏感度。另一方面,Wilcoxon配對符號等級檢定也類似於母數檢定裡的關聯樣本t檢定,但用在關聯樣本t檢定的常態性假設沒有被滿足或測量尺度不合適的情況下,所以沒有關聯樣本t檢定那麼地強大。
因此,Wilcoxon配對符號等級檢定可說是介於符號檢定和關聯樣本t檢定之間的一種強力的統計檢定,也是在關聯或配對樣本比較裡很受歡迎也很常被使用的一種無母數檢定方法。關於2個關聯或配對樣本比較時可以使用的統計檢定,請參考兩個相依樣本比較的統計檢定方法。
本篇文章將介紹Wilcoxon配對符號等級檢定的使用時機,再舉例說明Wilcoxon配對符號等級檢定的假設檢定過程,最後再示範使用SPSS執行Wilcoxon配對符號等級檢定的操作方法。由於以下的內容牽涉到假設檢定,若您不明瞭或不熟悉假設檢定的意義和過程,請先閱讀假設檢定的步驟和範例,將有助於以下內容的理解喔!
Wilcoxon配對符號等級檢定的使用時機
Wilcoxon配對符號等級檢定用來比較關聯或配對的兩樣本,也稱為相依樣本,是否具有顯著的差異,且比較的成對數值(依變項)在測量尺度上須至少為次序尺度。由於這個檢定對於樣本來自的母群體並沒有特別的要求,所以屬於無母數檢定。
關聯樣本或配對樣本是指樣本或群組之間並非各自獨立,而是具有關聯性,通常可採用重複量數設計或配對組設計。重複量數設計也可稱為前後測設計,由相同的研究參與者參與兩種或超過兩種的實驗情境。配對組設計則是依據一些和依變項相關的測量結果,將有類似結果的研究參與者進行配對,再隨機分配每一配對裡的其中一人至一種實驗情境、另一人至另一種實驗情境。更詳細的關聯樣本設計的介紹,請參考關聯樣本t檢定的假設檢定。
在測量尺度上,因為Wilcoxon配對符號等級檢定的檢定統計量計算過程中須將各個配對數值的差值加以排序,所以資料須至少是次序尺度,也就是可為次序尺度、等距尺度或比率尺度。而此點也是Wilcoxon配對符號等級檢定和關聯樣本t檢定最大的不同,因為後者無法使用在次序尺度的變項資料上。
另一種同樣可用在次序尺度資料的符號檢定(sign test),雖然也是用來比較關聯或配對樣本間是否有顯著的差異,但只有考慮到成對數值間的改變方向,因此是種較不具敏感度的統計檢定。反觀Wilcoxon配對符號等級檢定,不但考量到成對數值間的改變方向,也考量到改變的大小,所以是一種比符號檢定更強力的統計檢定方法。
因此,簡單來說,Wilcoxon配對符號等級檢定是用在具備至少次序尺度變項資料的關聯或配對樣本比較上的一種無母數檢定,雖然比符號檢定更具敏感度但不若關聯樣本t檢定強大。
瞭解了Wilcoxon配對符號等級檢定的使用時機後,下面舉個例子來實地示範這個檢定的假設檢定過程。
Wilcoxon配對符號等級檢定的假設檢定
假設有一個研究想探討慢跑對憂鬱程度的影響,有10位被診斷患有憂鬱症的個案參與該研究。研究一開始先請10位參與者填寫一份憂鬱程度的量表作為前測(pre-test),然後請他們進行為期6個月的慢跑訓練。慢跑訓練結束後,再請每位參與者填寫一次量表作為後測(post-test)。這10位參與者的前、後測分數如下表,分數愈高代表憂鬱程度愈嚴重。使用顯著水準(α水準)0.05、雙尾檢定,試問慢跑是否會影響憂鬱程度?

這個研究想瞭解慢跑是否影響憂鬱症個案的憂鬱程度,並沒有指出慢跑「提高」或「降低」憂鬱程度,所以屬於無方向性的研究假設。研究假設可分為對立假設和虛無假設,在這個研究裡兩個假設分別為:
- 對立假設(
):慢跑會影響憂鬱程度。
- 虛無假設(
):慢跑不會影響憂鬱程度。
擬定完研究假設後,須考量研究的性質、目的和可能帶來的後果,選擇適當的顯著水準或稱為α水準,習慣上為0.05或0.01。這研究選擇了0.05的顯著水準,且因為研究假設不具有方向性,所以採用雙尾檢定,而不是有方向性研究假設的單尾檢定。
因為這個研究的資料為憂鬱程度量表的分數(也是該研究的依變項),所以具有至少次序尺度的測量尺度。此外,這個研究採取前後測設計,為關聯樣本的一種,因此Wilcoxon配對符號等級檢定是合適的統計檢定方法。
如果慢跑對憂鬱症的程度沒有影響,我們可以預期前後測分數差值裡會有一半為正數、一半為負數,而且正數差值的總和大小應該會相似於負數差值的總和大小。為了檢驗這個虛無假設,須計算出Wilcoxon配對符號等級檢定的檢定統計量後,才能評估是否拒絕虛無假設。計算檢定統計量有4個步驟:
- 計算前、後測分數的差值。不論是前測減後測或後測減前測都可以。這裡用前測分數減後測分數,如下表的欄(1)。
- 取前、後測分數差值的絕對值後將數值從小至大排序。若存在相同等級,則取等級的平均數。例如第4位和第7位的分數差值相同,也就是平手,占據第4名和第5名的位置,所以取名次的平均數4.5,下一個差值分數的等級則從6開始,如下表欄(2)。
- 還原分數差值的正、負號至等級上。若原本的分數差值為負數,讓這些分數差值的等級也帶有負號,如下表的欄(3);其餘的分數差值等級符號不用變更,如下表的欄(4)。
- 分別計算出負號等級和正號等級的總和。分別取這2個總和的絕對值,較小的數值即為檢定統計量
。

透過上面的步驟,得到負號等級的總和為-11,正號等級的總和為44。分別取這2個總和的絕對值,因為,所以檢定統計量
為11。
最後,查詢Wilcoxon配對符號等級檢定臨界值表,當、
、雙尾檢定時,臨界值為8。完整的Wilcoxon配對符號等級檢定臨界值表可從本網頁右側邊欄的「下載專區」下載。

比較檢定統計量和臨界值,決策規則為當檢定統計量小於或等於臨界值時,即可拒絕虛無假設,接受對立假設。因為
,所以保留虛無假設。這個研究的結果指出,慢跑不會影響憂鬱的程度。
注意!大多數統計檢定方法的決策規則為檢定統計量等於或大於臨界值時,可以拒絕虛無假設。但Wilcoxon配對符號等級檢定的決策規則並非如此,必須在檢定統計量小於或等於臨界值的時候,才可拒絕虛無假設。
如果成對數值的差值為0,也就是前、後測成績相同的情況下,因為沒有數值方向和大小的改變,通常會將該組成對數值從樣本中剔除,不過樣本總數也會因此而減少。
趨近於常態分配時的計算方法
若仔細觀察Wilcoxon配對符號等級檢定臨界值表,會發現樣本總數只到50而已,若樣本總數大於50的時候,要怎麼辦呢?
實際上當樣本總數變多的時候,的抽樣分配也會趨近於常態分配,可以利用下面的公式計算出z檢定統計量,再透過標準常態分配表找尋臨界值,最後比較z檢定統計量和臨界值,評估是否拒絕虛無假設。
使用上面的範例來示範操作過程,Wilcoxon配對符號等級檢定的假設檢定裡已經計算出檢定統計量為11,將這個數值帶入上面的公式裡,計算過程如下:
計算結果得到z檢定統計量為-1.68。此外,、雙尾檢定代表落在常態分配兩側尾端的機率各為0.025。接著,查詢標準常態分配表,當一側尾端的機率為0.025時(下表的B欄),z臨界值為
。

比較z檢定統計量和z臨界值,若檢定統計量的絕對值等於或大於臨界值的絕對值,即可拒絕虛無假設,接受對立假設。因為,所以保留虛無假設。使用常態逼近的分析結果同樣地指出,慢跑不會影響憂鬱的程度。
Wilcoxon配對符號等級檢定的基本假設
使用Wilcoxon配對符號等級檢定前,資料須滿足2個基本假設。第1個假設是資料(也就是成對數值裡的各個數值)的測量尺度須至少為次序尺度,換句話說,資料必須能夠依據數值的大小而排出順序。
第2個假設是成對數值的差值也必須至少是次序尺度。因為計算Wilcoxon配對符號等級檢定的檢定統計量過程中,須將成對數值的差值排序,若成對數值的差值不具備至少次序尺度的話,便無法依照數值大小進行排序。
運用SPSS執行Wilcoxon配對符號等級檢定
將上面範例裡的數值輸入至SPSS資料編輯器裡,輸入完成後點選功能表的分析 » 無母數檢定 » 舊式對話框 » 2個相關樣本,帶出「兩個相關樣本檢定」視窗。關於SPSS的資料輸入方法,請參考SPSS操作環境和資料輸入。

在「兩個相關樣本檢定」視窗裡,將變項pretest從左邊的長方框裡移至檢定配對(T)方框裡變數1的位置,變項posttest則移至變數2的位置。在檢定類型的方框中,勾選Wilcoxon的選項。
若想檢視兩個變項的描述統計量,例如平均數、標準差,可以點選視窗最右邊的選項(O),會出現「兩個相關樣本:選項」小視窗。在這個小視窗的統計量長方框中,勾選敘述統計(D)的選項,完成後按下最下方的繼續(C)。回到「兩個相關樣本檢定」視窗後,再按下最下方的確定。

經過上述的步驟,SPSS會輸出3個表格。第1個表格為「敘述統計」(Descriptive Statistics),顯示兩個變項的個數、平均數、標準差、最小值和最大值,如下表。

從上面的敘述統計表可以看出,配對樣本組數為10,前測(pretest)的最小值為13、最大值為21、平均數為16.6、標準差為2.797;後測(posttest)的最小值為10、最大值為20、平均數為13.7、標準差為2.946。整體而言,前測的平均分數高於後測,但後測分數的分布範圍較前測略廣。
第2個表格為「等級」(Ranks),顯示負號等級、正號等級和平分(下表的Negative Ranks、Positive Ranks、Ties)的個數以及等級總和。從這個表格可以知道,負號等級有7個,總和為44;正號等級有3個,總和為11。此外,成對分數裡沒有平分的情況。

這裡顯示的結果和上面紙筆計算的結果相反,上面紙筆計算的結果為3個負號等級、7個正號等級。造成相反結果的原因在於SPSS用後測分數減前測分數,上面紙筆計算則用前測減後測,不過不論使用哪一種計算方法,都不會影響最後的分析結果。
最後一個表格為如下的「檢定統計量」(Test Statistics)表,指出檢定統計量的數值和得到該統計量的機率(值)。從該表可以發現SPSS採用上面提到的趨近於常態分配時的計算方法,所以計算結果為z檢定統計量,數值為-1.683,和上面藉由紙筆計算所得到的結果相同。

運用SPSS來評估是否拒絕虛無假設時,須採用機率比較的決策規則,也就是比較α水準和值,當
值小於或等於α水準時,即可拒絕虛無假設;反之,則保留虛無假設。
範例裡的α水準為0.05,上表指出雙尾顯著性的機率(值)為0.092。因為
,所以保留虛無假設。這個分析結果告訴我們,慢跑不會影響憂鬱的程度。
這裡有一點須注意,SPSS會輸出雙尾檢定的機率,因此若是使用有方向性假設的單尾檢定,須將雙尾檢定的機率除以2後,再與α水準比較,評估拒絕或保留虛無假設。
以上為本篇文章對Wilcoxon配對符號等級檢定的介紹,希望透過本篇文章,您瞭解了這個統計檢定的使用時機和假設檢定的過程,也學會了如何運用SPSS執行這個統計檢定。若您喜歡本篇文章,請將本網站加入書籤,並持續回訪本網站喔!另外,也歡迎您追蹤本網頁的Facebook和/或X(Twitter)專頁喲!
如果您覺得本篇文章對您有幫助,歡迎買杯珍奶給Dr. Fish!小小珍奶,大大鼓勵,您的支持將給Dr. Fish更多撰寫優質文章的動力喔!