卡方獨立性檢定(chi-square test of independence)是行為和社會科學很常用到的一種無母數檢定方法,適用在2個名義尺度的變項資料上,探討這2個變項的資料為彼此獨立或相互關聯。在進行卡方獨立性檢定前,通常會先製作一列聯表(contingency table),瞭解2個變項之間的關係後再執行假設檢定。
利用專門的統計分析軟體例如 SPSS、SAS、STATA 可以很簡單地執行卡方獨立性檢定,但在沒有這些專門軟體的情況下,也可以使用微軟的 Excel 來進行分析。雖然操作過程稍微麻煩一點,但不失為一個實用的工具。
下面將直接進入技術層面的操作方法介紹,不會說明卡方獨立性檢定的使用時機、基本假設和假設檢定的過程,如果您想瞭解這些內容,可以參考卡方獨立性檢定的假設檢定。另外,操作過程須利用 Excel 進行數學計算,若您不熟悉使用方法,可以先閱讀如何使用Excel進行數學計算【基礎篇】與如何使用Excel進行數學計算【進階篇】。
這裡使用〈卡方獨立性檢定的假設檢定〉裡生理性別和政黨傾向的例子,調查不同生理性別的成年人和政黨支持傾向間是否有關聯,生理性別的2個類別為生理女性和男性,而政黨的3個類別為政黨A、政黨B和政黨C。研究樣本為500位成年人,生理性別和政黨傾向的列聯表如下:
政黨A | 政黨B | 政黨C | 列合計 | |
---|---|---|---|---|
生理女性 | 120 | 15 | 115 | 250 |
生理男性 | 90 | 10 | 150 | 250 |
欄合計 | 210 | 25 | 265 | 500 |
這個例子的虛無假設為生理性別和政黨支持傾向彼此獨立,而對立假設為生理性別和政黨支持傾向存在關聯。利用上面列聯表裡的資料,顯著水準設為0.05,採用卡方獨立性檢定,試問生理性別和政黨支持傾向是否具有關聯性?下面將逐步示範如何使用 Excel 執行卡方獨立性檢定,並用2種方法評估分析的結果。
期望次數和卡方檢定統計量的計算
先把上面列聯表的資料原封不動地輸入至一空白的活頁簿或工作表裡,如下圖。圖中的 Party A、Party B、Party C 指政黨A、政黨B、政黨C,而 Female、Male 為生理女性和生理男性,依據個人的習慣或喜好,直接使用中文也沒問題喔!
複製輸入完成的列聯表資料,並貼上至旁邊的儲存格裡,再刪除列聯表裡的觀察次數(黑色邊框裡面6個儲存格的數值)。接著,計算每一個觀察次數的期望次數,先從儲存格B3的觀察次數開始。在儲存格H3裡輸入公式 =E3*B5/E5,按下 Enter 會傳回數值105,這就是傾向政黨A、生理女性(儲存格B3)的期望次數。
運用相同的方法,計算出另外5個觀察次數的期望次數。如果您不清楚另外5個觀察次數的期望次數計算公式,可以參考下面的說明。
儲存格I3:=E3*C5/E5 ⇒ 傾向政黨B的生理女性
儲存格J3:=E3*D5/E5 ⇒ 傾向政黨C的生理女性
儲存格H4:=E4*B5/E5 ⇒ 傾向政黨A的生理男性
儲存格I4:=E4*C5/E5 ⇒ 傾向政黨B的生理男性
儲存格J4:=E4*D5/E5 ⇒ 傾向政黨C的生理男性
經過上面的計算,完成後的期望次數如下圖右側的表格所示。此時,原本的觀察次數和運算後的期望次數已經完整地呈現出來,可以開始計算卡方檢定統計量。
卡方檢定統計量為每一個觀察次數減去期望次數後平方再除以期望次數的數值加總,因為這個例子有6個觀察次數,所以要計算出6個數值。
再複製一次原本的列聯表,貼上至剛才完成的期望次數表格的下方或任何空白的地方,並刪除6個觀察次數(下圖的儲存格H9到J10)。先從傾向政黨A的生理女性開始,在下圖的儲存格H9裡輸入公式 =(B3-H3)^2/H3,按下 Enter 會傳回數值2.14286。
利用相同的方法計算剩餘5個儲存格的卡方檢定統計量所需的數值,可以直接複製儲存格H9並貼上至儲存格I9、J9、H10、I10和J10,即可以得到剩餘5個儲存格的數值,完成後如下圖。
最後,把儲存格H9到J10的數值相加,就是卡方檢定統計量。您可以一個一個地相加,也可以使用 SUM 函數來進行加總。這裡使用 SUM 函數,在下圖的儲存I13裡輸入 =SUM(H9:J10),按下 Enter 會傳回數值9.90836,這就是卡方檢定統計量。
求得卡方檢定統計量之後,就可進入分析結果的評估,也就是決策規則的運用。決策規則有2種,一種是檢定統計量和臨界值的比較,另一種是獲得檢定統計量的機率(p 值)和顯著水準的比較,下面將分別示範操作方法。
運用 CHISQ.INV.RT 函數取得卡方臨界值
第1種評估卡方獨立性檢定分析結果的決策規則為檢定統計量和臨界值的比較,當檢定統計量等於或大於臨界值的時候,就可拒絕生理性別和政黨支持傾向沒有關聯的虛無假設。
上面已經計算出卡方檢定統計量,接著須取得臨界值後才可進行比較。透過 CHISQ.INV.RT 函數可以取得卡方臨界值,這個函數的語法為 CHISQ.INV.RT(probability, deg_freedom),括號裡的2個引數分別指事先設定的顯著水準和自由度。
在這個例子裡,事先設定的顯著水準為0.05,而2X3列聯表的自由度為。在檢定統計量下方的儲存格(下圖裡的I14)或任一空白的儲存格裡輸入下面的語法:
=CHISQ.INV.RT(0.05, 2)
這個語法要求 Excel 計算當顯著水準為0.05、自由度為2的時候,卡方分配右側的臨界值。語法輸入完成後,按下 Enter 會傳回數值5.99146。
最後,比較卡方檢定統計量和臨界值,因為9.90836 > 5.99146,所以拒絕虛無假設。換句話說,卡方獨立性檢定分析結果指出生理性別和政黨支持傾向有關聯性。
運用 CHISQ.TEST 函數取得機率
第2種評估卡方獨立性檢定分析結果的決策規則為獲得特定卡方檢定統計量的機率(p 值)和顯著水準的比較,當機率等於或小於顯著水準的時候,即可拒絕生理性別和政黨支持傾向沒有關聯的虛無假設。
透過 CHISQ.TEST 函數可以計算檢定統計量機率,這個函數的語法為 CHISQ.TEST(actual_range, expected_range),括號裡的2個引數分別指觀察次數的範圍和期望次數的範圍。在臨界值下方的儲存格(下圖為I15)或任一空白的儲存格輸入下面的語法:
=CHISQ.TEST(B3:D4, H3:J4)
這語法指出觀察次數位於儲存格B3到D4而期望次數位於儲存格H3到J4,要求利用這2組數值計算出卡方檢定統計量,並傳回獲得這個檢定統計量的機率。語法輸入完成後,按下 Enter 會傳回機率0.00705。
最後,比較獲得卡方檢定統計量的機率和事先設定的顯著水準,因為0.00705 < 0.05,所以拒絕虛無假設。也就是說,生理性別和政黨支持傾向具有關聯性,這樣的結果和上面利用檢定統計量和臨界值比較的結果是相同的。
另外,CHISQ.DIST.RT 函數也可以用來取得卡方分配右側的機率,也就是獲得一個特定卡方檢定統計量的機率。雖然這函數和 CHISQ.TEST 函數傳回的結果是一樣的,但2個函數的語法不一樣。CHISQ.DIST.RT 函數的語法為 CHISQ.DIST.RT(x, deg_freedom),括號裡的2個引數分別指卡方檢定統計量和自由度。
用上面的例子來看,若改用 CHISQ.DIST.RT 函數來計算獲得卡方檢定統計量的機率,在剛才已計算出來的機率下方的儲存格(下圖的I16)裡輸入下面的語法:
=CHISQ.DIST.RT(I13, 2)
這語法指出卡方檢定統計量為儲存格I13的9.90836,自由度為2,要求傳回這個檢定統計量的卡方分配右側的機率。語法輸入完成後,按下 Enter 會得到0.00705,和上面利用 CHISQ.TEST 函數所得到的機率一模一樣。
雖然 CHISQ.TEST 和 CHISQ.DIST.RT 函數都可用來計算機率,且會得到相同的結果,但2個函數所需要的資訊並不相同。CHISQ.TEST 函數需要觀察次數和期望次數的資料範圍,不需要卡方檢定統計量,而 CHISQ.DIST.RT 函數需要卡方檢定統計量和自由度,不需要觀察和期望次數的資料範圍。因此,要使用哪一個函數,須視個人所持有的資訊來決定。
最後,不論是哪一種決策規則,都可得到相同的研究結論,您可依據個人的習慣、喜好或對 Excel 的熟悉程度來決定使用的方法。下面整理出文章裡提到的3個函數,可以更清楚地看到它們之間的差別喔!
函數 | 功用 |
---|---|
CHISQ.INV.RT | 利用顯著水準和自由度取得卡方臨界值 |
CHISQ.TEST | 利用觀察次數和期望次數的資料取得卡方檢定統計量機率 |
CHISQ.DIST.RT | 利用卡方檢定統計量和自由度取得卡方檢定統計量機率 |
以上為本篇文章對如何使用 Excel 執行卡方獨立性檢定的介紹,希望透過本篇文章,您學會了期望次數和檢定統計量的計算方法以及如何利用函數取得相關數值來評估分析的結果。若您喜歡本篇文章,請將本網站加入書籤,並隨時回訪本網站喔!另外,也歡迎您追蹤本網站的 Facebook 和/或 X(Twitter)專頁喲!
如果您覺得本篇文章對您有幫助,歡迎買杯珍奶給 Dr. Fish!小小珍奶,大大鼓勵,您的支持將給 Dr. Fish 更多撰寫優質文章的動力喔!