Skip to content

合作邀約 email: dr.fish@drfishstats.com

  • Facebook
  • X
site icon of Dr. Fish

Dr. Fish 漫游社會統計

魚博士的專業漫談和課後隨筆

  • Home
  • 關於Dr. Fish
  • 統計基礎
    • 入門概念
    • 圖形繪製
    • 描述統計
    • 相關
    • 線性迴歸
  • 統計進階
    • 推論統計
    • 統計檢定
      • 相關係數
      • 迴歸
      • 平均數比較
      • 無母數檢定
  • EXCEL系列
    • 資料管理
    • 圖形繪製
      • 匯出SPSS資料至Excel並繪製盒形圖
      • 如何使用Excel製作Q-Q plot
      • 如何使用Excel繪製加上誤差線的長條圖
    • 描述統計
      • 如何使用Excel執行次數分配
      • 如何使用Excel樞紐分析表製作次數分配表
      • 如何使用Excel計算偏態和峰態
      • 如何使用Excel尋找常態曲線下面積或分數
      • 如何使用Excel一次取得描述性統計量
      • 如何使用Excel計算共變異數
      • 如何使用Excel取得皮爾森積差相關係數
      • 如何使用Excel製作列聯表
    • 推論統計
      • 如何使用Excel計算信賴區間
      • 如何使用Excel執行符號檢定
      • 如何使用Excel執行單一樣本z檢定和t檢定
      • 如何使用Excel執行獨立樣本t檢定
      • 如何使用 Excel 執行 Levene 檢定
      • 如何使用Excel執行關聯樣本t檢定
      • 如何使用Excel執行單因子變異數分析
      • 如何使用Excel執行簡單線性迴歸
      • 如何使用Excel計算最小平方迴歸線的預測區間
      • 如何使用Excel執行卡方獨立性檢定
  • 下課後
    • 生活
    • 旅遊
      • 日本
    • 美食
    • 攝影
  • 聯絡Dr. Fish
  • Home
  • 推論統計
  • 統計檢定
  • 無母數檢定
  • 卡方獨立性檢定的假設檢定

🐟 請您尊重本網站的智慧財產權,如有任何引用,請註明出處:Dr. Fish 漫游社會統計。(文章發表日期)。文章名稱。文章網址

卡方獨立性檢定的假設檢定

Posted on 2022-09-052024-11-22 Updated on 2024-11-222024-11-22 By Dr. Fish
無母數檢定

行為或社會科學研究很常使用到名義尺度的變項或類別變項,例如生理性別、族群、學歷、宗教信仰、就業狀態、「是和否」的問卷選項等,而最常用來分析這種變項資料的統計檢定方法即為卡方檢定(chi-square test),符號為\chi^2。

卡方檢定是一種對母群體特性的要求最小化的無母數檢定(nonparametric test),可以分為適合度檢定(goodness-of-fit test)和獨立性檢定(test of independence)。卡方適合度檢定用來檢驗一個名義尺度變項的資料,評估該變項的各個互斥類別間的樣本觀察次數是否顯著地不同於母群體期望次數。

卡方獨立性檢定則是用來探討兩個名義尺度變項(或類別變項)的資料是否彼此獨立,通常會製作一列聯表(contingency table)後再進行分析。換句話說,卡方適合度檢定適用在一個類別變項的分析,而卡方獨立性檢定則適用在兩個類別變項的分析。卡方適合度檢定的詳細介紹可參考卡方適合度檢定的假設檢定,本篇文章將著重在卡方獨立性檢定的假設檢定。

由於下面內容牽涉到假設檢定的過程,若您不清楚或不熟悉假設檢定,建議您先閱讀假設檢定的步驟和範例,將有助於文章內容的理解。以下將先介紹卡方獨立性檢定的使用時機、卡方分配和該檢定的假設檢定過程,再舉例說明,最後示範利用SPSS執行卡方獨立性檢定的操作方法。

  • 卡方獨立性檢定的使用時機
  • 卡方分配
  • 卡方獨立性檢定的假設檢定
    • 卡方獨立性檢定的基本假設
  • 卡方獨立性檢定假設檢定的範例
  • 運用SPSS執行卡方獨立性檢定

卡方獨立性檢定的使用時機

卡方獨立性檢定是卡方檢定的一種,用來檢驗兩個測量尺度為名義尺度的變項或類別變項之間為彼此獨立或相互關聯。進行分析時,通常會先製作一列聯表(或稱為交叉表)來顯示兩個變項之間的關係。

列聯表是一個雙向的表格,可呈現出其中一個變項的每個類別裡,另一個變項的分布狀態。這兩個變項構成數個互斥的類別,樣本裡的每一位研究參與者(或每一個觀察)皆會被歸類至一個類別中,而發生的次數會顯示在儲存格裡,稱為觀察次數(observed frequencies),通常用英文字母O來表示。

舉個例子來說,假設有位政治學者想要探討生理性別和政黨傾向之間的關聯,她隨機抽取500位成年女性和男性,並詢問他們傾向於支持政黨A、政黨B或政黨C。她將資料蒐集的結果製作成如下的表格:

example of chi-square test of independence

上表即為列聯表,稱為2×3列聯表,儲存格裡的數字為人數。在250位的生理女性裡,傾向於政黨A有120人、政黨B有15人、政黨C有115人;在250位的生理男性裡,傾向於政黨A有90人、政黨B有10人、政黨C有150人,樣本總數為500人。

若生理性別和政黨傾向沒有關聯,在母群體裡的生理女性和男性支持3個政黨的比率應該會相同。但從上面的列聯表來看,支持3個政黨的生理女性和男性的人數並不相同,這樣的差異到底是因為隨機抽樣所導致的變動,還是因為生理性別和政黨傾向之間確實有關聯呢?

由於在這例子裡的生理性別和政黨傾向兩個變項皆為類別變項,若要探討這兩個變項之間是否彼此獨立,卡方獨立性檢定即為合適的統計檢定方法。因此,卡方獨立性檢定用來瞭解兩個名義尺度變項或類別變項間為彼此獨立或相互關聯,而卡方獨立性檢定的假設檢定即是在檢驗兩個變項間為彼此獨立的虛無假設。

既然卡方獨立性檢定為卡方檢定的一種,所以和卡方適合度檢定一樣,假設檢定的過程使用卡方分配和卡卡方檢定統計量,以下稍微回顧卡方分配的型態。

卡方分配

卡方分配是由多條曲線所構成(如下圖),每一條曲線會隨著自由度(degrees of freedom,簡寫為df)的改變而有不同的分布型態,和t分配相當類似。

chi-square distribution

從上圖的卡方分配可以看出,當自由度較小的時候,卡方分配曲線呈現正偏態,而當自由度愈來愈大時,卡方分配曲線會愈趨近於對稱的型態。卡方獨立性檢定的自由度計算須使用到列聯表的列和欄的數目,若讓列的數目為r、欄的數目為c,自由度的計算公式如下:

(1)   \begin{equation*}df=(r-1) \times (c-1)\end{equation*}

以上面的生理性別和政黨傾向的例子來說,生理性別為二分變項,所以列的數目為2,而政黨傾向有3個類別,所以欄的數目為3。利用上面公式(1),這個2×3列聯表的自由度為:

    \[ df=(2-1) \times (3-1)=2 \]

計算出自由度之後,再加上事前決定的顯著水準(α水準)的資訊,就可查詢卡方分配表,找到相對應的卡方臨界值來評估分析的結果。

卡方獨立性檢定的假設檢定

卡方獨立性檢定為卡方檢定的一種,是用來探討兩個名義尺度的變項或類別變項資料之間彼此獨立或相互關聯的一種統計檢定方法。和卡方適合度檢定一樣,也是在檢驗兩個變項所構成的互斥類別中的觀察次數和期望次數之間是否存在統計上顯著的差異。

卡方獨立性檢定是一個沒有方向性的統計檢定,所以研究人員僅能擬定無方向性的研究假設。對立假設(H_1)陳述兩個變項之間相互關聯,或是觀察次數的整體模式不同於期望次數的整體模式。另一方面,虛無假設(H_0)陳述兩個變項之間彼此獨立,或是觀察次數的整體模式相同於期望次數的整體模式。

擬定好研究假設後,再依據研究的性質、目的和研究可能帶來的後果,選擇適當的顯著水準或稱為α水準,習慣上為0.05、0.01或更嚴苛的0.001。

卡方獨立性檢定使用上述的卡方分配和卡方檢定統計量,不過計算卡方檢定統計量之前須先計算出列聯表裡各個儲存格的期望次數(expected frequencies),通常用英文字母E表示。若讓R_i表示第i個類別的列總和、C_j表示第j個類別的欄總和、T表示樣本總數,每一個儲存格的期望次數E_{ij}之計算公式為:

(2)   \begin{equation*}E_{ij}=\frac {R_i C_j}{T}\end{equation*}

因為位在列聯表的邊緣,所以各個類別的列總和(R_i)、各個類別的欄總和(C_j)也被稱為邊際合計(marginal totals)。

利用上面的公式(2)求得每一個儲存格的期望次數後,將每一個儲存格的觀察次數減去期望次數後平方除以期望次數的數值加總後,即為卡方檢定統計量。若讓O_{ij}代表第i個列類別和第j個欄類別的觀察次數、E_{ij}代表第i個列類別和第j個欄類別的期望次數,卡方檢定統計量的公式如下:

(3)   \begin{equation*}\chi^2=\sum_{i=1}^r \sum_{j=1}^c \frac {(O_{ij}-E_{ij})^2}{E_{ij}}\end{equation*}

若觀察次數和期望次數間的整體差距很小,卡方檢定統計量的數值會偏小,代表兩個變項之間可能彼此獨立。反過來看,若觀察次數和期望次數間的整體差距很大,則卡方檢定統計量的數值會偏大,代表兩個變項之間可能相互關聯。

運用公式(3)計算得到卡方檢定統計量後,再根據自由度(r-1) \times (c-1)和事前選擇的α水準,查詢卡方分配表,找到相對應的卡方臨界值。最後,運用決策規則,當卡方檢定統計量等於或大於卡方臨界值時,就可以拒絕虛無假設,接受對立假設;反之,則保留虛無假設。

如果是使用統計分析軟體,例如SPSS、SAS,通常會輸出獲得特定卡方檢定統計量的機率(也就是p值)而非臨界值。此時須運用機率比較的決策規則,當p \leq \alpha時,即可拒絕虛無假設,接受對立假設;反之,則保留虛無假設。但不論是使用哪一種方法,皆會得到相同的結論。

最後,當假設檢定的結果指出變項間存在關聯,可以進一步探討效果量,呈現方法有關聯性測量和勝率比等兩種方法,相關內容可分別參考卡方獨立性檢定的效果量:關聯性測量以及卡方獨立性檢定的效果量:勝率比。此外,還可「拆解」列聯表,探索哪些情況導致顯著的假設檢定結果,詳細說明可以參考卡方獨立性檢定的事後分析:標準化殘差和調整後殘差的運用。

雖然卡方獨立性檢定為無母數檢定,對母群體特性的要求不多,但為了讓卡方檢定統計量\chi^2為一個有效的數值,研究設計和資料仍須滿足幾個假設,下面來看看。

卡方獨立性檢定的基本假設

卡方獨立性檢定的基本假設相當類似於卡方適合度檢定的基本假設,具體而言,類別之間須互斥且獨立、資料必須為次數和足夠的樣本數。

  • 類別之間互斥且獨立:列聯表中兩個變項所構成的類別之間須互斥且獨立,也就是說每一位研究參與者或每一個觀察只能被分配到一個類別,僅可被計算一次,絕不能被重複計算。若重複計算,會讓樣本數目大於實際上的獨立觀察次數,使得卡方檢定統計量變成無效的數值。
  • 資料須為次數:列聯表中的每個儲存格裡的資料須為次數,而不是其他類型的數值。雖然卡方獨立性檢定經常用在名義尺度的變項資料上,但這不代表次序、等距或比率尺度的變項資料無法使用,只要將其他測量尺度的變項資料重新編碼成互斥的類別,並把資料轉換成次數,即可使用卡方獨立性檢定。
  • 足夠的樣本數:理論上卡方檢定要求列聯表中每個儲存格裡的期望次數不得少於5,若違反這個假設,卡方檢定可能會產生錯誤的結果。雖然有學者(Good, Grover, & Mitchell, 1970)提到卡方檢定是一個穩健的(robust)檢定方法,即使期望次數小於5,仍舊不會影響犯下第一類型錯誤的機率。不過考量到統計檢定力,當樣本數愈大的時候,拒絕錯誤虛無假設的機率也愈大,因此研究最好還是具備足夠的樣本數目。

如果因為研究性質、研究主題、時間限制或其他因素,使得樣本數目實在無法太多的時候,可以改使用費雪精準檢定(Fisher´s exact test)。這個檢定由Fisher(1922)提出,直接計算在邊際合計固定時獲得觀察次數形成的列聯表機率與更極端表格的機率,這些機率相加後即為研究結果的機率值(p值),最後再與α水準相比較來評估研究結果。若您有興趣瞭解費雪精準檢定,請參考費雪精準檢定的使用時機和範例解說。

瞭解了卡方獨立性檢定的基本假設和假設檢定的過程後,接下來使用上面提到的生理性別和政黨傾向的例子,實際操作整個假設檢定的過程。

卡方獨立性檢定假設檢定的範例

假設在一開始提到的生理性別和政黨傾向的研究裡,上述的3個基本假設皆被滿足,也就是類別之間互斥且獨立、樣本資料為次數、樣本數目夠大。若該位政治學者選擇0.05的α水準,試問生理性別和政黨傾向之間為彼此獨立或相互關聯?

因為卡方獨立性檢定為無方向性的統計檢定方法,所以這裡使用沒有方向性的研究假設。這研究的對立假設和虛無假設分別為:

  • 對立假設(H_1):生理性別和政黨傾向具有關聯。也就是說,觀察次數的整體模式不同於期望次數的整體模式。
  • 虛無假設(H_0):生理性別和政黨傾向彼此獨立。也就是說,觀察次數的整體模式相同於期望次數的整體模式。

由於生理性別和政黨傾向皆為類別變項,且政治學者想瞭解兩者之間彼此獨立或相互關聯,所以卡方獨立性檢定是合適的統計檢定方法。她選擇0.05的α水準,如果運算後得到的卡方檢定統計量\chi^2夠大的話,就可能拒絕虛無假設,接受對立假設。

在計算卡方檢定統計量之前,須先利用上面的公式(2)計算出每一個儲存格的期望次數。若讓生理性別的女性編碼為1、男性編碼為2,政黨傾向的政黨A編碼為1、政黨B編碼為2、政黨C編碼為3,E_{11}代表生理女性傾向政黨A、E_{21}代表生理男性傾向政黨A,以此類推,每一個儲存格的期望次數如下:

    \begin{align*}E_{11} &= \frac {250 \times 210}{500}=105 \\[5pt]E_{12} &= \frac {250 \times 25}{500}=12.5 \\[5pt]E_{13} &= \frac {250 \times 265}{500}=132.5 \\[5pt]E_{21} &= \frac {250 \times 210}{500}=105 \\[5pt]E_{22} &= \frac {250 \times 25}{500}=12.5 \\[5pt]E_{23} &= \frac {250 \times 265}{500}=132.5\end{align*}

藉由上面的計算過程獲得每一個儲存格的期望次數後,每一個儲存格的觀察次數和期望次數(藍色字體)如下表所示:

example of test of independence with expected frequencies

接著,利用上表和上面的公式(3),計算卡方檢定統計量,可先在如下的表格裡把套用公式所需的資訊計算出來:

computation of test of independence example

再將上表中每一個(O_{ij}-E_{ij})^2和E_{ij}的數值帶入上面的公式(3)裡,計算過程如下:

    \begin{align*}\chi^2 &= \sum_{i=1}^r \sum_{j=1}^c \frac {(O_{ij}-E_{ij})^2}{E_{ij}} \\[5pt]&= \frac {225}{105}+\frac {6.25}{12.5}+\frac {306.25}{132.5}+\frac {225}{105}+\frac {6.25}{12.5}+\frac {306.25}{132.5} \\[5pt]& \approx 9.908\end{align*}

計算結果顯示卡方檢定統計量為9.908,而2×3列聯表的自由度為(2-1) \times (3-1)=2。然後,查詢卡方分配表,當自由度為2、α水準為0.05時,卡方臨界值為5.991。

critical value of chi-square with alpha 0.05 and df 2

最後,運用決策規則,比較卡方檢定統計量和卡方臨界值。因為卡方檢定統計量9.908大於卡方臨界值5.991,所以拒絕虛無假設,接受對立假設,研究結果顯示生理性別和政黨傾向有關聯。

為了進一步瞭解生理女性和男性在政黨傾向上的差異,可透過各生理性別在3個政黨傾向比率的計算來進行比較,如下表:

row percentage of contingency table

從上表可以看出,生理女性較傾向於政黨A(48%),生理男性則較傾向於政黨C(60%),兩者對於政黨B的傾向並沒有相差太多。

運用SPSS執行卡方獨立性檢定

使用SPSS來執行卡方獨立性檢定的過程很簡單,以下示範操作步驟。您可在此處下載生理性別和政黨傾向的Excel資料檔,再匯入至SPSS裡,匯入的操作方式可參考SPSS操作環境和資料輸入。此外,您也可以使用個人的資料來練習。

資料開啟後,在SPSS資料編輯器的頁面,點選功能表的分析 » 敘述統計 » 交叉資料表,帶出「交叉表」視窗。

spss menu of chi-square test of independence

在「交叉表」視窗裡,把生理性別變項SEX移到列(O),政黨傾向變項PARTY移到欄(C)。然後,點選視窗最右邊的統計資料(S),會出現「交叉資料表:統計量」小視窗,勾選卡方檢定(H)選項,再按下視窗最下方的繼續(C)。

回到「交叉表」視窗後,點選視窗最右邊的資料格(E),會出現「交叉資料表:資料格顯示」小視窗。在這個小視窗的計數(T)方框中,勾選期望值(E),並在百分比方框中,勾選列(R),完成後按下最下方的繼續(C)。回到「交叉表」視窗後,按下視窗最下方的確定。

dialog box of test of independence in spss

經過上述的操作程序後,SPSS會輸出如下的列聯表(SPSS稱為交叉列表)。這表格顯示各個儲存格的觀察次數、期望次數和各個生理性別傾向3個政黨的比率,這些資訊和上面紙筆計算的結果是相同的。

spss output of crosstab for test of independence

此外,SPSS也會輸出如下的獨立性檢定分析結果,表格中的Pearson卡方檢定的值即為卡方檢定統計量、df為自由度、漸近顯著性為p值。

spss output of test statistic for test of independence

從上表可以看出,這個研究的卡方檢定統計量為9.908、自由度為2,p值為0.007。依據機率比較的決策規則,因為p值小於事先設定的α水準(0.007<0.05),所以可拒絕虛無假設,接受對立假設。此外,上表的註解也指出這個列聯表裡的最小期望值為12.5,沒有任一儲存格的期望次數小於5,代表這個卡方獨立性檢定的檢定統計量是個有效的數值。

SPSS的分析結果顯示生理性別和政黨傾向有關聯,和上面紙筆計算的結果相同。由此可看出,不論是利用哪種決策規則,檢定統計量和臨界值的比較或p值和α水準的比較,都會得到相同的研究結果。

上面卡方檢定的表格裡Pearson卡方檢定的下方有一個「概似比」,為概似比檢定的分析結果。概似比檢定和卡方檢定一樣都可用來分析類別變項的資料,而且檢定統計量都帶有卡方分配的型態,只是依據的理論不太相同。若您想更深入瞭解概似比檢定,可以參考概似比檢定:類別資料分析的另一種選擇。

如果沒有SPSS,也可以使用微軟的Excel來進行卡方獨立性檢定,雖然操作過程比較麻煩一點,但可以得到相同的分析結果,不失為一個實用的工具。關於詳細的操作方法,請參考如何使用Excel執行卡方獨立性檢定。

以上為本篇文章對卡方獨立性檢定假設檢定的介紹,希望透過本篇文章,您瞭解了卡方獨立性檢定的使用時機、卡方分配的型態和假設檢定的步驟,也學會了利用SPSS執行卡方獨立性檢定的操作方法。若您喜歡本篇文章,請將本網站加入書籤,並持續回訪本網站喔!另外,也歡迎您追蹤本網站的Facebook和/或X(Twitter)專頁喲!

如果您覺得本篇文章對您有幫助,歡迎買杯珍奶給Dr. Fish!小小珍奶,大大鼓勵,您的支持將給Dr. Fish更多撰寫優質文章的動力喔!

參考資料

Fisher, R. A. (1922). On the interpretation of \chi^2 from contingency tables, and the calculation of P. Journal of Royal Statistical Society, 85(1), 87-94. https://doi.org/10.2307/2340521

Good, I. J., Grover, T. N, & Mitchell, G. J. (1970). Exact distributions for \chi^2 and for the likelihood-ratio statistic for the equiprobable multinomial distribution. Journal of the American Statistical Association, 65, 267-283. https://doi.org/10.1080/01621459.1970.10481078

標籤: Excel SPSS 交叉表 假設檢定 列聯表 勝率比 卡方分配 卡方檢定 名義尺度 效果量 期望次數 概似比檢定 檢定統計量 正偏態 決策規則 無母數檢定 獨立性檢定 研究假設 第一類型錯誤 統計檢定力 臨界值 自由度 觀察次數 費雪精準檢定 適合度檢定 關聯性測量 類別變項 顯著水準

文章導覽

❮ Previous Post: 卡方適合度檢定的假設檢定
Next Post: 肯德爾等級相關係數的假設檢定 ❯

您可能也會喜歡

featured image of Fisher's exact test
費雪精準檢定的使用時機和範例解說
featured image of sign test
符號檢定:使用二項分配進行假設檢定
featured image of hypothesis test of Kendall's tau
肯德爾等級相關係數的假設檢定
featured image of measures of association for chi-square test of independence
卡方獨立性檢定的效果量:關聯性測量

關於 Dr. Fish

profile picture uploaded on July 5, 2024

喜歡求知和分析,所以一路讀到博士。也喜歡旅行、攝影、料理、看日劇,愛把複雜的思想和事物變簡單,是個有點宅也有點跳TONE的人。

支持 Dr. Fish

本網站經營和文章撰寫皆由Dr. Fish一人完成,投注許多時間和費用。若您喜歡任何一篇文章或覺得文章對您有幫助,請給我一些支持,買杯珍奶給我吧!您的支持不但能給我更多撰寫文章的動力,也可以讓這網站的經營持續下去喔!謝謝!😄

boba-icon
請我喝珍奶!
featured image of spss environment and data entry

下載專區

標準常態分配表

Student's t 分配臨界值表

F分配臨界值表

卡方分配臨界值表

斯皮爾曼等級相關係數臨界值表

Wilcoxon配對符號等級檢定臨界值表

曼–惠特尼U檢定臨界值表

Student化全距分配臨界值表

Dunnett檢定臨界值表(雙尾檢定)

單一樣本z檢定的SPSS語法

關於Dr. Fish漫游社會統計

本網站使用簡單易懂的文字解說社會統計,並示範軟體操作,同時有課後隨筆的分享,希望讀者在學習之餘,也能感受到生活的樂趣。

網站政策

著作權聲明 Copyright Notice
隱私權政策 Privacy Policy
免責聲明  Disclaimer

追蹤我們

Facebook
X(Twitter)

Copyright © 2021-2025 Dr. Fish 漫游社會統計. All rights reserved.