Skip to content

合作邀約 email: dr.fish@drfishstats.com

  • Facebook
  • X
site icon of Dr. Fish

Dr. Fish 漫游社會統計

魚博士的專業漫談和課後隨筆

  • Home
  • 關於Dr. Fish
  • 統計基礎
    • 入門概念
    • 圖形繪製
    • 描述統計
    • 相關
    • 線性迴歸
  • 統計進階
    • 推論統計
    • 統計檢定
      • 相關係數
      • 迴歸
      • 平均數比較
      • 無母數檢定
  • EXCEL系列
    • 資料管理
    • 圖形繪製
      • 匯出SPSS資料至Excel並繪製盒形圖
      • 如何使用Excel製作Q-Q plot
      • 如何使用Excel繪製加上誤差線的長條圖
    • 描述統計
      • 如何使用Excel執行次數分配
      • 如何使用Excel樞紐分析表製作次數分配表
      • 如何使用Excel計算偏態和峰態
      • 如何使用Excel尋找常態曲線下面積或分數
      • 如何使用Excel一次取得描述性統計量
      • 如何使用Excel計算共變異數
      • 如何使用Excel取得皮爾森積差相關係數
      • 如何使用Excel製作列聯表
    • 推論統計
      • 如何使用Excel計算信賴區間
      • 如何使用Excel執行符號檢定
      • 如何使用Excel執行單一樣本z檢定和t檢定
      • 如何使用Excel執行獨立樣本t檢定
      • 如何使用 Excel 執行 Levene 檢定
      • 如何使用Excel執行關聯樣本t檢定
      • 如何使用Excel執行單因子變異數分析
      • 如何使用Excel執行簡單線性迴歸
      • 如何使用Excel計算最小平方迴歸線的預測區間
      • 如何使用Excel執行卡方獨立性檢定
  • 下課後
    • 生活
    • 旅遊
      • 日本
    • 美食
    • 攝影
  • 聯絡Dr. Fish
  • Home
  • 推論統計
  • 統計檢定
  • 無母數檢定
  • Cohen′s kappa:評分者間信度的測量方法

🐟 請您尊重本網站的智慧財產權,如有任何引用,請註明出處:Dr. Fish 漫游社會統計。(文章發表日期)。文章名稱。文章網址

Cohen′s kappa:評分者間信度的測量方法

Posted on 2024-12-042024-12-04 By Dr. Fish
無母數檢定

行為或社會科學的研究很常使用觀察的方法來歸類人的行為或事物的樣態,例如臨床心理學家把個案的行為分類為正常、憂鬱、躁鬱和精神分裂,電影評論員把電影分類為值得推薦、尚可、了無新意和失望至極。為了確保觀察測量方法的可信度,通常會由2位評分者針對相同的人或事物來進行測量,最後再探討2位評分者的測量一致性,而這種一致性測量的方法就可利用 Cohen′s kappa 來達成。

由於 Cohen′s kappa 適用在2個類別變項上,所以會利用2個變項構成的列聯表來進行分析,雖然分析過程很像卡方獨立性檢定,但不是使用卡方檢定統計量,而是 kappa 統計量。換句話說,Cohen′s kappa 是用來評估2位評分者在測量上一致性程度的一個量化數值,而不是用來探討2個類別變項間的關聯性。

下面內容會先介紹 Cohen′s kappa 的使用時機和計算方法,再舉一例子說明,最後示範利用 SPSS 取得 kappa 統計量的操作方法。雖然 Cohen′s kappa 不是立基於卡方獨立性檢定,但須運用到列聯表、觀察次數和期望次數等概念,因此如果您不熟悉這些內容,建議您先閱讀卡方獨立性檢定的假設檢定,將有助於文章內容的理解喔!

  • Cohen′s kappa 的使用時機和計算
  • Cohen′s kappa 的例子
  • 運用 SPSS 取得 Cohen′s kappa

Cohen′s kappa 的使用時機和計算

Cohen′s kappa 適用在2個相同類別的名義尺度變項(或稱為類別變項)資料上,為量化評分者間信度(interrater reliability)的一個描述統計量,屬於一致性測量(measure of agreement)的分析方法,通常用符號κ來表示。由於行為或社會科學的研究很常運用觀察的方式來分類人的行為,例如警察透過監視器判斷便利商店裡消費者的行為是否可疑,或精神科醫生評估孩童的行為屬於語言障礙、運動障礙、學習障礙或智力障礙,因此需要探討利用此種觀察方法所取得的測量結果是否可信。

一般來說,為了確保測量的可信度,通常會由2位在相關專業領域具有豐富經驗的觀察者分別進行獨立的測量或評分,然後再比較這2位觀察者的測量或評分結果。如果2位觀察者的測量或評分結果的一致性很高,代表資料的可信度很高;如果2位觀察者的測量或評分結果的一致性很低,則需對資料的可信度抱持懷疑。這種探討評分者間的可信度屬於一致性的測量,而 Cohen′s kappa 即是用來檢驗一致性的一種測量方法。

Cohen′s kappa(下面簡稱 kappa)適用在測量或評分結果為名義尺度的變項上,而且變項裡的各個類別必需互斥,也就是被測量或評分的對象只能被劃分至變項裡的其中一個類別。此外,2位觀察者須對完全相同的對象進行測量或評分,且測量或評分結果具有完全相同的類別數目,使得列聯表為對稱的型態,例如2X2、3X3或5X5列聯表。最後,2位觀察者必須在不受彼此影響的情況下各自獨立地進行測量或評分。

因為2位觀察者的測量或評分結果為相同類別數目的名義尺度變項,所以可製作出一個對稱的列聯表,而這個列聯表的主要對角線就是2位觀察者帶有共識的測量或評分結果,非對角線的細格則是2位觀察者沒有共識的部分。

觀察者1
A B C D
觀察者2 A
B
C
D

Kappa 統計量即是計算上圖中2位觀察者在藍底細格的共識程度(一致性程度),計算過程須使用到藍底細格的觀察次數和期望次數,期望次數的計算方法和卡方獨立性檢定裡列聯表期望次數的計算方法是相同的。若讓O_{ii}代表列聯表主要對角線上細格的觀察次數,E_{ii}代表主要對角線上細格的期望次數,N為被測量或評分對象的數目(樣本數),kappa 統計量的計算公式如下:

(1)   \begin{equation*}\kappa = \frac {\sum O_{ii} - \sum E_{ii}}{N - \sum E_{ii}}\end{equation*}

Kappa 統計量的標準誤(standard error)能夠利用下面的公式來估計,雖然 kappa 統計量本身即可呈現評分者之間的一致性程度,但若有標準誤的話,則可進一步計算信賴區間。

(2)   \begin{equation*}SE_{\kappa} = \sqrt {\frac {\sum O_{ii}(N - \sum O_{ii})}{N(N - \sum E_{ii})^2}}\end{equation*}

利用公式(2)的標準誤,若讓p表示信賴區間的機率值(例如95%信賴區間指機率值為0.95),z指標準分數,kappa 統計量的信賴區間可以用標準常態分配的方式來呈現:

(3)   \begin{equation*}CI_{\kappa} = \kappa \pm z_{\frac {1-p}{2}} \times SE_{\kappa}\end{equation*}

從上面的說明可以知道 kappa 統計量的計算並不困難,只要利用列聯表裡位在主要對角線的細格觀察次數和期望次數即可,下面舉個例子來說明 kappa 統計量、標準誤和信賴區間的計算過程。

Cohen′s kappa 的例子

假設有一間公司在面試新人的時候都會有2位面試官,應徵者先與第1位面試官面談後再與第2位面試官面談。面談結束之後,每一位面試官會評斷應徵者的表現為優秀、尚可、平庸或不合格等4種結果,而公司只會考慮雇用面試結果為優秀或尚可的應徵者。此次共有100位應徵者,下面的列聯表為2位面試官針對應徵者做出的面試結果,試問這2位面試官的評分者間信度 kappa 是多少?此外,95%信賴區間為何?

面試官1
優秀① 尚可② 平庸③ 不合格④ 列合計
面試官2 優秀① 17 8 12 3 40
尚可② 5 10 4 1 20
平庸③ 5 8 8 4 25
不合格④ 3 4 1 7 15
欄合計 30 30 25 15 100

在100位應徵者裡,2位面試官達成共識的有42位,分別為17位優秀、10位尚可、8位平庸和7位不合格。為了利用上面的公式(1)來計算 kappa,須先計算出2位面試官有共識的對角線4個細格的期望次數,計算過程如下:

    \begin{align*}E_{11} &= \frac {40 \times 30}{100} = 12 \\[5pt]E_{22} &= \frac {20 \times 30}{100} = 6 \\[5pt]E_{33} &= \frac {25 \times 25}{100} = 6.25 \\[5pt]E_{44} &= \frac {15 \times 15}{100} = 2.25\end{align*}

計算出2位面試官有共識的4個細格的期望次數後,就可分別計算出這4個細格的觀察次數總和以及期望次數總和,計算過程如下:

    \begin{align*}\sum O_{ii} &= 17 + 10 + 8 + 7 = 42 \\\sum E_{ii} &= 12 + 6 + 6.25 + 2.25 = 26.5\end{align*}

把上面的觀察次數總和以及期望次數總和帶入上面的公式(1)來計算 kappa 統計量,將無法整除的計算結果四捨五入到小數點後第3位,過程如下:

    \begin{equation*}\kappa = \frac {42 - 26.5}{100 - 26.5} \approx 0.211\end{equation*}

計算結果指出 kappa 統計量為0.211,這數值代表2位面試官評斷結果的一致性為21.1%,顯示2位面試官的共識程度並沒有很高。接著,我們進一步利用上面的公式(2)來計算標準誤,把無法整除的計算結果四捨五入到小數點後第5位,過程如下:

    \begin{equation*}SE_{\kappa} = \sqrt {\frac {42(100 - 42)}{100(100 - 26.5)^2}} \approx 0.06715\end{equation*}

若我們要求得95%信賴區間,也就是機率值p為0.95、常態曲線下標準分數為\pm 1.96的時候,利用已經計算出來的 kappa、標準誤和上面的公式(3),把計算結果四捨五入到小數點後第3位,kappa 統計量的95%信賴區間如下:

    \begin{gather*}CI_{\kappa} = 0.211 \pm (1.96 \times 0.06715) \\[5pt]0.079 \leq \kappa \leq 0.343\end{gather*}

計算結果顯示有0.95的機率或95%的信心程度,2位面試官的評分者間信度 kappa 會落在0.079和0.343之間,也就是2位面試官對應徵者評選的一致性程度會落在7.9%和34.3%之間。若您不清楚信賴區間的意義和計算方法,請參考信賴區間的意義和計算(σ已知)。

當樣本數目較小時,使用紙筆計算當然沒問題,不過當樣本數目較大時,紙筆計算便顯得很費時,幸好透過統計分析軟體如 SPSS 可以很簡單地取得 kappa 統計量,下面示範操作方法。

運用 SPSS 取得 Cohen′s kappa

這裡使用2位面試官面試100位應徵者的原始資料,第1位面試官面試結果的變項名稱為 RATER1 而第2位面試官面試結果的變項名稱為 RATER2,面試評分結果的編碼分別為1 = 優秀、2 = 尚可、3 = 平庸和4 = 不合格。在 SPSS 資料編輯器的頁面,點選功能表的分析 » 敘述統計 » 交叉資料表,帶出「交叉表」視窗。關於 SPSS 的操作介面和資料輸入方法,請參考 SPSS操作環境和資料輸入。

spss menu of Cohen's kappa

在「交叉表」視窗裡,把一個變項移至列(O),另一個變項移至欄(C),再點選視窗最右側的統計量(S)。在「交叉資料表:統計量」視窗裡,勾選 Kappa 後按下繼續(C)。另外,若想在列聯表裡看到期望次數,可以點選「交叉表」視窗最右側的資料格(E),在「交叉資料表:資料格顯示」視窗的計數(T)方框裡勾選期望值(E),然後按下繼續(C)。回到「交叉表」視窗後,再按下視窗下方的確定。

spss dialog box of Cohen's kappa

經過上述的步驟,SPSS 會輸出如下的4X4列聯表。列聯表顯示2位面試官針對100位應徵者的面試結果,每一個細格裡上、下數值分別為觀察次數和期望次數。

spss output of crosstabulation for Cohen's kappa

列聯表的下方即為如下的 kappa 統計量表格,從下表可以看到,kappa 統計量為0.211,標準誤為0.067,這些數值都和上面紙筆計算的結果相同。此外,下面的表格還呈現假設檢定的結果,因為p<0.001,所以不論事先設定的顯著水準(α水準)為0.05或0.01,都可拒絕2位面試官完全沒有共識的虛無假設。

spss output of Cohen's kappa statistic

雖然上表有假設檢定的結果,但是 kappa 假設檢定的意義並不是很大。這裡的假設檢定是在檢驗評分者間不存在一致性(完全沒有共識)的虛無假設,也就是\kappa=0,但是 kappa 為0根本不是一個能被接受的數值,畢竟當一致性如此低的時候,評分者之間顯然已經缺乏共識。

相較於假設檢定,信賴區間會更實用,不過 SPSS 沒有輸出信賴區間。雖然有點可惜,不過透過上表的 kappa 統計量和標準誤,利用上面的公式(3),還是可以自行計算出信賴區間,詳細的計算方法可以參考上面 Cohen′s kappa 的例子裡的說明。

以上為本篇文章對 Cohen′s kappa 的介紹,希望透過本篇文章,您瞭解了 kappa 統計量的使用時機和計算方法,也學會了運用 SPSS 取得 kappa 統計量的操作過程。若您喜歡本篇文章,請將本網站加入書籤,並隨時回訪本網站喔!另外,也歡迎您追蹤本網站的 Facebook 和/或 X(Twitter)專頁喲!

如果您覺得本篇文章對您有幫助,歡迎買杯珍奶給 Dr. Fish!小小珍奶,大大鼓勵,您的支持將給 Dr. Fish 更多撰寫優質文章的動力喲!

參考資料

Cohen, J. (1960). A coefficient of agreement for nominal scales. Educational and Psychological Measurement, 20, 37-46.

標籤: kappa SPSS α水準 一致性測量 信賴區間 假設檢定 列聯表 卡方檢定 名義尺度 四捨五入 常態分配 期望次數 標準分數 標準誤 獨立性檢定 觀察次數 評分者間信度 類別變項 顯著水準

文章導覽

❮ Previous Post: 卡方獨立性檢定的事後分析:標準化殘差和調整後殘差的運用
Next Post: 如何使用Excel製作列聯表 ❯

您可能也會喜歡

featured image of test of independence
卡方獨立性檢定的假設檢定
featured image of chi-square post hoc analysis
卡方獨立性檢定的事後分析:標準化殘差和調整後殘差的運用
featured image of likelihood ratio test
概似比檢定:類別資料分析的另一種選擇
featured image of odds ratio for chi-square test of independence
卡方獨立性檢定的效果量:勝率比

關於 Dr. Fish

profile picture uploaded on July 5, 2024

喜歡求知和分析,所以一路讀到博士。也喜歡旅行、攝影、料理、看日劇,愛把複雜的思想和事物變簡單,是個有點宅也有點跳TONE的人。

支持 Dr. Fish

本網站經營和文章撰寫皆由Dr. Fish一人完成,投注許多時間和費用。若您喜歡任何一篇文章或覺得文章對您有幫助,請給我一些支持,買杯珍奶給我吧!您的支持不但能給我更多撰寫文章的動力,也可以讓這網站的經營持續下去喔!謝謝!😄

boba-icon
請我喝珍奶!
featured image of spss environment and data entry

下載專區

標準常態分配表

Student's t 分配臨界值表

F分配臨界值表

卡方分配臨界值表

斯皮爾曼等級相關係數臨界值表

Wilcoxon配對符號等級檢定臨界值表

曼–惠特尼U檢定臨界值表

Student化全距分配臨界值表

Dunnett檢定臨界值表(雙尾檢定)

單一樣本z檢定的SPSS語法

關於Dr. Fish漫游社會統計

本網站使用簡單易懂的文字解說社會統計,並示範軟體操作,同時有課後隨筆的分享,希望讀者在學習之餘,也能感受到生活的樂趣。

網站政策

著作權聲明 Copyright Notice
隱私權政策 Privacy Policy
免責聲明  Disclaimer

追蹤我們

Facebook
X(Twitter)

Copyright © 2021-2025 Dr. Fish 漫游社會統計. All rights reserved.