phi係數的假設檢定

行為或社會科學領域的研究很常蒐集名義測量尺度的原始資料，特別是二分變項（dichotomous variable），也很常需要探討兩個二分變項之間的關聯性。二分變項是指僅有兩個類別的變項，例如生理女性和男性、生存和死亡、實驗組和對照組，通常會用0、1或1、2來編碼。

當兩個變項中的其中一個變項為二分變項，另一個變項為等距尺度或比率尺度的變項時，可使用點二系列相關係數（point-biserial correlation coefficient）來探討兩者之間的關聯性，通常用符號 $r_{pb}$ 來表示。然而，當兩個變項皆為二分變項的時候，則須用phi係數（phi coefficient）來評估其間的關聯程度，符號為 $\phi$ 。

雖然phi係數可用來瞭解兩個二分變項之間的關聯程度，但若要進一步判斷兩者之間的關聯性是否存在於母群體中，則要進行假設檢定（hypothesis testing），也可稱為顯著性檢定。因此，本篇文章將先簡單回顧phi係數的計算方法，再說明phi係數的假設檢定過程，最後示範利用SPSS評估phi係數假設檢定結果的操作方法。

phi係數的計算
phi係數的假設檢定
phi係數假設檢定的範例
運用SPSS評估phi係數的假設檢定結果
- 方法1：皮爾森積差相關係數的分析程序
- 方法2：列聯表裡的統計量選項

phi係數的計算

phi係數的計算方法已經在phi係數的意義和計算裡介紹過，這裡稍做回顧。phi係數其實是皮爾森積差相關係數的特例，也就是將皮爾森積差相關係數的公式應用至較低層次的測量尺度變項上。換句話說，若要計算兩個二分變項之間的phi係數，只須套用皮爾森積差相關係數的公式來計算即可。

概念上而言，皮爾森積差相關係數是將兩個變項各自轉換成標準分數後，再計算他們之間的關聯程度，詳細的計算方法可參考如何計算皮爾森積差相關係數。由於使用概念公式的計算過程容易牽涉到小數，增加計算錯誤的機率，所以可改使用下面的計算公式：

$\phi=r=\frac {\sum {xy}-\dfrac {(\sum x)(\sum y)}{N}}{\sqrt { \left [ \sum x^2-\dfrac {(\sum x)^2}{N} \right ] \left [ \sum y^2-\dfrac {(\sum y)^2}{N} \right ] }}$

上面的公式裡， $\sum x$ 和 $\sum y$ 分別指X變項和Y變項所有數值的總和、 $\sum {xy}$ 指成對的兩個變項數值的交叉乘積和、 $\sum x^2$ 和 $\sum y^2$ 分別指X變項和Y變項所有數值平方後的總和、 $(\sum x)^2$ 和 $(\sum y)^2$ 分別表示X變項和Y變項所有數值總和的平方、 $N$ 為樣本的總個數。若您不清楚或不熟悉總和運算的方法，請參考社會統計常用的基本數學符號和運算。

計算後得到的phi係數可使用Jacob Cohen（1992）所提出的皮爾森積差相關係數的參考指標來評估關聯程度，若phi係數為正數，數值0.1到0.3之間為低度相關、0.3到0.5之間為中度相關、0.5到1.0之間為高度相關，負數的phi係數也可做相同的解釋。

雖然使用Cohen的參考指標可以很簡單、快速地判斷兩個變項之間的關聯程度，但研究人員最好還是依據研究本身的整體目的、各個研究領域的過往研究結果來解釋phi係數，而不要盲目地遵從參考指標。

透過phi係數，可以知道兩個二分變項之間的關聯強度，但無法知道兩者之間的關係是否達到統計顯著，換句話說，兩者之間的關係是否存在於母群體中。為了解決這一問題，須進行假設檢定，下面就來介紹phi係數的假設檢定。

phi係數的假設檢定

phi係數的假設檢定不具有方向性，若母群體的相關係數為 $\rho$ ，phi係數的假設檢定是在評估 $\rho=0$ 的虛無假設（ $H_0$ ），也就是檢驗兩個二分變項是來自於 $\rho=0$ 的一組隨機樣本。對立假設（ $H_1$ ）則主張 $\rho \neq 0$ ，也就是兩個變項是來自於 $\rho \neq 0$ 的一組隨機樣本。關於研究假設的介紹，請參考研究假設的種類和寫法。

擬定好研究假設後，依據研究的性質、目的和研究可能帶來的後果，設定適當的顯著水準，或稱為α水準，習慣上為0.05、0.01或更嚴苛的0.001。

phi係數的假設檢定使用卡方分配和卡方檢定統計量，若讓 $N$ 指樣本總個數、 $\phi$ 指phi係數，卡方檢定統計量 $\chi^2$ 的計算公式為：

(1) $\begin{equation*}\chi^2=N \phi^2\end{equation*}$

卡方分配會隨著自由度（degrees of freedom，簡寫為df）的改變而有不同的分布型態，而自由度的計算與列聯表的列、欄數目有關。若讓列的數目為 $r$ 、欄的數目為 $c$ ，自由度的計算公式如下：

$df=(r-1) \times (c-1)$

列聯表的列、欄數目其實就是兩個變項各自的類別數目，由於phi係數涉及到兩個二分變項，代表每個變項的類別數目為2，所以自由度永遠為 $(2-1) \times (2-1)=1$ 。

運用上面的公式(1)求得卡方檢定統計量後，查詢卡方分配表，根據事先設定好的α水準和自由度1，找到相對應的臨界值。最後，運用決策規則，比較卡方檢定統計量和臨界值，若卡方檢定統計量等於或大於臨界值，即可拒絕虛無假設，接受對立假設；反之，則保留虛無假設。

如果使用統計分析軟體（例如SPSS、SAS）進行分析，通常會輸出獲得特定卡方檢定統計量的機率，也就是 $p$ 值，而不會輸出臨界值。這時候須運用機率比較的決策規則，當 $p \leq \alpha$ ，即可拒絕虛無假設，接受對立假設；若 $p > \alpha$ ，則保留虛無假設。但不論使用哪種決策規則，都會得到相同的結論。

瞭解了phi係數的假設檢定步驟後，以下使用〈phi係數的意義和計算〉裡防治宣導課程的參與和求助行為的範例來實際操作整個假設檢定的過程。

phi係數假設檢定的範例

假設有位家庭暴力防治的研究人員想瞭解親密伴侶暴力受虐者的求助行為和親密伴侶暴力防治宣導課程之間的關聯，她有10位參與者的資料，記錄了他們的課程參與情況和求助行為（如下表）。受虐者是否曾參與宣導課程的變項名稱為EDU，曾參與者的編碼為1，不曾參與者的編碼為0；受虐者是否曾向他人求助的變項名稱為HELP，曾求助者的編碼為1，不曾求助者的編碼為0。使用α水準0.05，試問親密伴侶暴力受虐者的求助行為和宣導課程的參與之間是否有顯著的關聯？

這位研究人員想探討親密伴侶暴力受虐者的求助行為和防治宣導課程的參與之間是否有關聯，為無方向性的研究假設，對立假設和虛無假設分別為：

對立假設（ $H_1$ ）：親密伴侶暴力受虐者的求助行為和防治宣導課程的參與有關聯。換句話說，這10位參與者是來自於母群體相關係數 $\rho \neq 0$ 的一組隨機樣本。
虛無假設（ $H_0$ ）：親密伴侶暴力受虐者的求助行為和防治宣導課程的參與沒有關聯。換句話說，這10位參與者是來自於母群體相關係數 $\rho=0$ 的一組隨機樣本。

因為親密伴侶暴力受虐者的求助行為和宣導課程的參與皆是用0和1編碼，所以兩個變項都屬於二分變項。為了探討兩者之間的關聯性是否真實地存在於母群體中，可使用phi係數的假設檢定。

phi係數的假設檢定使用卡方檢定統計量，計算公式為上述的公式(1)。為了使用這個公式，須先求得兩個變項之間的phi係數，從〈phi係數的意義和計算〉裡phi係數的計算已經知道 $\phi=0.408$ ，再將這個數值帶入上面的公式(1)裡：

$\chi^2=N \phi^2=10 \times (0.408)^2 \approx 1.665$

計算結果顯示卡方檢定統計量為1.665，然後查詢卡方分配表，當α水準為0.05且自由度為1的時候，卡方臨界值為3.841。

critical value of chi-square with alpha 0.05 and df 1

最後，運用決策規則，比較卡方檢定統計量和臨界值，因為 $1.665<3.841$ ，所以保留虛無假設。分析結果顯示，親密伴侶暴力受虐者的求助行為和防治宣導課程的參與沒有關聯。

這樣的研究結果可能讓人有點納悶，雖然這兩個變項的phi係數為0.408，若以Cohen的評估指標來看，兩者也達到中等程度的關聯；若從兩個變項所製成的列聯表（或稱為交叉表）來看，曾經參與宣導課程的人向他人求助的比率（66.7%）確實高於不曾參與課程的人（25%），但兩個變項之間的關聯卻沒有達到統計顯著。

contingency table of phi coefficient example

這樣的結果很可能導因於本範例的樣本總數 $N$ 只有10，過小的樣本數目影響了統計檢定力，降低了拒絕錯誤虛無假設的機率。若使用更大的樣本來複製該研究，說不定會得到不同的研究發現。

運用SPSS評估phi係數的假設檢定結果

運用SPSS評估phi係數的假設檢定結果有兩種方法，一種是使用皮爾森積差相關係數的分析程序，另一種則是利用列聯表裡的統計量選項，以下分別示範操作方法。

方法1：皮爾森積差相關係數的分析程序

將範例中的變項數值輸入至SPSS資料編輯器中，輸入完成後，點選功能表的分析 » 相關 » 雙變異數，帶出「雙變量相關性」視窗。關於SPSS的資料輸入方法，請參考SPSS操作環境和資料輸入。

在「雙變量相關性」視窗中，將EDU和HELP兩個變項移至右方的變數(V)方框中，勾選相關係數長框中的Pearson選項，其他的選項不用更動，最後點選視窗下方的確定。

dialog box of bivariate correlation to calculate phi coefficient in spss

經過上述的步驟後，SPSS會輸出如下的「相關性」表格。不論看EDU欄或HELP欄都可以，下表顯示分析的樣本總個數 $N$ 為10，phi係數（表格中的「皮爾森相關性」）為0.408，而獲得這個係數的機率值（表格中的「顯著性」）為0.242。

spss output of hypothesis test of phi coefficient

將上表中的顯著性（也就是 $p$ 值）和事先設定的α水準相比較，利用決策規則，因為0.242 > 0.05，也就是 $p>\alpha$ ，所以保留虛無假設。分析結果指出，親密伴侶暴力受虐者的求助行為和宣導課程的參與沒有關聯。

方法2：列聯表裡的統計量選項

在已經輸入範例資料的SPSS資料編輯器裡，點選功能表的分析 » 敘述統計 » 交叉資料表，帶出「交叉表」視窗。

using crosstab in spss to find phi coefficient

在「交叉表」視窗裡，將變項EDU移到欄(C)，變項HELP移到列(O)後，先按一下最右邊的統計資料(S)，會出現「交叉資料表：統計量」小視窗。在這個小視窗的名義方框中的4個選項裡，勾選Phi (Φ)和 Cramer´s V，完成後按下最下方的繼續(C)。回到「交叉表」視窗後，再按下最下方的確定。

dialog box of crosstab in spss to find significance test of phi coefficient

經過上述的步驟，SPSS會輸出如下的表格。從下表可看出，phi係數為0.408，大約顯著性（也就是 $p$ 值）為0.197。比較顯著性和事先設定的α水準，因為0.197 > 0.05（ $p>\alpha$ ），所以保留虛無假設。分析結果顯示，親密伴侶暴力受虐者的求助行為和宣導課程的參與之間沒有關聯。

spss output of significance test of phi coefficient using contingency table

因為方法1和方法2使用不同的演算法，雖然phi係數的數值相同，但獲得phi係數的機率值（SPSS表格裡的「顯著性」）並不相同。即便如此，不論使用哪一種方法，皆可進行phi係數的假設檢定，且會得到相同的分析結果。

以上為本篇文章對phi係數假設檢定的介紹，希望透過本篇文章，您瞭解了phi係數的假設檢定過程，也學會了如何利用SPSS評估phi係數的假設檢定結果。

若您喜歡本篇文章，請將本網站加入書籤，作為您的學習工具，並持續回訪本網站喔！此外，也歡迎您追蹤我們的Facebook和Twitter專頁喲！

參考資料

Cohen, J. (1992). A power primer. Psychological Bulletin, 112(1), 155-159. https://doi.org/10.1037/0033-2909.112.1.155

phi係數的計算

phi係數的假設檢定

phi係數假設檢定的範例

運用SPSS評估phi係數的假設檢定結果

方法1：皮爾森積差相關係數的分析程序

方法2：列聯表裡的統計量選項

參考資料

您可能也會喜歡