關聯樣本t檢定的信賴區間和效果量

關聯樣本ｔ檢定（correlated samples t-test）適用在2個相關聯的群組或樣本平均數的比較上，屬於母數檢定，其假設檢定的過程已經在〈關聯樣本ｔ檢定的假設檢定〉裡有詳細的介紹。不過除了2個關聯群組或樣本平均數是否有顯著差異的探討外，很多時候也會想瞭解平均數差異的信賴區間和效果量。

信賴區間為一種區間估計，可以指出包含2個關聯群組或樣本來自的母群體平均數差異的數值區間，一般會使用95%或99%信賴區間。此外，當關聯樣本ｔ檢定結果指出2個關聯群組或樣本平均數顯著不同，也就是自變項具有效果或影響時，可再進一步計算效果量來瞭解效果的大小。

下面內容將先簡單回顧關聯樣本ｔ檢定的使用時機和檢定統計量的計算方法，再介紹信賴區間和效果量的計算並舉例說明，最後示範運用 SPSS 取得信賴區間和效果量的方法。由於本篇文章為關聯樣本ｔ檢定的延伸內容，若您不清楚這種統計檢定的概念，建議先閱讀關聯樣本ｔ檢定的假設檢定，將有助於下面內容的理解喔！

關聯樣本ｔ檢定的簡單回顧
關聯樣本ｔ檢定的信賴區間
關聯樣本ｔ檢定的效果量
用 SPSS 取得關聯樣本ｔ檢定的信賴區間和效果量

關聯樣本ｔ檢定的簡單回顧

關聯樣本是指群組或樣本間沒有彼此獨立，而是具有關聯性，也稱為相關樣本、配對樣本、成對樣本或相依樣本，而2個關聯樣本的研究參與者可以是相同的參與者或配對的參與者。若從研究設計的角度來說，不同的實驗情境使用相同的參與者，稱為重複量數設計；不同的實驗情境使用配對的參與者，稱為配對組設計。

關聯樣本ｔ檢定適用在2個關聯群組或樣本的比較上，探討群組或樣本平均數是否有顯著的不同。因為樣本之間具有關聯性，所以關聯樣本ｔ檢定的檢定統計量可以利用2樣本的配對分數差值來進行運算。換句話說，關聯樣本ｔ檢定雖然實質上為2個樣本的平均數比較，但技術上可簡化為2樣本平均數差值的單一樣本ｔ檢定。

若讓 $D$ 代表樣本配對的差值分數、 $\overline D$ 為樣本配對差值分數的平均數、 $\mu_D$ 為母群體配對差值分數的平均數、 $s_D$ 為樣本配對差值分數的標準差、 $N$ 為樣本配對差值分數的組數，關聯樣本ｔ檢定的檢定統計量和自由度（degrees of freedom，簡稱為 df）公式如下：

(1) $\begin{align*} t &= \frac {\overline D-\mu_D}{\dfrac {s_D}{\sqrt {N}}} \\[5pt]df &= N-1\end{align*}$

利用上面的公式得到ｔ檢定統計量後，再依據事先決定的顯著水準（ α 水準）、自由度和檢定方向性的有無，從ｔ分配表找到ｔ臨界值。最後，運用決策規則，比較ｔ檢定統計量和ｔ臨界值來評估檢定的結果。若是利用統計分析軟體如 SPSS、SAS，則可以比較獲得檢定統計量的機率（p 值）和 α 水準來評估檢定的結果。

以上為關聯樣本ｔ檢定的簡單回顧，更完整的介紹可以參考關聯樣本ｔ檢定的假設檢定。下面將使用〈關聯樣本ｔ檢定的假設檢定〉裡家庭暴力防治課程對學員知識程度影響的例子，介紹信賴區間和效果量的計算方法。

關聯樣本ｔ檢定的信賴區間

信賴區間是指可能包含母群體參數的一個數值範圍，並同時指出落在這個範圍的機率，屬於一種區間估計（interval estimate），和僅使用一個數值來估計母群體參數的點估計（point estimate）有所不同。

關聯樣本ｔ檢定適用在2個關聯樣本平均數的比較上，當檢定結果指出2個關聯樣本平均數有顯著的不同時，若進一步計算信賴區間將有助於瞭解可能包含平均數差值的數值範圍。上面已經提到關聯樣本ｔ檢定在技術上可視為2個樣本平均數差值的單一樣本ｔ檢定，所以信賴區間的計算也如同單一樣本ｔ檢定的信賴區間計算。關於單一樣本ｔ檢定信賴區間的詳細介紹，可以參考小樣本或σ未知的信賴區間之計算。

若讓 $\overline D$ 為樣本配對差值分數的平均數、 $p$ 為信賴區間的機率值、 $t$ 為臨界值、 $\mu_D$ 為母群體配對差值分數的平均數、 $s_D$ 為樣本配對差值分數的標準差、 $N$ 為樣本配對差值分數的組數，關聯樣本ｔ檢定的信賴區間不等式如下：

(2) $\begin{equation*}\overline D - \left ( t_{\frac{1-p}{2}} \times \frac {s_D}{\sqrt {N}} \right ) \leq \mu_D \leq \overline D + \left ( t_{\frac {1-p}{2}} \times \frac {s_D}{\sqrt {N}} \right )\end{equation*}$

信賴區間常用的機率值為0.95或0.99，也就是95%或99%信心程度。上面不等式的左右2個數值為信賴界限，最小值稱為下信賴限，最大值稱為上信賴限。

下信賴限： $\overline D - \left ( t_{\frac {1-p}{2}} \times \dfrac {s_D}{\sqrt {N}} \right )$
上信賴限： $\overline D + \left ( t_{\frac {1-p}{2}} \times \dfrac {s_D}{\sqrt {N}} \right )$

在〈關聯樣本ｔ檢定的假設檢定〉的例子裡，有一位社會工作者想探討家庭暴力防治課程是否對學員的知識程度有影響，因此他設計了一份20題選擇題的家庭暴力相關知識問卷，分別在課程開始前與課程結束後請10位參與學員填寫這份問卷，這10位學員的前測和後測成績如下表。

	1	2	3	4	5	6	7	8	9	10
pre-test	9	14	17	7	15	11	16	12	13	10
post-test	6	15	20	11	17	13	18	15	17	16

在顯著水準（α 水準）為0.05、自由度為9且雙尾檢定的情況下，關聯樣本ｔ檢定的結果顯示家庭暴力防治課程對學員的知識程度有影響，詳細的假設檢定過程請參考〈關聯樣本ｔ檢定的假設檢定〉裡家庭暴力防治課程對學員知識程度影響的例子。計算過程中已經知道下面的資訊：

$\begin{align*}\overline D &= 2.4 \\s_D &= 2.36643 \\N &= 10 \\t_{\text {critical}} &= \pm 2.262\end{align*}$

既然檢定結果已經指出家庭暴力防治課程對學員的知識程度有影響，便可再進一步探討前、後測平均數差值的信賴區間。把上面的數值帶入不等式(2)裡，並將所有無法整除的數值四捨五入到小數點後第3位，計算過程如下：

$\begin{align*}2.4 - \left ( 2.262 \times \frac {2.36643}{\sqrt {10}} \right ) \leq &\mu_D \leq 2.4 + \left ( 2.262 \times \frac {2.36643}{\sqrt {10}} \right ) \\[5pt]0.707 \leq &\mu_D \leq 4.093\end{align*}$

計算結果顯示信賴下限為0.707而信賴上限為4.093，這結果指出有0.95的機率或95%的信心程度，學員前、後測平均成績的差值會落在0.707和4.093之間。

關聯樣本ｔ檢定的效果量

效果量（effect size）是一個可用來瞭解自變項效果大小的量化數值，類似標準分數的概念。當統計檢定結果達到統計上顯著，也就是分析結果指出自變項帶有效果時，可再進一步計算效果量來瞭解自變項效果的大小。

因為關聯樣本ｔ檢定技術上可視為2個樣本平均數差值的單一樣本ｔ檢定，所以關聯樣本ｔ檢定的效果量計算也類似單一樣本ｔ檢定的效果量計算，同樣使用 Cohen′s d。關於詳細的效果量介紹和單一樣本ｔ檢定的效果量計算方法，請參考效果量的意義和測量。

在關聯樣本的設計裡，效果量的大小和2個關聯樣本平均數的差值（也就是樣本配對差值分數的平均數）有直接的關聯。若讓 $\overline D$ 為樣本配對差值分數的平均數、 $\sigma_D$ 為母群體配對差值分數的標準差，關聯樣本ｔ檢定的效果量公式如下：

$d = \frac { | \overline D | }{\sigma_D}$

由於效果量的計算在於瞭解效果的「大小」而不是效果的「方向」，所以可忽略配對差值分數平均數的正負號，因此 $\overline D$ 取絕對值。此外，我們通常無法知道母群體配對差值分數的標準差，所以改用樣本配對差值分數的標準差來估計，因此上面關聯樣本ｔ檢定的效果量公式會變成：

(3) $\begin{equation*}\hat d = \frac { | \overline D | }{s_D}\end{equation*}$

$\begin{equation*}\begin{CJK*}{UTF8}{bsmi}\begin{align*}\hat d &= \text {Cohen´s $d$ 的估計值} \\|\overline D| &= \text {樣本配對差值分數平均數的絕對值} \\s_D &= \text {樣本配對差值分數的標準差}\end{align*}\end{CJK*}\end{equation*}$

將上面家庭暴力防治課程對學員知識程度影響例子的資料帶入公式(3)裡，並把結果四捨五入到小數點後第3位，計算過程如下：

$\begin{align*}\hat d &= \frac { | 2.4 | }{2.36643} \\[5pt]&\approx 1.014\end{align*}$

計算結果指出效果量為1.014，若用 Cohen（1988）提出的效果量參考指標（下表）來看，家庭暴力防治課程對於學員的知識程度有很大的效果。

效果量	$\boldsymbol{\hat d}$
小效果量	0.1
中效果量	0.3
大效果量	0.5

雖然 Cohen（1988）的效果量參考指標很方便，但不同的研究領域會有不同的效果量評估標準，因此不建議將這套指標適用在所有的研究領域上。若自己的研究領域有相對應的效果量評估標準，應以自己研究領域的評估標準為主，才能做出合適的解釋。

另外還有一點須注意的地方，當研究假設的對立假設具有方向性，也就是單尾檢定時，樣本配對差值分數的平均數 $\overline D$ 必須和對立假設的方向一致，否則就應保留虛無假設。在此種情況下，由於分析結果沒有達到統計上顯著，也沒有需要進一步計算效果量。

用 SPSS 取得關聯樣本ｔ檢定的信賴區間和效果量

將上面家庭暴力防治課程對學員知識程度影響例子的資料輸入至 SPSS 資料編輯器裡，因為是關聯樣本，所以樣本數為前、後測的配對組數，以一欄為一個變項的方式來輸入資料，一共有10組。這裡有3個變項，第1個變項 ID 為學員編號，第2個變項 PRE 為前測成績而第3個變項 POST 為後測成績。關於 SPSS 的資料輸入方式，請參考 SPSS 操作環境和資料輸入。

spss data of correlated samples t-test for confidence interval and effect size

資料輸入完成後，點選資料編輯器功能表的分析 » 比較平均數 » 成對樣本Ｔ檢定，帶出「配對樣本Ｔ檢定」視窗。

在「配對樣本Ｔ檢定」視窗裡，將變項 PRE 和 POST 分別移到配對變數(V)裡變數1和變數2的位置。接著，點選視窗右側的選項(O)，在「配對樣本Ｔ檢定：選項」小視窗的信賴區間百分比(P)方格裡輸入信心程度的數值，這裡為95，完成後點選小視窗下方的繼續(C)。

回到「配對樣本Ｔ檢定」視窗後，勾選估計效應大小(E)，並在利用下列方法計算標準化的方框裡點選差異標準差(S)的選項，完後後按下視窗下方的確定。（注意：SPSS 第27版之前沒有效果量估計的選項，需自行手動計算或利用 Excel 計算。）

spss dialog box of correlated samples t-test

經過上述的步驟，SPSS 會輸出如下的成對樣本檢定結果表格。在這個檢定結果表格裡可以看到平均數差值的95%信賴區間，下信賴限為-4.093而上信賴限為-0.707。換句話說，有0.95的機率或95%信心程度，學員前、後測成績平均數的差值會落在-4.093和-0.707之間。因為 SPSS 用前測成績減後測成績，而不是上面紙筆計算的後測成績減前測成績，所以數值為負數，但這不影響最後結果的解釋。

spss output of 95% CI for correlated samples t-test

效果量會顯示在成對樣本效果量的表格裡，從 Cohen′s d 那一列可以看到，樣本配對差值分數標準差為2.366，效果量 Cohen′s d 為 -1.014。同樣地，因為 SPSS 用前測成績減後測成績且沒有取絕對值，所以效果量為負數，但這不影響最後結果的解釋。您可自行取絕對值，再依據研究領域的效果量評估標準來判斷效果量的大小。

spss output of effect size for correlated samples t-test

若沒有 SPSS 第27版以上的版本但想取得效果量 Cohen′s d，可以利用上面的公式(3)和計算機來進行紙筆運算。此外，也可以複製 SPSS 輸出的成對樣本檢定表格並貼上至 Excel 工作表裡，如下圖。下圖裡樣本配對差值分數的平均數位於儲存格C5而標準差位於儲存格D5，找一空白的儲存格輸入下面的語法：

=ABS(C5)/D5

這語法要求取得儲存格C5的絕對值後除以儲存格D5，這也是效果量 Cohen′s d 的計算公式。語法輸入完成後，按下 Enter 會傳回1.014185，除了正負號外，和 SPSS 的輸出結果是一樣的。若您不熟悉或不清楚利用 Excel 進行數值運算的方法，可以參考如何使用 Excel 進行數學計算【基礎篇】和如何使用 Excel 進行數學計算【進階篇】。

Cohen's d calculation for correlated samples using Excel

除了效果量外，我們也可用 Excel 來取得關聯樣本ｔ檢定的信賴區間，操作上雖然比專門的統計分析軟體麻煩一點，但在沒有專門統計分析軟體的情況下，不失為一個替代的選擇。若您想瞭解操作方法，可以參考如何使用 Excel 取得關聯樣本ｔ檢定的信賴區間。

總結而言，當關聯樣本ｔ檢定的結果達到統計上顯著，也就是分析結果指出自變項具有效果時，可以進一步計算信賴區間和效果量。透過信賴區間，可以瞭解2個樣本平均數差值可能存在的數值範圍，而效果量則能夠看出自變項的效果大小。不論是信賴區間或效果量，都能夠讓我們更清楚資料傳達的訊息。

以上為本篇文章對關聯樣本ｔ檢定的信賴區間和效果量的介紹，希望透過本篇文章，您瞭解了關聯樣本ｔ檢定的信賴區間和效果量的意義和計算方法，也學會了利用 SPSS 取得這2種統計量的方法。若您喜歡本篇文章，請將本網站加入書籤，並持續回訪本網站喔！另外，也歡迎您追蹤本網站的 Facebook 和／或 X（Twitter）專頁喲！

如果您覺得本篇文章對您有幫助，歡迎買杯珍奶給 Dr. Fish！小小珍奶，大大鼓勵，您的支持將給 Dr. Fish 更多撰寫優質文章的動力喔！

參考資料

Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.). Hillsdale, NJ: Lawrence Erlbaum Associates, Publishers.

關聯樣本ｔ檢定的簡單回顧

關聯樣本ｔ檢定的信賴區間

關聯樣本ｔ檢定的效果量

用 SPSS 取得關聯樣本ｔ檢定的信賴區間和效果量

參考資料

您可能也會喜歡