獨立樣本和關聯樣本t檢定的比較

獨立樣本ｔ檢定用來比較兩個「獨立的」群組或樣本平均數是否有顯著的不同，而關聯樣本ｔ檢定（也稱為成對樣本ｔ檢定）則是用來比較兩個「關聯的」群組或樣本平均數是否有顯著的差異。兩者使用不同的研究設計，前者使用不同受試者的獨立樣本設計，後者則使用相同或配對受試者的重複量數或配對組設計。

雖然這兩種統計檢定方法的使用時機分明，但為什麼要使用重複量數或配對組的研究設計而不直接使用獨立樣本的設計就好呢？原因在於關聯樣本設計的變異（誤差）小於獨立樣本的設計，使得關聯樣本ｔ檢定的檢定統計量比獨立樣本ｔ檢定的檢定統計量更為強力（powerful），更具有統計檢定力，因此更容易拒絕虛無假設。

本篇文章將使用一個例子來說明關聯樣本ｔ檢定和獨立樣本ｔ檢定分析結果的差異，但在此之前，先簡單地回顧獨立樣本ｔ檢定和關聯樣本ｔ檢定的檢定統計量計算方式。由於文章內容牽涉到假設檢定，若您不清楚或不熟悉假設檢定的過程，建議您先閱讀假設檢定的步驟和範例，將有助於下面內容的理解。

獨立樣本ｔ檢定的檢定統計量
關聯樣本ｔ檢定的檢定統計量
關聯樣本ｔ檢定的範例
運用獨立樣本ｔ檢定分析相同資料
獨立樣本和關聯樣本ｔ檢定的比較

獨立樣本ｔ檢定的檢定統計量

獨立樣本ｔ檢定是用來比較兩個獨立樣本的平均數是否有顯著差異且母群體變異數未知的一種統計檢定方法，使用ｔ分配和ｔ檢定統計量。

既然獨立樣本ｔ檢定在比較兩個獨立樣本的平均數，檢定統計量的分子即為兩個樣本平均數的差值減去兩個樣本來自的母群體平均數之差值，也就是 $(\overline X_1-\overline X_2)-(\mu_1-\mu_2)$ 。但因為在假設檢定的過程中，研究人員是評估 $\mu_1=\mu_2$ 的虛無假設，所以 $\mu_1-\mu_2=0$ ，分子也僅剩 $\overline X_1-\overline X_2$ 。

檢定統計量的分母為誤差，而根據變異數總和法則（variance sum law），「兩個獨立變項的變異等於兩個變項的變異數之和」（Howell, 2009, p.204）。因此，在兩個獨立樣本的研究設計裡，樣本平均數差異抽樣分配的變異為兩個樣本各自的平均數抽樣分配的變異數之總和：

$\sigma_{\overline X_1-\overline X_2}^2=\sigma_{\overline X_1}^2+\sigma_{\overline X_2}^2$

當母群體變異數未知的時候，則利用樣本變異數 $s^2$ 來估計母群體變異數 $\sigma^2$ ，而標準誤為變異數的平方根，所以樣本平均數差異標準誤的估計值變成：

(1) $\begin{equation*}s_{\overline X_1-\overline X_2}=\sqrt {s_{\overline X_1}^2+s_{\overline X_2}^2}\end{equation*}$

因此，當兩個獨立樣本的樣本大小相同，也就是 $n_1=n_2$ 的時候，獨立樣本ｔ檢定的檢定統計量公式如下：

(2) $\begin{equation*}t=\frac {\overline X_1-\overline X_2}{\sqrt {s_{\overline X_1}^2+s_{\overline X_2}^2}}\end{equation*}$

不過，當兩個獨立樣本的樣本大小不相同時（ $n_1 \neq n_2$ ），上面的公式(1)便無法提供正確的誤差估計值，分母的誤差須改成考量樣本大小的合併變異數估計值（pooled variance estimate）。此時，ｔ檢定統計量的公式變成：

(3) $\begin{equation*}t=\frac {\overline X_1-\overline X_2}{\sqrt{(\displaystyle \frac {SS_1+SS_2}{n_1+n_2-2})(\frac {1}{n_1}+\frac {1}{n_2})}}\end{equation*}$

上面的公式(3)中， $SS$ 稱為離差平方和（sum of squared deviations），簡稱為平方和（sum of squares），指樣本中的每一個分數和樣本平均數間的差值平方後相加而得到的數值。此外， $n_1$ 、 $n_2$ 分別為第1個和第2個樣本的個數， $n_1+n_2-2$ 為自由度（degrees of freedom，簡稱df）。

但不論兩個樣本的樣本數是否一致，若要比較兩個獨立樣本的平均數是否有顯著的差異，皆可使用公式(3)來計算ｔ檢定統計量，之後再運用決策規則，評估是否能拒絕虛無假設。

關聯樣本ｔ檢定的檢定統計量

關聯樣本ｔ檢定用來比較兩個相關聯（非各自獨立）樣本的平均數是否有顯著的不同，也稱為成對樣本ｔ檢定，通常使用在重複量數（repeated-measures）或配對組設計（matched-group design）的研究設計上，也是使用ｔ分配和ｔ檢定統計量。

不過，關聯樣本ｔ檢定的檢定統計量計算方式不同於獨立樣本ｔ檢定的檢定統計量計算方式。在關聯樣本的設計裡，因為兩個樣本具有關聯性，計算誤差時須移除兩個樣本的關聯程度。若讓 $s_{\overline X_1}$ 、 $s_{\overline X_2}$ 分別代表第1個和第2個樣本平均數抽樣分配的標準誤估計值， $r$ 為兩樣本間的相關係數，樣本平均數差異標準誤的估計值如下：

(4) $\begin{equation*}s_{\overline X_1-\overline X_2}=\sqrt {s_{\overline X_1}^2+s_{\overline X_2}^2-2r(s_{\overline X_1})(s_{\overline X_2})}\end{equation*}$

相對地，在獨立樣本的設計裡，因為兩個樣本各自獨立，所以關聯程度 $r=0$ ，使得上面公式(4)的 $2r(s_{\overline X_1})(s_{\overline X_2})=0$ ，其樣本平均數差異標準誤的估計值才會是上面公式(1)的樣子。

理論上，關聯樣本ｔ檢定也是在比較兩個樣本的平均數，所以檢定統計量的分子和獨立樣本ｔ檢定相同，皆為 $(\overline X_1-\overline X_2)-(\mu_1-\mu_2)$ ，分母則為上面的公式(4)。因此，概念上關聯樣本ｔ檢定的檢定統計量公式為：

(5) $\begin{equation*}t=\frac {(\overline X_1-\overline X_2)-(\mu_1-\mu_2)}{\sqrt {s_{\overline X_1}^2+s_{\overline X_2}^2-2r(s_{\overline X_1})(s_{\overline X_2})}}\end{equation*}$

但在關聯樣本的設計裡，兩個樣本畢竟使用了相同或配對的受試者，所以計算檢定統計量時可以使用配對的差值分數來進行分析，使得計算過程更為簡單，稱為直接差分法（direct difference method）。這種方法將原本屬於兩組樣本的分析轉換成單一樣本的分析，也就是將關聯樣本ｔ檢定看成是單一樣本ｔ檢定。

讓 $D$ 代表配對的差值分數， $\overline D$ 為樣本差值分數的平均數， $\mu_D$ 為母群體差值分數的平均數， $s_D$ 為樣本差值分數的標準差， $N$ 為差值分數的總個數， $\sum D^2$ 指所有差值分數的平方和， $(\sum D)^2$ 指所有差值分數總和的平方，關聯樣本ｔ檢定的檢定統計量公式為：

$t=\frac {\overline D-\mu_D}{\dfrac {s_D}{\sqrt N}}=\frac {\overline D-\mu_D}{\sqrt {\dfrac{\sum D^2-\dfrac {(\sum D)^2}{N}}{N(N-1)}}}$

由於在假設檢定的過程中，研究人員大多是在評估 $\mu_D=\mu_1-\mu_2=0$ 的虛無假設，所以上面的公式可再簡化成下面的公式：

(6) $\begin{equation*}t=\frac {\overline D}{\sqrt {\dfrac{\sum D^2-\dfrac {(\sum D)^2}{N}}{N(N-1)}}}\end{equation*}$

因此，若要探討兩個關聯樣本的平均數是否有顯著的差異，可以使用公式(6)來計算ｔ檢定統計量，自由度為 $N-1$ ，之後再透過決策規則，評估是否拒絕虛無假設。

瞭解了獨立樣本ｔ檢定和關聯樣本ｔ檢定的檢定統計量計算方式後，下面舉一個例子並使用關聯樣本ｔ檢定和獨立樣本ｔ檢定進行分析，再比較兩種分析結果的差異。

關聯樣本ｔ檢定的範例

有一位衛生教育人員想要探討牙齒清潔的宣導短片是否會影響小學生刷牙的次數。他從任職的小學中隨機抽取出10位學生，先調查每一位學生一個月期間的刷牙次數（before film）。之後，他讓10位學生觀賞牙齒清潔的宣導短片，並記錄接下來一個月的刷牙次數（after film），這10位小學生的刷牙次數紀錄如下表。使用α水準0.05、雙尾檢定，試問牙齒清潔的宣導短片是否影響小學生的刷牙次數？

correlated data of correlated vs independent samples t-tests

這位衛生教育人員想探討牙齒清潔的宣導短片是否會「影響」小學生的刷牙次數，屬於無方向性的研究假設，所以對立假設和虛無假設分別如下：

對立假設（ $H_1$ ）：牙齒清潔的宣導短片會影響小學生的刷牙次數，也就是說，這10位小學生的配對差值分數平均數是來自於母群體差值平均數 $\mu_D \neq 0$ 的一組隨機樣本。
虛無假設（ $H_0$ ）：牙齒清潔的宣導短片不會影響小學生的刷牙次數，也就是說，這10位小學生的配對差值分數平均數是來自於母群體差值平均數 $\mu_D=0$ 的一組隨機樣本。

由於研究屬於探索的性質，所以這位衛生教育人員選擇0.05的α水準。此外，因為研究假設不具有方向性，所以採用雙尾檢定。若以符號來表示，可寫成 $\alpha=0.05_{\text {2 tail}}$ 。

因為這個研究使用相同的受試者，也就是10位小學生，屬於關聯樣本裡的重複量數設計，所以可使用關聯樣本ｔ檢定來分析牙齒清潔宣導短片是否有效果。

關聯樣本ｔ檢定使用ｔ分配和ｔ檢定統計量，可利用上面的公式(6)來求得ｔ檢定統計量。套用公式前，可先在如下的表格裡將公式所需的數值計算出來：

computation of correlated data of correlated vs independent samples t-tests

上表中的 $D$ 指宣導短片觀賞前和觀賞後刷牙次數的差值，這裡是用觀賞後的次數減去觀賞前的次數，反之亦可。接著，將上表中的數值帶入公式(6)裡，計算過程如下：

$t=\frac {\overline D}{\sqrt {\dfrac{\sum D^2-\dfrac {(\sum D)^2}{N}}{N(N-1)}}}=\frac {1.5}{\sqrt {\dfrac {47-\dfrac{15^2}{10}}{10 \times 9}}}=\frac {1.5}{\sqrt {0.27222}} \approx 2.875$

計算結果顯示關聯樣本ｔ檢定的ｔ檢定統計量為2.875，自由度為 $N-1=10-1=9$ 。然後，查詢ｔ分配表，當α水準為0.05、雙尾檢定、自由度為9時，ｔ臨界值為 $\pm 2.262$ 。

critical value of t distribution with alpha 0.05 and df 9

最後，運用ｔ檢定統計量和ｔ臨界值比較的決策規則，因為 $\left | 2.875 \right | > \left | \pm 2.262 \right |$ ，所以能夠拒絕虛無假設，接受對立假設。關聯樣本ｔ檢定的分析結果顯示，牙齒清潔宣導短片影響了小學生的刷牙次數，若從短片觀賞前後的平均數來看，觀賞後的刷牙次數（ $\overline X_{\text {post}}=26.7$ ）多於觀賞前的刷牙次數（ $\overline X_{\text {pre}}=25.2$ ）。

運用獨立樣本ｔ檢定分析相同資料

為了瞭解獨立樣本ｔ檢定和關聯樣本ｔ檢定分析結果的差異，這裡同樣使用上面例子的數值但改用獨立樣本的設計，並運用獨立樣本ｔ檢定來進行分析。由於是獨立樣本，所以兩組樣本是來自兩個母群體的不同受試者，也就是受試者會變成20位小學生而非10位小學生。其中一組沒有觀賞牙齒清潔的宣導短片（no film），另一組則有觀賞（fiml）。

independent data of correlated vs. independent samples t-tests

同樣使用無方向性的研究假設，但寫法會稍微不同於關聯樣本的設計，獨立樣本設計的對立假設和虛無假設分別如下：

對立假設（ $H_1$ ）：沒有觀賞牙齒清潔宣導短片的小學生和有觀賞宣導短片的小學生在刷牙次數上有所不同，也就是他們是來自於母群體 $\mu_1 \neq \mu_2$ 的隨機樣本。
虛無假設（ $H_0$ ）：沒有觀賞牙齒清潔宣導短片的小學生和有觀賞宣導短片的小學生在刷牙次數上沒有不同，也就是他們是來自於母群體 $\mu_1=\mu_2$ 的隨機樣本。

同樣使用α水準0.05、雙尾檢定，並利用上面的公式(3)來計算獨立樣本ｔ檢定的ｔ檢定統計量。因為需要兩個樣本的平均數（ $\overline X_1$ 、 $\overline X_2$ ）和離差平方和（ $SS_1$ 、 $SS_2$ ），所以先將套用公式時需要的數值在如下的表格裡計算出來：

computation of independent data of correlated vs. independent samples t-tests

利用上表中的數值，先計算出 $SS_1$ 和 $SS_2$ 後，再將數值帶入公式(3)，整個計算過程如下：

$\begin{align*}SS_1 &= \sum (X_1-\overline X_1)^2=\sum X_1^2-\frac {(\sum X_1)^2}{n_1}=6412-\frac {252^2}{10}=61.6 \\[10pt]SS_2 &= \sum (X_2-\overline X_2)^2=\sum X_2^2-\frac {(\sum X_2)^2}{n_2}=7165-\frac {267^2}{10}=36.1\end{align*}$

$\begin{align*}t &= \frac {\overline X_1-\overline X_2}{\sqrt{(\dfrac {SS_1+SS_2}{n_1+n_2-2})(\dfrac {1}{n_1}+\dfrac {1}{n_2})}} \\&= \frac {25.2-26.7}{\sqrt {(\dfrac {61.6+36.1}{10+10-2})(\dfrac {1}{10}+\dfrac {1}{10})}} \\&= \frac {-1.5}{\sqrt {1.08556}} \\&\approx -1.440\end{align*}$

獨立樣本ｔ檢定的ｔ檢定統計量為-1.440，自由度為 $n_1+n_2-2=10+10-2=18$ 。接著，查詢ｔ分配表，當α水準為0.05、雙尾檢定、自由度為18時，ｔ臨界值為 $\pm 2.101$ 。

critical value of t distribution with alpha 0.05 and df 18

最後，利用ｔ檢定統計量和ｔ臨界值比較的決策規則，因為 $\left | -1.440 \right | < \left | \pm 2.101 \right |$ ，所以保留虛無假設。獨立樣本ｔ檢定的分析結果指出，沒有觀賞牙齒清潔宣導短片的小學生和有觀賞宣導短片的小學生在刷牙次數上沒有不同，而這樣的研究結果顯然地不同於關聯樣本ｔ檢定的分析結果。

獨立樣本和關聯樣本ｔ檢定的比較

從上面的實際演算過程可發現，雖然使用完全相同的數值資料，但關聯樣本ｔ檢定和獨立樣本ｔ檢定的分析結果卻截然不同。關聯樣本ｔ檢定的分析結果顯示觀賞牙齒清潔的宣導短片會影響小學生的刷牙次數，然而獨立樣本ｔ檢定的分析結果卻指出觀賞宣導短片的小學生的刷牙次數和沒有觀賞宣導短片的小學生的刷牙次數並無不同。

其實，導致這兩種截然不同的分析結果的最主要原因為研究設計。關聯樣本的設計使用研究參與者本身作為研究的控制因子，排除了因為研究參與者個人的因素所導致的變異，進而降低了整體的變異（誤差），使得ｔ檢定統計量的數值變大，統計檢定力提升，因此更容易拒絕虛無假設。

下表呈現了兩種統計檢定的檢定統計量計算過程和結果，撇除正負號，兩者的分子是相同的，但分母則有所不同。分母的數值代表變異（也就是誤差），從表中可看出，關聯樣本ｔ檢定統計量的分母 $\sqrt {0.27222}$ 明顯地小於獨立樣本ｔ檢定統計量的分母 $\sqrt {1.08556}$ ，而正是這個較小的變異使得關聯樣本ｔ檢定統計量的數值大於獨立樣本ｔ檢定統計量的數值，因此更容易拒絕虛無假設。

統計檢定	檢定統計量
關聯樣本ｔ檢定	$t &= \frac {1.5}{\sqrt {\dfrac {47-\dfrac{15^2}{10}}{10 \times 9}}} = \frac {1.5}{\sqrt {0.27222}} \approx 2.875$
獨立樣本ｔ檢定	$t = \frac {25.2-26.7}{\sqrt {(\dfrac {61.6+36.1}{10+10-2})(\dfrac {1}{10}+\dfrac {1}{10})}} = \frac {-1.5}{\sqrt {1.08556}} \approx -1.440$

雖然關聯樣本ｔ檢定統計量較獨立樣本ｔ檢定統計量更為強力（powerful），但關聯樣本的研究設計具有一些固有的限制，並非隨時隨地都可使用，以下來探討這些限制：

自由度少於獨立樣本的設計：自由度是指一個統計量的計算過程中，可以自由變動的分數個數，是影響統計分析結果的一個重要因素。當自由度愈高的時候，臨界值愈小，也愈有可能拒絕虛無假設。從上面的例子來看，在關聯樣本的設計裡，雖然有20筆資料（每一位小學生都有2次的測量），但自由度只有9；而在獨立樣本的設計裡，同樣有20筆資料，自由度卻為18。因此，從1個測量為1個自由度的角度來看，獨立樣本設計比關聯樣本設計更具有效性（efficient）。
並非所有的研究都可使用相同的受試者：有些研究很明顯地無法在兩個不同的情境裡使用相同的研究參與者，例如涉及生理男性和女性、懷孕者和沒有懷孕者、受虐者和非受虐者等研究。另外，若第1個情境的作用會影響到第2個情境，也不適合使用相同的研究參與者，例如探討某種讀書技巧效果的研究，當研究參與者已經在第1個情境中學習到讀書技巧，他們就不適合再作為第2個情境的研究參與者。
配對耗費時間和資源：雖然在無法使用相同研究參與者的情況下，可改採用配對的研究參與者，但為了瞭解和取得配對所需要的資訊，通常須耗費難以估算的時間、邏輯和金錢。此外，退出率高也會影響配對組的研究設計，因為當其中一人退出的時候，配對的另一人也無法繼續留在研究裡。最後，配對組設計可能會因為無法找到合適的配對者而選擇性地捨棄一些特殊或極端的研究參與者，反而容易造成樣本無法反映出真實母群體的情況。

因此，固然關聯樣本ｔ檢定較獨立樣本ｔ檢定靈敏（較容易拒絕虛無假設），運用關聯樣本的設計有時也能夠以成本效益的方式獲得以往難以發現的研究成果，但基於上面3點關聯樣本設計的固有限制，使得獨立樣本設計仍舊是較常被使用的研究設計。但不論如何，研究人員都應依據研究的整體方向和目的，在理論基礎上，選擇合適的研究設計和統計分析方法，使研究結果得以反映真實的情況。

最後，不論是關聯樣本ｔ檢定或獨立樣本ｔ檢定，都只能適用在測量尺度為等距尺度或比率尺度的資料上。若資料為次序尺度，或資料的分配型態不是常態分配的情況下，這兩種統計檢定方法就變得不合適。此時，若是兩個相關聯的樣本，可改使用符號檢定或Wilcoxon配對符號等級檢定；若是兩個彼此獨立的樣本，則可改使用曼–惠特尼U檢定。

以上為本篇文章對獨立樣本ｔ檢定和關聯樣本ｔ檢定比較的介紹，希望透過本篇文章，您瞭解了這兩種統計檢定各自的檢定統計量計算方法和兩者之間的差異，也知道了關聯樣本和獨立樣本研究設計各自的優缺點。

若您喜歡本篇文章，請將本網站加入書籤，作為您的學習工具，並持續回訪本網站喔！另外，您也可以在Facebook和Twitter上找到我們喲！

參考資料

Howell, D. C. (2009). Statistical methods for psychology (7th ed.). Belmont, CA: Wadsworth.