皮爾森積差相關係數(Pearson product-moment correlation coefficient)或簡單稱為皮爾森相關係數(Pearson correlation coefficient),是由 Karl Pearson 所提出,主要用來測量兩變項間關係的方向和程度的一種相關係數,在社會和行為科學研究裡很常使用到。
不同種類的相關係數適用在不同測量尺度的資料上,而皮爾森積差相關係數須用在等距或比率測量尺度的變項上。由於相關(correlation)是皮爾森積差相關係數的基礎概念,所以本篇文章先說明相關的概念,再介紹皮爾森積差相關係數的意義。
相關的概念
相關主要在探討變項間關係的方向和程度。關係的方向可分為正向關係和負向關係,正向關係指當一個變項的值增加的時候,另一個變項的值也跟著增加;負向關係則指當一個變項的值增加的時候,另一個變項的值隨之減少。
關係的程度是指變項間關聯的強度,範圍可從完全沒有關係到完全關係,可分成3種情況來看:
- 完全沒有關係:相關的程度最低;若知道其中一個變項的值,也無法用來預測或推估另一個變項的值。
- 不完全關係:相關程度中等;若知道其中一個變項的值,雖然無法完美地預測但可推估另一個變項的值。
- 完全關係:相關的程度最高;若知道其中一個變項的值,可以完美地預測另一個變項的值。
除了關係的方向和程度外,變項之間的關係還有線性關係和非線性關係之分,更多關於變項間關係的說明,可以參考變項之間關係的基本特色。
相關係數(correlation coefficient)是用來表示變項間關係的方向和強度的量化數值。相關係數的數值可從-1到+1,正號或負號代表關係的方向,數值本身則代表關係的強度,數值愈大表示關係程度愈高。
相關係數為的時候,代表完全關係,相關程度最高。係數+1表示變項間為正向的完全關係(下圖左),係數-1則表示變項間為負向的完全關係(下圖右)。
當相關係數為0的時候,代表變項間不存在關係,例如下圖的散布圖。兩個變項所構成的點四處分散,沒有呈現出任何系統性的變化。
當相關係數介於0和1或介於0和-1之間,且當其中一個變項的值增加,另一個變項的值也有增加或減少的趨勢時,兩變項間為不完全關係。當X變項的值增加,Y變項的值也有增加的趨勢時,為正向的不完全關係(下圖左);反之,當X變項的值增加,Y變項的值有減少的趨勢時,為負向的不完全關係(下圖右)。
在眾多的相關係數裡,皮爾森積差相關係數最常被使用到,用來測量等距或比率測量尺度變項間的關係程度和方向,下面就來探討這個相關係數的意義。
皮爾森積差相關係數的意義
皮爾森積差相關係數是在測量兩個成對的變項裡,當其中一個變項數值變化的時候,另一個變項數值往相同或相反方向變化的程度。簡單來說,就是上面所提到測量兩變項間關聯的方向和程度的一個量化數值,通常用符號表示。
由於兩個變項通常會使用不同的測量尺度和單位,例如閱讀的時間和期末考成績、平均車速和年齡、IQ和成績,造成相關程度理解上的困難,所以為了解決該問題,皮爾森積差相關係數將兩個變項轉換成具有相同尺度和單位的標準分數後,再測量其間的相關程度。
運用變項轉換成標準分數( score)的想法,皮爾森積差相關係數在概念上的公式如下:
(1)
上面的公式(1)裡,為配對的X變項和Y變項標準分數的交叉乘積和,為配對的X變項和Y變項的總組數。上面的公式可再轉換成:
(2)
上面的公式(2)指出皮爾森積差相關係數為兩變項的共變異數(covariance)除以兩變項的標準差乘積,而共變異數的公式為:
(3)
從公式(3)可看出,共變異數為兩個變項平均的離差數值交叉乘積和。但因為共變異數會受到變項測量單位的影響,所以將其除以兩變項的標準差乘積,使其標準化(standardization),就變成皮爾森積差相關係數。關於共變異數的詳細說明,請參考共變異數的意義和計算。
但不論是上述的公式(1)或(2),若要紙筆計算,須先求得兩變項的平均數、標準差和離差,過程中可能充斥著小數的運算,很容易產生進位誤差,因此上述的公式還可再轉換成一個運算上的公式,這個運算公式如下:
(4)
上面的公式(4)只須使用到原始分數,不需要事先計算出平均數、標準差和離差等數值,可大幅降低計算錯誤。若您不熟悉數學符號和總和運算,可參考社會統計常用的基本數學符號和運算,以下舉個例子來實際操作皮爾森積差相關係數的計算。
皮爾森積差相關係數的範例
假設一研究想探討年齡和平均行車速度之間的關聯程度,共有10位參與者,其年齡AGE(X變項)和平均行車速度SPEED(Y變項)如下表所示,試繪製散布圖,並運用上述的公式(4)計算兩者間的皮爾森積差相關係數。
將年齡AGE置於橫座標軸,平均行車速度SPEED置於縱座標軸,繪製出的散布圖如下圖。從散布圖可看出,年齡和平均行車速度呈現負向、不完全的線性關係。散布圖繪製方式的詳細介紹,可參考如何繪製散布圖。
使用上面的公式(4)來計算皮爾森積差相關係數,先將套用公式時需要的數值在表格中計算出來,如下表所示:
再將上表中的數值帶入上面的公式(4)裡:
從計算結果得知,皮爾森積差相關係數為-0.8712,代表年齡和平均行車速度之間的關聯程度很高,當年齡愈大,平均行車速度愈慢。
Jacob Cohen(1992)曾針對皮爾森積差相關係數的數值所代表的關聯程度提出一個如下表的參考指標,若兩變項間為正向關係,相關係數0.1到0.3之間為低度相關、0.3到0.5間為中度相關、0.5到1.0之間為高度相關,而負向關係也可做相同的解釋。
雖然使用上表可以很方便地判斷變項間關聯程度的大小,但建議您最好還是依據研究本身的整體目的和各個研究領域的標準來解釋相關係數,而不要盲目地遵從參考指標。
不過,皮爾森積差相關係數並不是母群體相關係數的不偏誤估計值,尤其是在樣本數很小的情況下,樣本相關係數無法準確地估計母群體相關係數,此時可改使用調整後相關係數。雖然實務上幾乎不使用,但在樣本很小的時候,不妨計算調整後相關係數,作為調整前、後差異的參考。關於調整後相關係數的詳細說明,請參考調整後相關係數的意義和計算。
決定係數
皮爾森積差相關係數本身只能用來評估兩變項間的關聯程度大小和方向,而不能再做其他的解釋。為了讓皮爾森積差相關係數有更容易讓人理解的解釋方法,可以將相關係數平方,變成決定係數(coefficient of determination)後再進行解釋,通常用符號來表示。
決定係數測量一個變項中有多少的變異能夠被另一個變項說明或解釋。以上面的練習題為例,皮爾森積差相關係數的值為,若將其平方,變成。因為決定係數通常用百分比來解釋,所以再將,這個數值代表年齡可以說明或解釋平均行車速度中的變異。
雖然決定係數帶有一個變項能夠說明或解釋另一個變項多少變異的解釋方式,但這並不代表變項之間存在著因果關係。若要探討因果關係,須使用嚴謹的實驗研究設計,並經過反覆的驗證,單憑變項之間存在關聯性並不足以建立因果關係。
以上為本篇文章對皮爾森積差相關係數意義的介紹,希望透過本篇文章,您瞭解了相關的概念、皮爾森積差相關係數的意義和計算。若您想學習利用SPSS或Excel計算皮爾森積差相關係數的方法,請參考如何計算皮爾森積差相關係數。若想更進一步地檢驗兩變項之間的關係是否真實地存在於母群體中,請參考皮爾森積差相關係數的假設檢定。
若您喜歡本篇文章,請將本網站加入書籤,作為您的學習工具,並持續回訪本網站喔!另外,也歡迎您追蹤本網站的Facebook和/或Twitter專頁喲!
如果您覺得本篇文章對您有幫助,歡迎買杯珍奶給 Dr. Fish!小杯珍奶,大大鼓勵,您的支持將給Dr. Fish更多撰寫優質文章的動力喔!
參考資料
Cohen, J. (1992). A power primer. Psychological Bulletin, 112(1), 155-159. https://doi.org/10.1037/0033-2909.112.1.155