🐟 請您尊重本網站的智慧財產權,如有任何引用,請註明出處:Dr. Fish 漫游社會統計。(文章發表日期)。文章名稱。文章網址
用SPSS繪製盒形圖(盒鬚圖)
盒形圖(boxplot)又稱為箱型圖或盒鬚圖(box-whisker plot),是一種用來顯示數值資料分布情形的統計圖形。盒形圖是由發展出莖葉圖(stem and leaf plot)的John Tukey(1977)所提出,同樣作為探索式資料分析裡一個相當實用的工具。
盒形圖由一個長方形和兩條線所組成,不但能夠呈現資料的集中趨勢和變異(分散程度)等資訊,也能夠顯現出數值分配的形狀,是一個能夠傳達資料裡許多描述性資訊的實用統計圖形。
除了單一變項資料的呈現外,盒形圖的一個最大用途莫過於不同類別或組別間的數值分布情況之比較。透過並排在一起的數個盒形圖,可以清楚地看出不同群組之間集中趨勢和分散程度的差異,也可看出各組資料的分布形狀。
本篇文章將先介紹盒形圖的外觀和組成、盒形圖與偏態間的關係,再示範如何運用SPSS繪製盒形圖,包括單一盒形圖和數個群組的盒形圖。若您只對文章的某一部分內容感興趣,也可點選下方的連結,即可直接跳至您想閱讀的內容。
盒形圖的外觀和組成
盒形圖的外觀是由一個長方形(盒形)和兩條直線所組成,兩條線分別位於長方形的上方和下方。盒形圖的中間是中位數(median),盒子的下方與上方界線之間涵蓋了資料最中間50%的數值,所以盒子下方與上方界線分別為第一四分位數(lower quartile)和第三四分位數(upper quartile),而兩者之間的距離就是四分位距(interquartile range)。

從盒子的下方和上方界線延伸出去的兩條線稱為「鬚」(whisker),分別為資料最低與最高25%的數值。原則上,下方鬚的最低點為資料的最小值,上方鬚的最高點為最大值。
有些研究人員或學者在繪製「鬚」時,可能會有不同的畫法,例如下方鬚的最低點為第10百分位數,而上方鬚的最高點為第90百分位數,再用符號標示出離群值(outlier)或極端值(extreme score)。另外,統計分析軟體也可能有不同的繪製方法。由於這些細微差異的存在,建議您使用軟體繪製盒形圖前,先瞭解該軟體在製作盒形圖時的統計量依據,以免造成解釋上的錯誤。
盒形圖與偏態間的關係
從盒形圖除了可看出資料的中位數和分散程度之外,也可以判斷資料呈現偏態(skewness)或對稱的分布。當中位數將中間的盒子切割成不同大小的區塊,使盒形圖呈現不平衡的狀態時,資料即呈現偏態分配。
當中位數靠近盒子的上方,且上面的鬚短於下面的鬚,數值分布為負偏態。反過來看,當中位數靠近盒子的下方,且下面的鬚短於上面的鬚,數值分布為正偏態。若中位數在盒子的中間,且上面和下面鬚的長度約莫相同,數值則呈現對稱的分布(請參考下圖)。

瞭解了盒形圖的外觀和組成、與偏態分配之間的關係後,接著來看看如何使用SPSS繪製各種類型的盒形圖。
運用SPSS繪製盒形圖
開啟SPSS資料編輯器,選擇功能表的圖形 » 圖表建置器,帶出「圖表建置器」視窗。關於SPSS的操作介面,請參考SPSS操作環境和資料輸入。

在「圖表建置器」視窗下半部的「展示區」標籤下,從選擇來源(C)的清單中點選箱型圖(即為盒形圖),右邊會出現3個小圖示,從左至右分別為簡易盒形圖、群集框圖和1-D盒形圖。這3種盒形圖的說明如下:
- 簡易盒形圖(simple boxplot):繪製1個數值變項的盒形圖,且可指定1個分組變項,用來進行不同組別或類別間的盒形圖之比較。
- 群集框圖(clustered boxplot):繪製1個數值變項的盒形圖,且可同時指定2個分組變項,而第2個分組變項所產生的盒形圖會以不同的顏色來顯示。
- 1-D盒形圖(1-D boxplot):繪製1個數值變項的盒形圖,但不可指定分組變項。

以下將使用100位學生的資料來介紹這3種盒形圖的繪製方式,資料裡包含4個變項:學生ID、班級CLASS、生理性別SEX、統計學期末考成績SCORE。班級CLASS為第1個分組變項,標籤值1為A班、標籤值2為B班;生理性別SEX為第2個分組變項,標籤值1為女性、標籤值2為男性。您可使用自己的資料進行練習喔。
所有的變項須先在資料編輯器的變數視圖頁面之測量欄位進行正確的測量尺度設定,否則無法在圖表建置器裡繪製圖形。欲製作盒形圖的數值變項須設定為尺度層次,分組變項則須設定為名義層次。
1-D盒形圖
1-D盒形圖單純地繪製1個數值變項的盒形圖,不能指定任何的分組變項,因此無法用來進行組別或類別間的比較。步驟如下:
- 點選箱型圖裡的1-D盒形圖圖示,並將其拖曳至上面的繪圖區域。
- 點選變項清單中的數值變項SCORE,並將其拖曳至右側繪圖區的藍色X軸虛線長方格中。
- 按下視窗最下方的確定。

經過上述的步驟,SPSS會輸出如下的1-D盒形圖,隨圖附上變項SCORE的描述性統計量,給您參考。從下圖可看出,整體的成績分布趨近於對稱,但後面50%的成績分布範圍些微地大於前面50%的成績分布。除了盒形圖外,SPSS還列出了成績不尋常的2位學生的ID,編號7和47,代表他們的成績明顯地低於其他人的成績。

理論上,上方鬚的最高點為最大值,從盒子的上方界線至上方鬚的最高點確切地涵蓋了最高25%的數值;下方鬚的最低點為最小值,從盒子的下方界線至下方鬚的最低點則確切地涵蓋了最低25%的數值。
SPSS的盒形圖稍微不同於理論上的盒形圖。相較於確切的25%,SPSS涵蓋了大約25%的數值,因為SPSS在繪製出盒形圖前會先揪出不尋常的數值,包括離群值和極端值。
任何數值大於第三四分位數加上1.5乘以四分位距,或任何數值小於第一四分位數減掉1.5乘以四分位距,SPSS將其視為離群值,用o表示;而任何數值大於第三四分位數加上3乘以四分位距,或任何數值小於第一四分位數減掉3乘以四分位距,SPSS則將其視為極端值,用*表示。
此處資料的四分位距為,離群值為大於
或小於
的數值;極端值則為大於
或小於
的數值。
資料中編號7的成績為30,編號47的成績為22,全都小於30.5,但沒有小於5.375,因此被SPSS歸類為離群值,但還不到極端值,而被給予o的符號。
簡易盒形圖
在瞭解了整體成績的分布之後,接著來看看不同班級間的成績分布情形,此時要使用CLASS這個分組變項。步驟如下:
- 點選箱型圖裡的簡易盒形圖圖示,並將其拖曳至上面的繪圖區域。
- 點選變項清單中的數值變項SCORE,並將其拖曳至右方繪圖區裡的藍色Y軸虛線長方格中。
- 點選變項清單中的分組變項CLASS,並將其拖曳至右方繪圖區裡的藍色X軸虛線長方格中。
- 按下視窗最下方的確定。

經過上述的步驟,SPSS會輸出如下的簡易盒形圖,隨圖附上A班和B班於變項SCORE的描述性統計量。從兩班的盒形圖可以看出,B班的整體成績分布範圍大於A班,尤其是後面50%的成績分布範圍,代表B班的成績變異(分散)程度大於A班。

此外,A、B兩班各有1位學生的成績明顯地低於其他人的成績,分別為編號7和編號47的學生,SPSS視其為離群值。若排除這2位學生的成績,A班的成績分布呈現些微的正偏態,B班則呈現些許的負偏態。
群集框圖
比較了兩個班級的成績分布情形後,若想更進一步探討各個班級裡生理性別的成績分布,則除了原本的CLASS之外,可再加入另1個分組變項SEX。步驟如下:
- 點選箱型圖裡的群集框圖,並將其拖曳至上面的繪圖區域。
- 點選變項清單中的數值變項SCORE,並將其拖曳至右方繪圖區裡的藍色Y軸虛線長方格中。
- 點選變項清單中的分組變項CLASS,並將其拖曳至右方繪圖區裡的藍色X軸虛線長方格中。
- 點選變項清單中的分組變項SEX,並將其拖曳至右方繪圖區右上角的藍色X上的群集:設定顏色虛線長方格中。
- 按下視窗下方的確定。

經過上述的步驟,SPSS會輸出如下的群集框圖,藍色盒形圖代表生理女性、紅色盒形圖代表生理男性,隨圖附上A、B兩班依據生理性別SEX分類後的SCORE描述性統計量。加上SEX這個分組變項後,可以更清楚地看出班級、生理性別和成績之間的關係。

從上圖可以看出,A班和B班各有1位成績明顯低於其他人的學生,皆為生理女性。B班生理女性在中間50%的成績分布範圍最廣(變異最大),B班生理男性則在後面25%的成績變異最大。此外,A班生理男性的整體成績分布範圍最小,代表成績較為集中,但成績有偏低的趨勢。
從以上的示範可以知道,利用SPSS能夠簡單地繪製不同類型的盒形圖,不僅能看出單一數值變項的分布情形,也能夠用來比較不同組別或類別間的數值分布狀況。
若您沒有SPSS或其他統計分析軟體,也可以使用Excel來繪製盒形圖,詳細的製作方法請參考匯出SPSS資料至Excel並繪製盒形圖。
以上為本篇文章對盒形圖的介紹,希望透過本篇文章,您瞭解了盒形圖的外觀和組成、與偏態之間的關係,也學會了利用SPSS繪製各種盒形圖的操作方法。
若您喜歡本篇文章,請將本網站加入書籤,作為您的學習工具,並持續回訪本網站喔!另外,也歡迎您按讚和追蹤我們的Facebook和Twitter專頁喲!
參考資料
Tukey, J. W. (1977). Exploratory data analysis. Reading, MA: Addison-Wesley.