盒形圖(boxplot)又稱為盒鬚圖(box-whisker plot)或箱型圖,是一種用來呈現資料分布的圖示法,為探索式資料分析裡一個相當實用的工具。
盒形圖是由一個長方形(盒形)和兩條從長方形的上下邊界往外延伸的直線所組成。盒形圖的正中間為中位數(median),盒子的下方邊界為第一四分位數(lower quartile),盒子的上方邊界則為第三四分位數(upper quartile),因此盒子的下方和上方界線間(也就是四分位距)涵蓋了中間50%的數值資料。
超出盒子的下方和上方邊界各有一條「鬚」(whisker),分別涵蓋了最低25%與最高25%的數值資料。原則上,下方鬚的最低點為資料的最小值,上方鬚的最高點為最大值。由此可見,盒形圖是一種能夠呈現資料的集中趨勢、變異(分散程度)和分布形狀的實用圖形。
大多數的統計分析軟體皆有繪製盒形圖的功能,以SPSS為例,可製作出單純1個數值變項的「1-D盒形圖」、1個數值變項和1個分組變項的「簡易盒形圖」以及1個數值變項和2個分組變項的「群集框圖」,詳細的繪製方法可參考用SPSS繪製盒形圖(盒鬚圖)。
但若您沒有SPSS或其他的統計分析軟體,Excel 2016開始的版本也可簡易地繪製盒形圖。雖然操作上較SPSS繁複一點,但完成後的圖形線條較為細緻,而且圖形外觀的調整選項也比較多,例如圖形外框的線條顏色和粗細、盒子的寬度、盒子的顏色等。
若您手上已經有SPSS的資料,但想用Excel繪製圖形,可將資料轉換成Excel可讀取的格式再進行操作。本篇文章將先介紹匯出SPSS資料至Excel的方法,再示範利用Excel製作盒形圖的操作過程,包括單一數值變項的盒形圖、1個數值變項和1個分組變項的盒形圖、1個數值變項和2個分組變項的盒形圖。
匯出SPSS資料至Excel
由於這裡要使用的資料原本為SPSS的資料檔,為了能夠在Excel裡使用,首先須將SPSS的資料轉換成Excel可以使用的檔案。將SPSS的資料轉換成Excel的檔案格式有兩種方式,以下分別介紹:
使用SPSS「另存新檔」的功能
在想要轉換成其他檔案類型的SPSS資料檔頁面,點選功能表的檔案 » 另存新檔,隨即會出現「另存資料」視窗。從該視窗下方的另存類型(T)下拉選單中,選取Excel 2007 至 2010 (*xlsx)(或其他與您Excel相容的版本類型)。
接著在查看範圍(I)選擇存檔的位置,在檔名(N)輸入欲儲存的檔案名稱,工作表名稱(E)為Excel活頁簿頁面最下方的工作表標籤名稱,可選擇輸入或不輸入。
該視窗最下方有兩個選項,建議兩者皆勾選。將變數名稱寫入檔案(W)的兩個選項裡,建議選擇名稱(M)而非標籤(L),因為標籤的內容通常較長,無法在Excel儲存格中一目了然。在定義位置儲存值標籤而非資料值(A)是指在Excel的儲存格中,顯示變項的資料值(1、2、3…)或值標籤(女性、男性…),為了讓值標籤可顯示在圖形中,建議勾選這個選項。
若您只想匯出一部分的變項,也可點選上圖中的變數(V),然後選擇想匯出的變項。完成所有的步驟後,點選儲存(S),Excel資料檔即會出現在您指定的資料夾裡。
使用SPSS「匯出」的功能
在想要轉換成其他檔案類型的SPSS資料檔頁面, 點選功能表的檔案 » 匯出 » Excel,也可以直接進到上圖另存類型(T)已設為Excel的「另存資料」視窗,其餘的操作步驟皆與上面的方法相同。
不論是使用上述的哪一種方式,匯出至Excel的資料檔與原本的SPSS檔案看起來非常相似,如下圖所示。
這裡所使用的資料是100位學生的統計學期末考成績(SCORE),以及2個分組變項,分別為學生的班級CLASS和學生的生理性別SEX,以下將使用Excel來繪製這100位學生成績的盒形圖。
運用Excel繪製盒形圖
利用上面從SPSS匯出的資料,以下示範3種盒形圖的繪製方式,分別為單一數值變項的盒形圖、1個數值變項和1個分組變項的盒形圖以及1個數值變項和2個分組變項的盒形圖。
單一數值變項盒形圖
單一數值變項的盒形圖僅使用1個數值變項,不包含任何的分組變項,最後只輸出1個盒形圖,操作步驟相對地簡單。先在活頁簿裡圈選包含成績的所有儲存格,再點選功能表的插入 » 插入統計資料圖表,從下拉選單中選擇盒鬚圖。
透過上面的點選過程後,Excel會輸出如下的盒形圖。為了讓圖形更為細緻並傳達更多訊息,可以進行些許調整。
首先,修正圖表的標題,在圖表標題上用滑鼠點一下即可進行修改,若不需要也可以刪除。接著,用滑鼠在盒形圖上點兩下,可以開啟「資料數列格式」的設定。在數列選項下可以修改類別間距(W),也就是盒子的寬度,百分比愈大盒子愈狹窄。
另外,盒子中有一個x的標記,此為平均數的位置,但盒形圖通常不會呈現出平均數,因此可取消勾選顯示代表標記(M)。若想要顯示出所有成績的位置,也可以勾選顯示內部點(N)。
由於是單一數值變項的盒形圖,通常水平座標軸上不會有任何標示,所以可以移除水平座標軸上的「1」標示。操作步驟如下:
- 用滑鼠點一下圖上的任何一個地方,圖形右上角會出現兩個小圖示。
- 點一下上面的✚小圖示,會出現圖表項目的設定。
- 將滑鼠停留在座標軸的選項上,並點一下右方出現的箭號。
- 取消勾選主水平。
若想顯示資料標籤,可依據下列的步驟,在盒形圖上呈現出資料的最小值、最大值、第一四分位數、中位數和第三四分位數等數值。
- 在上圖的圖表項目設定裡,將滑鼠停留在資料標籤的選項上,並點一下右方出現的箭號。
- 選擇想要資料標籤顯示的位置,這裡選擇右。
若想增加座標軸的標題,也可以透過上圖圖表項目設定裡的座標軸標題來新增。這裡新增了主垂直軸的標題,名稱設定為SCORE。
完成上述的所有設定與調整後,盒形圖如下圖所示。理論上,下方鬚的最底端是資料裡的最小值,上方鬚的最頂端為資料的最大值。但Excel和SPSS一樣,在繪製盒形圖之前,會先找出資料裡的離群值(outlier),並將其顯示出來,因此下方鬚的最底端不見得是資料裡的最小值,而上方鬚的最頂端也不見得是資料裡的最大值。
若任何數值小於第一四分位數減掉1.5乘以四分位距,或大於第三四分位數加上1.5乘以四分位距,Excel將其視為離群值並標示於圖中。從上圖可看出,100位學生的成績裡有兩個離群值,分數分別為22和30分。
一個數值變項和一個分組變項的盒形圖
若想觀察兩個班級的成績分布是否有所不同,可以將班級CLASS設為分組變項,繪製出2個盒形圖,以利班級之間的比較。
一開始的步驟相同於單一數值變項盒形圖的繪製,先圈選活頁簿裡包含成績的所有儲存格, 再點選功能表的插入 » 插入統計資料圖表,從下拉選單中選擇盒鬚圖。 接著,用滑鼠點一下Excel輸出的盒形圖,再點選功能表的設計 » 選取資料,帶出「選取資料來源」的視窗。
在「選取資料來源」視窗右下方的水平(類別)座標軸標籤(C)方框中,點選編輯(T),會出現「座標軸標籤」小視窗。
在「座標軸標籤」小視窗中,設定水平(類別)座標軸標籤的步驟如下:
- 點選座標軸標籤範圍(A)長方格右側的↑鍵(也可以直接輸入分組變項的儲存格範圍)。
- 回到活頁簿的資料處,圈選分組變項CLASS的所有儲存格範圍。
- CLASS儲存格的範圍出現在長方格中,再按下長方格右方的⬇鍵。
- 按下「座標軸標籤」小視窗下的確定。
- 變項CLASS的值標籤會出現在水平(類別)座標軸標籤(C)的方框中,按下視窗下方的確定。
經過上面的步驟後,Excel會輸出如下的圖形。為了讓圖形更細緻且傳達更多的訊息,可再透過上面繪製單一數值變項盒形圖的方法,修改圖表標題、變更盒子寬度、刪除平均數標記、新增座標軸標題,並顯示資料標籤。
經過修改後,下圖為完成後的盒形圖。從圖中可以清楚地看出,B班整體的成績分布範圍較A班廣,A班低分者的成績變異較B班來得小,且兩班各有一位成績特別低的學生。若排除2位成績特別低的學生,A班的成績分布呈現正偏態,B班則是些微的負偏態。
除了1個數值變項和1個分組變項外,也可利用Excel製作出2個分組變項的盒形圖,以下示範操作方法。
一個數值變項和兩個分組變項的盒形圖
除了班級之外,若想更進一步探討生理性別和成績之間的關聯,可再增加一個生理性別的分組變項,讓一個班級裡有2個不同生理性別的盒形圖,因此總共有4個盒形圖。
這裡繪製的盒形圖之水平座標軸(X軸)仍舊是變項CLASS,生理性別則要以不同的「數列」來呈現。換句話說,1個生理女性的數列和1個生理男性的數列。為了便於數列的繪製,建議先將資料依據作為數列的變項(此處為生理性別)進行排序。
首先,圈選活頁簿裡包含資料的所有儲存格,包括變項名稱。接著,點選功能表的常用 » 排序與篩選 » 自訂排序,帶出「排序」視窗。
在「排序」視窗裡,從排序方式的下拉選單中,選擇生理性別SEX,然後按下確定。經過這步驟,所有的資料應會依據生理性別排序。
依據生理性別的2個數列須分別建立,這裡先建立女性的數列,再建立男性的數列。先圈選生理女性在變項SCORE的所有儲存格,接著相同於單一數值變項盒形圖的繪製,點選功能表的插入 » 插入統計資料圖表,再從下拉選單中選擇盒鬚圖。
在Excel輸出的盒形圖上用滑鼠點一下,再點選功能表的設計 » 選取資料,帶出「選取資料來源」的視窗。
在上圖「選取資料來源」視窗左下方的圖例項目(數列)(S)方框中,點選數列1,再點選編輯(E),會出現「編輯數列」視窗。
在「編輯數列」視窗中的數列名稱(N)長方格中,輸入有意義的名稱,這裡輸入「女性」。輸入完成後,按下視窗下方的確定。檢視圖例項目(數列)(S)方框裡的名稱,應從「數列1」變成「女性」。
接下來,增加一個「男性」的數列。步驟如下:
- 在圖例項目(數列)(S)的方框中,點選新增(A),會出現「編輯數列」視窗。
- 在「編輯數列」視窗的數列名稱(N)中,輸入另一個數列的名稱,這裡輸入「男性」。接著,用滑鼠點一下數列值(V)長方格右側的↑鍵。
- 回到活頁簿的資料處,圈選男性在變項SCORE的所有儲存格,當儲存格的範圍出現在「編輯數列」的小視窗後,按下右方的⬇鍵。
- 確定男性在變項SCORE的儲存格範圍正確地顯示在數列值(V)的長方格裡後,按下確定。
- 檢視圖例項目(數列)(S)的方框,裡面應新增了一個「男性」數列。
最後,設定女性和男性2數列在水平座標軸的標籤,這裡為班級CLASS。因為有女性、男性2個數列,所以要分別操作。
先點選圖例項目(數列)(S)方框裡的「女性」,再點選水平(類別)座標軸標籤(C)的編輯(T),在「座標軸標籤」視窗裡從資料中選取生理女性所在的所有班級儲存格,操作過程可參考上面一個數值變項和1個分組變項的盒形圖中設定水平(類別)座標軸標籤(C)的步驟。
完成「女性」的水平(類別)座標軸標籤後,依照相同的步驟,點選圖例項目(數列)(S)方框裡的「男性」,再點選水平(類別)座標軸標籤(C)的編輯(T),在「座標軸標籤」視窗裡從資料中選取生理男性所在的所有班級儲存格。
完成上述所有步驟後,Excel輸出的4個盒形圖如下圖,藍色為生理女性,紅色為生理男性。因為男性的人數較少,所以Excel標示出每一位男性的成績(紅色盒形圖裡的小圓點)。
將上圖稍微進行調整,例如修改圖表標題、改變盒子的寬度、移除平均數標記、刪除內部點、增加圖例和座標軸標題,讓圖形變得更為細緻。因為4個盒形圖所傳達的訊息已經很豐富,此處就不再顯示資料標籤,否則會讓圖形內容變得太複雜。
上圖為修改完成後的圖形,從該圖可看出,A班生理男性整體成績的變異最小,B班生理女性在中間50%的成績變異大於其他3組在中間50%的成績變異。兩班各有1位成績特別低的學生,且皆為生理女性。
以上為利用Excel繪製各種盒形圖的操作示範,雖然使用SPSS繪製盒形圖較為簡單,不像Excel複雜,但Excel輸出的圖形看起來較細緻,且可以調整的選項也較多。若您沒有SPSS或其他統計分析軟體,可以嘗試用Excel繪製盒形圖喔!
若您喜歡本篇文章,歡迎將本網站加入書籤,作為您的學習工具,並持續回訪本網站喔!另外,您也可以在Facebook和Twitter上找到我們喲!