研究資料剛蒐集完後,表面上看起來就是一堆混亂的數字,很難從中看出個所以然,此時就須先整理和探索資料,才能開始看出資料的全貌並加以描述。而在眾多的資料探索程序裡,莖葉圖的製作(stem and leaf plot)就是其中一個常用的方法。
雖然直方圖、次數分配也是用來瞭解資料整體樣貌的方法,但是各有缺點。直方圖通常用來呈現分組過後的資料,而不是個別的數值,所以無從得知每一組裡面的數值分布狀況。另一方面,雖然次數分配保留了每一個數值,但光從每個數值的出現次數來看,也很難有效率地觀察出資料整體的分布情形。
反觀莖葉圖,不但能夠呈現出資料的整體分布狀況,也保留了所有的數值,可說是彌補了直方圖和次數分配的缺點。雖然莖葉圖看起來有些粗糙,但是製作過程很簡單,若樣本數目不大,即使用紙筆也可繪製出來,是資料探索過程中一項不可或缺的工具。
本篇文章將介紹莖葉圖的使用時機、製作方法、使用 SPSS 和 Excel 繪製莖葉圖的方法,若您只對其中一部分的內容感興趣,也可點選下方的連結,即可直接跳至您想閱讀的內容喔!
莖葉圖的使用時機
莖葉圖是 John Tukey 在1977年發展出來的一種探索式資料分析(exploratory data analysis,簡稱為EDA),是一種能夠同時探索資料分布狀態和保留所有數值的視覺化呈現方法。
探索式資料分析是一套用來檢查資料的工具,運用了簡易的數學和圖形化程序來整理和呈現資料,讓研究人員能夠很快地瞭解資料的全貌,以便進行更為複雜深入的統計分析程序。
基本上,研究人員須瞭解資料的特性後才能選擇合適且深入的統計分析程序,這些特性包括一個能夠代表整體資料的數值(集中趨勢的測量)、資料整體的分散程度(變異性的測量)、資料的分布型態以及變項之間的關聯程度,而瞭解資料的這些特性正是探索式資料分析想達到的目的。
在探索式資料分析裡,莖葉圖是一個相當簡單且實用的工具。舉例來說,看看下表中的50個分數,您是否能說出最低分為何?最高分為何?大多數的分數集中在哪裡?這些分數呈現何種分布型態?
若單從表面上觀察,這50個分數看起來只是一堆混亂的數值,因此很難回答這幾個問題。若能製作一莖葉圖,不但能夠保留所有的分數,還能夠看出分數的分布情形,便可很快地回答上述的問題,下面就來介紹莖葉圖的製作方法。
莖葉圖的製作方法
莖葉圖顧名思義是由「莖」和「葉」所組成,一個數值可被拆成這兩個部分。以上面的50個分數為例,最左邊的數字(這裡為十位數)或最高有效數位(most significant digit)構成「莖」,剩下的右邊的數字則構成「葉」。例如分數71的莖為7、葉為1,分數64的莖為6、葉為4。
並非每次都是十位數構成「莖」,個位數構成「葉」的情況。若數值的範圍較大,例如100到999,則「莖」會由百位數構成,十位數構成「葉」,個位數則可被截斷。
將每一個分數都拆成莖和葉兩個部分,畫一條垂直線,所有分數的莖從小到大、垂直地排列在垂直線的左側,所有的葉則依據相對應的莖從小到大、水平地排列在垂直線的右側。以上面的50個分數來看,莖葉圖會是下面的樣子:
這個莖葉圖指出,當莖是4的時候,右邊的葉代表40和49之間的所有分數,所以 4 4 5 5 6 7 8 9 代表分數44、44、45、45、46、47、48、49。運用同樣的規則,當莖是8的時候,分數為80、80、84、85、86、87,其餘的莖和葉之間的關係都可做相同的解釋。
運用這個莖葉圖,就可輕易地回答上面的問題。這50個分數的最低分為44分,最高分為90分,最多分數落在70到79分的區間,而整體分數並沒有呈現對稱的分布型態,低分明顯多於高分。
莖葉圖其實很有彈性,若很多分數集中在某個區間,使得這個區間的葉看起來很茂盛,反而變得不易看出分布情形,此時可以重複莖,擴展其寬度,也就是讓區間變多,而落在每一區間的葉變少。用上面的例子來示範,若每個莖出現2次,則莖葉圖會變成下面的樣子:
上面的莖葉圖的每個莖出現2次,有符號「⋆」的莖會顯示0到4的數字,有符號「·」的莖則會顯示5到9的數字。從上圖可以更明顯地看出,雖然落在75到79之間的分數最多,不過這50個分數並沒有呈現對稱的分配,低於70的分數明顯地多於70以上的分數。
莖的重複次數不限於2次,也可以超過2次,而確切的重複次數取決於分數的範圍,但不論重複或不重複,最終的目的都是為了讓圖形傳達出有意義的訊息。有一點須注意的是,若要重複莖的次數,必須每個莖都重複,而不能只重複某部分的莖,其他部分的莖沒有重複。
除了呈現單一群體的數值分布情況之外,莖葉圖也可用來比較兩個群體的分布型態,相當地實用,下面就來看看。
兩個群體的比較
莖葉圖還有一個很好用的地方,就是用來比較兩個群體的分布狀況。舉個例子來看,下圖就是由兩個群體組成的莖葉圖,分別代表兩個班級成績的分布狀態。
上圖中每個莖出現2次,有符號「⋆」的莖顯示0到4的數字,有符號「·」的莖則顯示5到9的數字。莖右側的葉為A班的成績,莖左側的葉則為B班的成績。從圖中可看出,A班最多的成績集中在60到64分之間,B班則是在65到69分之間;整體看起來,B班的成績優於A班的成績。
雖然用莖葉圖來比較兩個群體很方便,但這種莖葉圖最好使用在兩個群體的觀察數目(或樣本數)相等或很相近的時候。若兩個群體的大小差異很大,觀察兩群體之間的差異反而變得較困難,很容易誤判圖形,造成解釋上的錯誤。
因此,運用莖葉圖不但能夠看出大多數分數的坐落區間,也可看出分數整體的分散程度和分布型態,甚至還可用來比較兩個群體的分數,可說是探索式資料分析裡一項相當實用的工具。
莖葉圖也可以用統計分析軟體 SPSS 製作出來,而且過程相當地簡單,下面示範運用 SPSS 製作莖葉圖的方法。
運用 SPSS 製作莖葉圖
將上面例子的50個分數(這裡的變項名稱為 SCORE)輸入至 SPSS 資料編輯器裡,然後點選功能表的分析 » 敘述統計 » 預檢資料,帶出「預檢資料」視窗。關於 SPSS 的資料輸入方法,請參考 SPSS操作環境和資料輸入。
在「預檢資料」視窗裡,將變項 SCORE 移到依變數清單(D)中,然後點選視窗右側的圖形(T),會出現「預檢資料:圖形」小視窗。在這小視窗裡,在盒形圖方框裡的選項勾選無(N),敘述統計方框裡勾選莖葉圖(S),完成後按下視窗下方的繼續(C)。
回到「預檢資料」視窗後,點選顯示長方框裡的圖形(L)(若想要知道 SCORE 的敘述統計量,也可點選兩者(B),就會輸出統計量和莖葉圖),最後按下最下方的確定。
經過上述的步驟後,SPSS 會輸出如下的莖葉圖。根據資料的範圍,SPSS會自動決定是否重複莖。此處每個莖(Stem)出現2次,第1次出現的莖顯示數字0到4的葉,第2次出現的莖則顯示數字5到9的葉,整個圖形和上面紙筆繪製的圖形相同。
圖中的「詞幹寬度:10」是指莖的寬度,也就是說莖是十位數,例如莖4是指的意思。「每個葉節點:1觀察值」表示每一個數字代表一個分數,例如葉節點的 4 4 代表莖4有2個分數,分別是44、44分。運用這些規則,其他的莖和葉都可做相同的解釋。
除了 SPSS 之外,也可以使用 Excel 來製作莖葉圖,雖然步驟比較多一點,但是彈性比較大,以下就來示範利用 Excel 製作莖葉圖的方式。
運用 Excel 製作莖葉圖
將上面例子的50個分數輸入至 Excel 的空白活頁簿裡,分數所在的儲存格範圍從B2到B51。首先利用 MIN 函數找出這50個分數的最小值,在任一個空白的儲存格裡輸入 minimum,並在該儲存格的右邊儲存格輸入 =MIN(B2:B51),按下 Enter 後即會傳回最小值44。
接著利用 MAX 函數找這50個分數的最大值,在 minimum 下方的儲存格輸入 maximum,並在該儲存格的右邊儲存格輸入 =MAX(B2:B51),按下 Enter 後會傳回最大值90。
找到最小值和最大值後,知道「莖」為4到9。在兩個相鄰的空白儲存格裡分別輸入 stem 和 leaf,將莖的數值從小到大、垂直地輸入至 stem 下方的儲存格裡,並讓每個莖出現2次。
在第1個莖(4)右方的儲存格輸入如下圖中的公式,這裡使用到 REPT 和 COUNTIF 兩種函數,他們的語法和意義分別如下:
- REPT(text, number_times):重複一個文字特定的次數。
- COUNTIF(range, criteria):在指定的資料範圍裡尋找符合特定標準的儲存格數目。
下圖中 =REPT(“ 0 ”,COUNTIF($B$2:$B$51,D6*10+0)) 是指計算出分數40的儲存格數目,並讓這個數目成為0重複出現的次數。因為第1個莖涵蓋0到4的葉,所以重複 REPT 函數的語法,分別計算出分數40、41、42、43和44的儲存格數目,好讓他們分別作為0、1、2、3、4出現的次數。
複製上面的公式,也就是儲存格E6的公式,並貼上至第1次出現的莖5、6、7、8、9右方的儲存格,完成後如下圖。
重複 REPT 函數的語法至第2次出現的莖4,如下圖所示。這一長串的公式是要分別計算出分數45、46、47、48和49的儲存格數目,讓他們作為5、6、7、8、9出現的次數。
複製上面儲存格E7的公式,並貼上至第2次出現的莖5、6、7、8、9右方的儲存格,完成後就是尚未修飾的莖葉圖,如下圖。
為了讓圖形好看一點,可稍做修飾,例如置中對齊莖的數值、莖和葉的中間畫條垂直線、刪除儲存格的格線,您可依據個人的習慣和喜好進行調整。下圖即為修飾完成後的莖葉圖,和上面用 SPSS 製作出來的結果是相同的。
Excel 是一套很常被用來進行數學運算的軟體,相較於 SPSS 也更容易取得,若您想瞭解更多利用 Excel 進行數學計算的方法和相關函數的使用,可以參考如何使用Excel進行數學計算【基礎篇】以及如何使用Excel進行數學計算【進階篇】。
以上為本篇文章對莖葉圖的介紹,希望透過本篇文章,您學會了莖葉圖的使用時機以及利用 SPSS 和 Excel 製作莖葉圖的方法。若您喜歡本篇文章,請將本網站加入書籤,並持續回訪本網站喔!此外,也歡迎您追蹤本網站的 Facebook 和/或 X(Twitter)專頁喔!
如果您覺得本篇文章對您有幫助,歡迎買杯珍奶給 Dr. Fish!小小珍奶,大大鼓勵,您的支持將給 Dr. Fish 更多撰寫優質文章的動力喔!