統計學是一門學科,也是一種語言。它為研究人員們提供了一種溝通的方式,包含研究的構想和研究結果的解釋。和其他的學科一樣,統計學也有自己專屬的語詞和術語,以便傳達具體的想法和資訊。當您熟悉了這些專門術語之後,就能夠更容易地看懂相關的書籍、量化研究的刊物和本網站的社會統計文章內容。下面將介紹一些常用的統計專有名詞和定義。
母群體(population)
母群體指研究人員想要探討或研究的人、物或事件的完整集合,通常具有可被觀察的共同特性,例如學生的成績、勞工的工時、人的年齡。母群體可為任何的大小,小為修習某一心理學課程的所有學生,大至一個國家的所有公民。一般而言,母群體通常很大,所以研究人員不太可能對他們逐一進行測量,而是會從母群體中抽取出可以代表該母群體的人、物或事件。
樣本(sample)
樣本指從母群體裡抽取出來的人、物或事件,為母群體的子集,和母群體帶有相同的特性。研究人員假設一個能夠代表母群體的樣本所得到的研究結果可以適用到母群體身上,再加上時間、人力和預算等實務層面的考量,研究人員通常不會研究整個母群體,而是以母群體中抽取出來的樣本為資料蒐集的對象。
隨機樣本(random sample)
隨機樣本指透過隨機抽樣(random sampling)的方式而得到的樣本。隨機抽樣是一個抽取樣本的方式,讓母群體裡的每一成員(或要素)都有相同的機會被抽到,而透過這個過程所抽取出來的樣本,即稱為隨機樣本。雖然從一個母群體裡可以抽出很多不同的樣本,但唯有隨機樣本最能夠代表母群體,而使用隨機樣本得到的研究結果也能夠推論至母群體上。
舉個簡單的例子來說明,一位老師想要從共有50位學生的班級裡抽取出10位學生,她將每一位學生編號,並準備了50支小竹條。這位老師在這些小竹條上分別寫下每位學生的姓名和編號,完成後將50支小竹條全部放在一個筆筒裡,搖一搖後再從裡面抽出10支小竹條,這個過程就是一個簡單的隨機抽樣,而被抽出來的10位學生也具有代表性。
外在效度(external validity)
外在效度指一個研究的研究結果能夠被推論到其他人、地點或時間的能力,這點和隨機抽樣的方法有密切的關係。如果一個研究的樣本是透過隨機抽樣而來,那麼這樣本被視為具有代表性,且利用這樣本所得到的研究結果可以被推論至樣本來自的母群體上。相反地,若研究的樣本不是隨機抽樣而來,由於樣本不具有代表性,研究結果可能無法被推論至母群體上,所以外在效度較隨機樣本的研究結果來得低。
然而,即使是隨機樣本的研究結果,也不一定能夠被推論至不一樣的時間或地點,例如台北市國中生的憂鬱程度調查結果不一定能夠被推論至臺灣其他縣市的國中生。此時,研究人員可在不同的時間、地點,利用不同的樣本,複製原本的研究,進行重複驗證,探討能否獲得類似的研究結果。倘若重複驗證的結果顯示類似的研究發現,即可增加原本研究的外在效度。
隨機分配(random assignment)
隨機分配指研究人員將研究參與者(或受試者)分配到實驗情境的過程。隨機分配確保了每一位研究參與者都有相等的機會被分配到任一個實驗情境,好讓各個實驗情境具有相似的群體組成,使得研究人員能夠公平地評估研究結果。
舉例來說,一位兒少保護的社會工作者想探討何種形式的課程能有效地提升小學生對身體虐待的認識,她準備了3種類型的課程:繪本、動畫、繪本加動畫。每一位參與該研究的小學生被分配到任何一種課程的機會應該要相同,使得3種課程都有類似的學生組成,降低系統性的差異(例如理解力較好的學生全部被分配到同一種課程),以利3種課程之間的比較。
內在效度(internal validity)
內在效度指研究結果和處遇(自變項操縱)之間存在因果關係的信心程度,此點和隨機分配具有關聯性。也就是說,研究人員想確保各個群組存在的差異是因為不同的實驗情境所導致,而不是因為研究參與者「剛好」被分配到那些群組的關係。基本上,內在效度較高的研究通常可導出因果關係的結論,但內在效度較低的研究則沒有辦法。
舉例來說,有位教師想探討一種學習方法的效果,她從任教的學校裡隨機抽取出20位學生,但沒有進行隨機分配,而是把10位成績較好的學生分配在一組,另外10位成績較差的學生分配在另一組。如果研究結果顯示兩組存在差異,這些差異很可能是因為群組分配的結果而不是實驗情境操控的結果,這樣的研究即屬於內在效力低的研究。
變項/變數(variable)
變項或變數指人、物或事件的特性或屬性,會隨著人、時間或情境的不同而有不同的數值,例如身高、體重、溫度、犯罪率。和變項或變數相反的概念為常數(constant),不會因為人、時間或情境的不同而產生數值上的變化,例如圓周率π為3.1416、1英尺為12英吋。
變項裡的數值可從相鄰的測量單位間是否存在無限可能的數值,再分為連續變項(continuous variable)和間斷變項(discrete variable)。若相鄰的測量單位間存在著無限的數值,稱為連續變項,例如身高、體重;反之,若相鄰的測量單位間不可能存在任何數值,則稱為間斷變項,例如家庭子女數。關於連續變項和間斷變項的詳細介紹,請參考連續變項 vs. 間斷變項。
自變項/自變數(independent variable)
自變項或自變數指研究人員能夠操縱的變項,用來解釋依變項裡的數值差異或變化。在大多數的研究裡,研究人員會想瞭解一個變項(A)對另一個變項(B)的影響,因此他會操縱A的種類或層次,然後再測量各個不同種類或層次的A對B帶來的效果。變項A就稱為自變項,而變項B就是依變項。
例如上面提到的例子,一位兒少保護的社會工作者想探討課程的類型是否會影響小學生對身體虐待的認識,因此她設計了3種類型的課程:繪本、動畫、繪本加動畫。這3種類的課程即是自變項,因為社會工作者可以決定或控制課程的類型,最後再評估這些不同類型的課程如何影響小學生對身體虐待的認識。
依變項/依變數(dependent variable)
依變項或依變數指研究人員想要觀察或測量的研究結果,用來評估自變項的效果。之所以稱為依變項,原因在於這個變項可能「依靠」(depend on)自變項的操縱而產生效果或變化。
以上面提及的課程種類對小學生的身體虐待認識之例子來看,小學生對身體虐待的認識程度就是依變項,社會工作者可以在各種類的課程結束後,給予小學生們簡單的問卷,測量他們對身體虐待的認識程度。換句話說,小學生對身體虐待的認識程度可能因為不同的課程類型(自變項)而有所不同,所以是依變項。
受控變項/實驗變項(manipulated or experimental variable)
自變項或自變數可再細分為兩種類型,第1種稱為受控變項或實驗變項,第2種稱為受試者變項。受控變項或實驗變項指研究人員可以直接操縱或控制的自變項,例如上面提到的小學生對身體虐待認識的研究,社會工作者設計了3種不同類型的課程,代表她能夠控制、決定課程的種類,所以這個自變項屬於受控變項或實驗變項。
受試者變項(subject variable)
受試者變項指研究參與者(受試者)本身已經具備且可被測量的特質,研究人員無法操縱或改變。例如研究參與者的生理性別、年齡、婚姻狀態等,他們在參與研究時本身已經具有這些特質,研究人員無法做任何的改變,因此這些自變項屬於受試者變項。
區別受控變項/實驗變項和受試者變項這兩種自變項有其重要性,因為他們之間的差異關係著研究設計和研究結果的解釋。一個簡單的區分方法就是檢視這個狀態是否在研究開始前就已經存在,若答案是肯定的,代表這個狀態屬於受試者變項;若原本不存在,而是研究人員可以操控的狀態,則屬於受控變項或實驗變項。
資料(data)
資料指透過測量或觀察而得到的結果,通常為數值,例如研究參與者的年齡、智商、學生的考試成績。研究最初所蒐集或測量到的資料,通常稱為原始資料或原始數據(raw data)。在所有的研究裡,研究人員會蒐集、分析資料,並在資料的基礎上做出研究結論。
統計量(statistic)
統計量指利用樣本的資料進行運算,用來描述樣本特性的數值。例如,用樣本資料計算出來的平均數即是一個統計量。因為統計量是從樣本資料計算得來,而樣本是從母群體裡抽取出來,要抽取出兩個完全相同組成的樣本幾乎不可能,因此計算出來的統計量也會不一樣。從這個角度來看,統計量屬於變項而不是常數。
參數(parameter)
參數指利用母群體的資料進行運算,用來描述母群體特性的數值。例如,用母群體資料計算出來的平均數即屬於參數。參數和統計量是相當類似的概念,兩者的差別在於參數是利用母群體的資料來計算,而統計量是利用樣本的資料來計算。
此外,因為母群體只有一個,所以利用母群體資料計算出來的數值屬於常數,不同於屬於變項的統計量。研究人員通常使用樣本的統計量去推估母群體的參數(母體參數),並且用希臘字母表示參數,例如μ代表母群體的平均數、σ代表母群體的標準差。
以上為常用的統計專有名詞和定義,是貫穿統計學習過程中的重要詞彙,因此熟習他們的定義將有助於社會統計的學習。除了這些基本的名詞和定義外,還有更多社會統計相關的專業術語和定義,將會在本網站的其他文章裡探討和說明。
若您喜歡本篇文章,請將本網站加入書籤,作為您的學習工具,並持續回訪本網站。此外,也歡迎您追蹤我們的Facebook和Twitter專頁喔!