第 13 章 估計母群體的特徵 - 第一部分:相關議題與解決方法

在本節課中,我們將學到
- 估計個人與估計群組的差異
- 聯合最大概似估計法(Joint Maximum Likelihood, JML)和邊際最大概似估計法(Marginal Maximum Likelihood, MML)背後的概念
- 應用JML估計法時所衍生的議題

13.1 評量的目的

評量的目的視乎情況的不同而有所差異,有些評量旨在提供個別學生其學業成就水平的估計值,有些評量則旨在提供一個國家或它的某一群組學生的學業成就分布的特徵。根據評量的目的,我們所使用的分析方法也會有所不同。在本節課中,我們將聚焦於介紹評量個人與評量群組的差異。

13.2 評量設計 - 以樣本為基礎或以普查所有對象為基礎

如果我們有興趣的是某一群組學生能力的特徵 (例如以國家為層級或者是大人區域、縣市為層級),我們就需要從國家或區域抽取學生作為研究對象,並根據這些學生樣本的資料來推估母群體的情況。如果我們的興趣是要提供學生其個人學業成就的資訊,例如我們想提供學生錄取就讀學校或大學入學的參考依據,為此我們需要對所有學生進行施測。然而,要對所有學生進行施測所費不貲,因此如果我們只是想透過評量藉以做政策的考量,那麼我們只需要抽取一部分的學生,透過分析他們的表現來瞭解其所代表群體的特徵,即已經可以提供資訊做決策之用,此為評量一個母群體與評量個別學生的頭一個差別。對於很多大型教育評比研究而言,它們聚焦的都是母群體,而非個別的學生,因此這類評量通常是要透過抽取學生樣本來進行。

兩者第二個差別在於它們所使用的題目反應模型有所不同,這就是本章主要討論的內容。

13.3 抽樣誤差與測量誤差

以樣本為基礎的評量多少會有點不正確,因為它是依賴所抽取到的樣本來進行分析,而可能抽到的樣本之間的差異會導致評量的結果不夠準確,這類評量上的不準確,我們稱之為抽樣誤差(sampling error)。為了要處理抽樣誤差,我們在估算各種參數的標準誤時,就會變得比較複雜,我們在後面的章節將會做更多的介紹。除了抽樣誤差之外,我們還需要面對測量誤差(measurement error),它是指當我們在估計個別學生能力值時不夠準確。當我們要估算一個母群體參數的估計值時,其標準誤將會包括抽樣誤差與測量誤差。在本課中,我們將聚焦測量誤差對於估計母群體特徵參數所帶來的影響。

13.4 如何估計母群體的統計量

如果我們想要估計母群體學生能力值的平均得分與變異數等統計量,我們可以抽取一個學生樣本,並計算該學生樣本能力值的平均得分與變異數,接著我們從樣本的統計量來推估母群體的統計量,在一般的情況下,我們都是用上述的方式來進行統計的推論。可是,當我們測量學生的時候,每位學生的能力值因為受到測量誤差的影響,而導致估計值不精準。這有別於我們要測量高度或重量的情況,因為我們已經發展出很精準的儀器來測量高度或重量,其誤差範圍(error margins) 會非常小。相較之下,當我們測量學生時,由於受到時間的限制,我們通常只能夠選取少數幾個學生應該掌握的能力來進行測量,此時的測量誤差就會比較大,即其規模比我們生活上常見的物理測量的測量誤差來得大。

13.5 測量誤差的影響

雖然個別學生的能力估計值帶有測量誤差,但當我們整合(aggregate)不同學生的得分來估算母群體的平均能力值時,我們仍然可以估算出一個沒有偏誤(unbiased)的母群體平均能力值。然而,由於測量誤差的存在,會導致母群體能力變異數的估計值變大。這是因為當我們估計平均值時,個別學生能力值的不準確度有兩種可能性:一是可能高估了真實能力值(true score),另外可能是低估了真實能力值,因此在計算平均值時,這兩種測量誤差會「互相抵消」,導致該平均能力值成為沒有偏誤的估計值。但必須要留意的是,因為存在測量誤差的緣故,會導致學生能力值的變異數變大,而且如果測量誤差越大,變異數膨脹的程度就越大。

13.6 練習 1 - 檢查測量誤差所帶來的影響

為了要瞭解測量誤差對母群體估計值所帶來的影響,我們將會在R環境中進行一個電腦模擬的練習,我們將會模擬出一組符合Rasch模型的題目反應資料,估計每一位學生的能力,並計算他們的平均能力值與能力值的變異數。

10.2這一節中,我們有介紹如何用R 程式碼來進行電腦模擬。以下我們在給定的題數與學生人數的前提下,我們會建立一個函數來產出一組符合Rasch模型的題目作答反應資料。在生成了資料之後,我們透過tam.jml(聯合最大概似估計法, JML)的功能來進行Rasch模型的校準,並計算學生能力的估計值。最後,我們計算學生能力值的平均值與變異數,相關的 R 程式碼如下所示:

library(TAM)
generateRasch <- function(N,I){
  theta <- rnorm( N ) # 從標準常態分布(平均值為0與變異數為1)抽取學生的能力值
  p1 <- plogis( outer( theta , seq( -2 , 2 , len=I ) , "-" ) )  # 從-2 到 2,以等差數列遞增的題目難度
  resp <- 1 * ( p1 > matrix( runif( N*I ) , nrow=N , ncol=I ) )  # 題目反應
  colnames(resp) <- paste("I" , 1:I, sep="")
  return(list(resp=resp,theta=theta))
}
#產生10000位學生與30題符合Rasch模型的題目反應
generateData <- generateRasch(10000,30)
resp <- generateData$resp

#對題目反應進行Rasch模型的校準,並估計學生能力值
mod1 <- tam.jml(resp)
mean(mod1$xsi)
wle <- mod1$WLE  # 將學生能力估計值儲存於wle變數中
mean(wle)
var(wle)

rel <- mod1$WLEreliability  #測驗信度
corrected_var <- rel*var(wle)  #修正過的變異數估計值

你會發現題目難度的平均值”mean(mod1$xsi)“以及能力的平均值” mean(wle)“都很接近0,而’var(wle)’的估計值卻大於1。由於學生的能力值是從一個平均為0、變異數為1的常態分布抽取出來的,而且題目的難度透過置中平減(centred)的處理後,所有數據都會環繞著0,因此我們會發現所估計出來的能力平均值與題目難度的平均值都會非常接近電腦模擬預設的值(generating values),但所估計出來的變異數卻會比電腦模擬預設為1的值來得大。

你可以試做以下的習題,請你重跑前述的電腦模擬,但要更改學生人數(N) 與題目數(I),請觀察不同N與I的值如何影響學生能力平均與變異數的估計值。

我們作一個小結,當我們透過一個兩步驟的過程,先估計個別學生的能力值,然後將學生的能力值整合起來,則採用聯合最大概似估計法(JML)會高估了母群體能力值的變異數。

13.7 如何克服變異數估計值偏大的問題

要克服這個問題,我們可以採用一個修正的因子(correction factor) 來調整被高估的變異數值,而修正因子則可以採用測驗的信度來進行。我們可以將能力估計值的變異數乘以該測驗的信度,所得的變異數將會更接近電腦模擬預設的(真實的)變異數值。

雖然變異數可以透過採用適當的修正因子來做調整,但是其他統計量(例如百分位數,percentile points)高估的問題就沒有那麼容易做調整了。再者,如果一個測驗對於學生而言太過困難或容易,會出現天花板或地板效應,導致 JML 的能力估計值會有偏誤(biased),在這種情況下,測驗的信度並不是很適合用來擔當修正因子的角色。

13.8 估計母群體平均值與變異數更佳的方法

前述所介紹估計母群體平均與變異數的方法牽涉到兩個步驟,首先要估計學生個別的能力值,然後計算出這些能力估計值的平均與變異數,這兩步驟的過程會因為測量誤差的緣故而帶來變異數估計值具偏誤的結果。有一個更好用來估計母群體平均值與變異數的方法,就是不採用兩步驟的過程,而是直接估計母群體的平均值與變異數。如果要直接估計母群體的平均與變異數,則我們用來處理題目作答反應的模型就必須含有母群體平均與變異數的資訊,而其中一個可以這樣作的估計方法稱為邊際最大概似估計法(Marginal Maximum Likelihood,MML)或者是貝氏IRT模型(Bayesian IRT model),這有別於在兩步驟方法中所採用的聯合最大概似估計法(JML)。在R程式碼中,我們可以採用 ‘tam.jml’ 這個指令來執行 JML 估計法,若要採用MML的估計法,則需要執行’tam.mml’的指令。

以下我們將進一步介紹 MML 的估計法,如果我們對 MML 的概念有更多的瞭解,將會有助於以後介紹 ‘似真分數(plausible values)’、‘後驗分布(posterior distribution)’ 和 ‘條件變數(conditioning variables)’ 等概念,該等概念在大型評量研究中常常出現,然而在我們還沒介紹MML估計法前,我們先進行一些實作練習,藉以瞭解MML估計法所估計出來的值是否接近母群體的平均值與變異數。

13.9 練習2 - 運用MML估計方法直接估計平均值與變異數

library(TAM)
generateRasch <- function(N,I){
  theta <- rnorm( N ) # 從平均值為0變異數為1的常態分佈隨機抽取學生的能力值
  p1 <- plogis( outer( theta , seq( -2 , 2 , len=I ) , "-" ) )  #從-2到2以等差數列的方式建立題目難度
  resp <- 1 * ( p1 > matrix( runif( N*I ) , nrow=N , ncol=I ) )  # 題目作答反應
  colnames(resp) <- paste("I" , 1:I, sep="")
  return(list(resp=resp))
}
#產生10000為學生作答30題的Rasch題目作答反應
resp <- generateRasch(10000,30)$resp

#運用MML估計方法來估計題目作答反應的參數
mod2 <- tam.mml(resp)
mean(mod2$xsi$xsi)  #題目難度的平均
mod2$beta #學生能力的平均
mod2$variance  #學生能力值的變異數

請用不同的學生人數(N)與不同的題數(I)重跑練習2的電腦模擬,以作進一步的練習。請觀察不同的(N)與(I)值會對學生能力的平均與變異數的估計值有何影響?變異數的估計值是否還會有膨脹的現象?請將你估計的結果與JML所估計出來的結果做一個比較。

13.10 JML 與 MML 估計法有何差異?

我們將會使用一個例子來解釋JML 與 MML 估計法的差異。假設我們有一個1000題的題庫,有些學生知道其中10%題目的答案(p=0.1),有些學生知道30%題目的答案(p=0.3),其餘有學生分別知道50%、70%和90%題目的答案,如果我們向這群學生施測所有1000道題目,則我們可以視這些比率(p=0.1, 0.3, 0.5, 0.7, 0.9)為這五組學生的”真實能力(true abilities)“。然而,在一個測驗中,我們可能僅能隨機抽取10題進行施測,我們可以追問這五組學生他們分別答對0題、1題、…、10題的機率為何?我們可以利用二項分布(binomial distribution) 來計算該等機率,並報導如下表所示。在該13.1 表格中,共有五列(rows)分別代表五組的學生能力,而該表的行(columns)則分別代表測驗中的得分,滿分為10分,該表每一個方格代表在已知道所屬能力組別的學生,他們獲得0分到10分的機率。

表 13.1: 答對不同題數的機率
p 0 1 2 3 4 5 6 7 8 9 10
0.1 0.349 0.387 0.194 0.057 0.011 0.001 0.000 0.000 0.000 0.000 0.000
0.3 0.028 0.121 0.233 0.267 0.200 0.103 0.037 0.009 0.001 0.000 0.000
0.5 0.001 0.010 0.044 0.117 0.205 0.246 0.205 0.117 0.044 0.010 0.001
0.7 0.000 0.000 0.001 0.009 0.037 0.103 0.200 0.267 0.233 0.121 0.028
0.9 0.000 0.000 0.000 0.000 0.000 0.001 0.011 0.057 0.194 0.387 0.349

當學生作答一個只有10題的測驗,我們其實並不知道這些學生是來自哪一個能力組別,我們僅僅知道他們在此測驗中答對幾題,而我們需要根據他們在測驗的得分來估計他們的”真實能力”,即表格中的機率(p)值。舉例來說,假設有一位學生在試題中獲得2分,我們可以在表格13.1中,從標示為”2”的那一行往下讀,我們可以發現所列舉的機率為0.194、0.233、0.044、0.001、0.000,而它們對應到真實能力的p值分別為0.1、0.3、0.5、0.7、0.9。由於這五個機率中最大的值為0.233,因此我們可以將獲得2分的學生視為是屬於第二組(即p=0.3那一組)。換句話說,在測驗中獲得2分的學生,我們會估計他們的能力值為”0.3”。

上述估計學生能力值的過程,基本上反應 JML 估計法的精神,當然在正式的 JML 估計法中,我們並不會用百分比來呈現學生的能力值,而是採用洛基單位(logits),這兩個尺度(metric)是有差別的。但無論如何, JML 就是要看哪一個能力值的學生最有可能得到一個特定的測驗分數。當我們估計出學生的能力值後,我們可以將所有學生的能力值整合起來,已獲得母群體的平均能力值與變異數。

至於MML的估計法,它多出了一個關於母群體分布的條件,在表13.2中,它多出了第一行,並報導了每一個能力群有多少位學生,因此表13.2的頭兩行報導出母群體學生能力值的分布,該分布稱為先驗概率(prior distribution)。可是在真實世界中,我們並不知道這個先驗分布,而是要將它估計出來。在這個例子中,讓我們先假設已經知這個分布,接下來,我們將會解釋這個先驗分布是如何運用於估計的過程中。

表 13.2: 不同測驗得分的學生人數
N p 0 1 2 3 4 5 6 7 8 9 10
350 0.1 122 136 68 20 4 1 0 0 0 0 0
400 0.3 11 48 93 107 80 41 15 4 1 0 0
125 0.5 0 1 5 15 26 31 26 15 5 1 0
75 0.7 0 0 0 1 3 8 15 20 18 9 2
50 0.9 0 0 0 0 0 0 1 3 10 19 17
1000 133 185 166 143 113 81 57 42 34 29 19

在表13.2中的數據,它們是利用第一行N的值乘以表13.1中的機率而得,它們的積代表不同能力組別的學生獲得特定測驗分數期望人數。表13.2的最後一列報導出每一行學生人數的加總,換句話說,該表最後一列報導了母群體的學生中,獲得特定分數的學生期望人數,本書稱此列為列總和row margin sums。

我們可以將表13.2 中的數據轉換成機率,進行的方式是將該表每一個能力群學生獲得某一特定得分的人數,除以該得分所相對應的列總和,這些機率代表的是在已知某學生得分為何的情況下,該學生屬於哪一個能力群的機率。例如當我們考慮學生屬於0.3能力群的機率時,對於一位測驗得分為5分的學生,他屬於0.3能力群的機率為41除以81,約等於.51,其餘機率的估計值報導如下表13.3所示。

表 13.3: 在已知測驗得分的條件下,各能力組別學生人數的百分比
N p 0 1 2 3 4 5 6 7 8 9 10
350 0.1 0.92 0.74 0.41 0.14 0.04 0.01 0.00 0.00 0.00 0.00 0.00
400 0.3 0.08 0.26 0.56 0.75 0.71 0.51 0.26 0.10 0.03 0.00 0.00
125 0.5 0.00 0.01 0.03 0.10 0.23 0.38 0.46 0.36 0.15 0.03 0.00
75 0.7 0.00 0.00 0.00 0.01 0.03 0.10 0.26 0.48 0.53 0.31 0.11
50 0.9 0.00 0.00 0.00 0.00 0.00 0.00 0.02 0.07 0.29 0.66 0.89
1000 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00

對於一位測驗得分為5分的學生,表 13.3呈現該生屬於能力組別1 (p=0.1)到組別5 (p=0.9)的機率分別為0.01、0.51、0.38、0.10、0.00。由於當中最大的機率為0.51,而該機率是對應到第2個能力組別(p=0.3),因此我們將這些測驗得分為5分的學生歸類到能力組別0.3。此結果有別於表13.1 傳達的訊息,該表中我們是將一個得分為5分的學生歸類到0.5的能力組別,因為在該表相對應的五個機率中,最高者為0.246。表13.1與表13.3 在數據上的差別,主要在於表13.1並不需要母群體的分布(先驗分布) 這一個條件。相比之下,表13.3則考量了母群體中每一個能力群的學生人數,由於低能力群的學生人數比較多,因此個別學生所估計出來的能力值會變得比較低。

在真實世界中,我們並不知道母群體學生能力的分布,即先驗分布,因此我們並不會知道表 13.3中各方格的機率。我們所蒐集到的資料告訴我們每一個測驗共有多少位學生得到什麼分數,即表格13.2中最底下那一列的數據(table row margin 或譯表格邊際列的數據)。在給定這些”邊際 marginal”數據的情況下,我們可以估計學生的能力分布 (即先驗分布) 為何 。透過這樣處理的方式,我們可以從學生的題目作答反應直接估計學生的能力分布,而不是透過個別學生的能力值來估計學生的能力分布。

這種先要假設有先驗能力分布的方式,即為邊際最大概似估計法(MML)的核心概念,雖然在現在測驗理論中,估計的過程牽涉到的是logistic的模型,而非我們這一個簡介所採用的答對人數等簡單的統計量。關於MML的估計法,我們最需要謹記的訊息是它直接估計學生的能力分布,並非透過一個兩步驟的過程,這是有別於JML的估計法,因為JML是一個兩步驟的方法,首先它需要估計個別學生的能力值,然後再計算其綜合的統計量。

13.11 進一步介紹術語 - 後驗分布

在表13.3中,每一行的機率亦稱為那些獲得特定測驗分數的學生的後驗分布(posterior distribution)。例如對於那些測驗得分為5分的學生,其後驗分布如下表所示。

表 13.4: 獲得5分學生的後驗分布
能力組別 獲得5分者屬於該組別的機率
0.1 0.01
0.3 0.51
0.5 0.38
0.7 0.10
0.9 0.00

表格13.4被稱為後驗分布(以與先驗分布做區隔)的原因,是因為此分布是要在測驗之後,透過先驗分布與測驗結果兩者合併的資訊而衍生出來的分布。如果要對個別學生的能力等級進行推論,我們就要採用後驗分布,而這會牽涉到”似真分數”(plausible values)的概念,亦可翻譯為擬真分數,這是下一章要討論的主題。

13.12 回家作業

在本章的練習1 (13.6)和練習2(13.9) 之後,該處有追問一些問題,請回答這些問題並報導你得到的結果。