鑑別度怎樣算好?掌握關鍵指標,讓你的評估更精準!

「唉呀,這份報告裡的題目鑑別度似乎不太理想,到底什麼才算是『好』的鑑別度呢?」相信不少人在進行測驗編制、學習成效評估,或是甚至是研究分析時,都曾遇上這樣的疑問。究竟,我們該怎麼判斷一個測驗題目、一個評估指標的鑑別度是否夠好,才能真正反映出差異,達到我們想要的目的呢?

鑑別度是什麼?為何如此重要?

簡單來說,鑑別度(Item Discrimination)指的是一個題目(或評估項目)能否有效地區分出不同能力的受試者。換句話說,一個鑑別度好的題目,應該是能力較強的受試者答對的比例高,而能力較弱的受試者答對的比例低。

想想看,如果一份測驗裡,大部分題目都沒什麼鑑別力,大家得分都差不多,那這份測驗還有辦法區分出誰是真正學得好、誰是還有待加強的嗎?答案顯然是否定的。鑑別度差的題目,就像是測驗中的「裝飾品」,它無法提供有意義的資訊,反而可能稀釋了真正有鑑別力的題目的影響力,導致整體評估結果失真。

在我過去參與的幾次教育評鑑專案中,就曾經遇過這樣的情況。我們編了一份評量國中生數學能力的測驗,有一題關於分數加減的題目,結果統計出來,能力頂尖的學生和程度中等的學生答對率幾乎一樣,甚至還有幾個程度較弱的學生也僥倖猜對。這樣的題目,自然就大大削弱了整個測驗對數學能力差異的呈現。這也讓我深刻體會到,理解並應用「鑑別度」這個概念,是進行任何形式的評估工作時,不可或缺的一環。

鑑別度怎樣算好?三大關鍵指標讓你一看就懂

要判斷一個題目的鑑別度好不好,我們通常會從幾個關鍵指標來檢視。以下將詳細說明,並提供計算上的思路:

1. 題項總分相關係數 (Item-Total Correlation)

這是最常用、也最直觀的鑑別度指標之一。它的概念是計算「某一個題目答對情況」與「該份測驗總得分」之間的相關程度。

  • 計算方式: 通常會使用皮爾森積差相關係數 (Pearson’s r) 來計算。具體來說,就是將每個受試者在該題目上的得分(通常是答對為1,答錯為0)與該受試者在整份測驗上的總得分進行相關分析。
  • 判斷標準:
    • 0.40 以上: 非常好,題目能有效區分高低能力者。
    • 0.30 – 0.39: 良好,題目有不錯的鑑別力,可以考慮保留。
    • 0.20 – 0.29: 尚可,題目鑑別力偏低,但可能還有保留的價值,需要審慎評估,或考慮修改。
    • 0.19 以下: 差,題目鑑別力很弱,甚至可能是負相關(能力越強答錯越多),應考慮刪除或大幅修改。
  • 我的看法: 這個指標非常直觀,能快速讓我們知道這個題目是否與整份測驗想測量的「潛在特質」是相關的。如果一個題目與總分相關係數很低,甚至為負,那它很可能測量的是其他跟整體能力無關的東西,甚至是出題有誤,需要特別注意。

2. 高低分組答對率差異 (Discrimination Index, D)

這個指標是另一種判斷鑑別度的常用方法,特別是在傳統的測驗編制中。它直接比較「高能力組」和「低能力組」在某個題目上的答對率差異。

  • 計算方式:
    1. 首先,將所有受試者依照總得分由高到低排序。
    2. 接著,取出總得分最高的約 25% 的受試者作為「高分組」。
    3. 取出總得分最低的約 25% 的受試者作為「低分組」。
    4. 分別計算高分組和低分組在此題目上的答對率。
    5. 鑑別度指數 (D) = (高分組答對率) – (低分組答對率)
  • 判斷標準:
    • 0.40 以上: 極佳,題目能非常有效地區分高低能力者。
    • 0.30 – 0.39: 良好,題目有不錯的鑑別力。
    • 0.20 – 0.29: 尚可,題目鑑別力較弱,需考慮修改。
    • 0.19 以下: 差,題目鑑別力不足,應考慮刪除或大幅修改。
    • 負值: 表示低分組比高分組答對率高,題目有嚴重問題,必須刪除。
  • 我的看法: 這個方法提供了一個更「視覺化」的概念。當我們看到高分組的學生普遍答對,而低分組的學生普遍答錯時,我們就對這個題目的鑑別力更有信心。當然,在實際操作上,分組的比例(例如25%)可以根據樣本大小和研究需求來調整,但核心概念是不變的。

3. 項目反應理論 (Item Response Theory, IRT) 中的鑑別參數 (Item Discrimination Parameter, a)

相較於前面兩種方法,IRT 是一種更先進、更精密的測驗理論。在 IRT 模型中,每個題目都有幾個參數來描述其特性,其中「鑑別參數」(a) 就代表了題目的鑑別力。這個參數描述了在能力值 (θ) 改變一個標準差時,受試者答對該題目的機率改變多少。

  • 計算方式: IRT 模型需要透過專門的統計軟體(如 R 語言的 `mirt` 套件、BILOG-MG、PARSCALE 等)進行估計。
  • 判斷標準:
    • a 值越大: 意味著該題目在能力連續體上,其答對機率的變化越陡峭,鑑別力越好。
    • IRT 的判斷標準沒有一個絕對的數字界線,通常需要與同一個測驗中的其他題目參數進行比較,並結合題目的內容來綜合判斷。一般來說,a 值大於 1 通常被認為是具有不錯鑑別力的題目。
  • 我的看法: IRT 的優勢在於它能提供更精確的題目和個人能力估計,並且不受樣本大小的影響(相較於傳統方法)。不過,它的計算和解釋也相對複雜,需要較深的統計背景。對於需要精確評量,且擁有較大樣本的研究來說,IRT 是個非常強大的工具。

怎樣的題目鑑別度才算「好」?

綜合以上指標,一個「好」的鑑別度的題目,應該具備以下特質:

  • 與整體能力方向一致: 鑑別度指標(如題項總分相關、D 值)為正值,且數值較高。這表示答對此題目的學生,在整體測驗上也表現較好。
  • 能有效區分能力層次: 高分組學生答對率顯著高於低分組學生,或者題項總分相關係數為正且有一定的大小。
  • 內容清晰、無歧義: 題目本身不應有任何語意不清、可能引起誤解的地方,否則即使題目本身有潛在鑑別力,也會因為題目敘述問題而失效。
  • 與測驗目標高度相關: 題目所測量的能力或知識點,應該是該份測驗真正想要評估的目標。

從我個人的經驗來看,能夠達到 0.4 以上的題項總分相關係數,或是 **0.3 以上的 D 值**,都已經算是相當不錯的題目了。當然,我們總是期望有接近 0.6 或更高的題目,但這往往需要非常精心設計。如果一個題目的鑑別度連 0.2 都不到,那它就很可能需要被檢討了。

如何提升題目的鑑別度?

發現題目鑑別度不高時,別太灰心!通常有以下幾種策略可以嘗試改善:

  1. 審視題目內容:
    • 難度是否適中? 過於簡單的題目,高低分組都可能答對;過於困難的題目,高低分組都可能答錯。
    • 是否涵蓋了核心概念? 題目是否只測量了邊緣知識,而忽略了關鍵概念?
    • 是否有其他干擾因素? 題目的用詞是否艱澀,或是選項設計不當,導致學生並非因為能力不足而答錯,而是因為看不懂題目或被選項誤導?
  2. 檢討選項設計:
    • 是否有明顯的「猜中」機率? 例如,選擇題答案如果只剩兩個,鑑別力自然會下降。
    • 是否有「均標」或「趨勢」選項? 有些選項可能是大部分學生都會傾向選擇的「安全牌」,而不是真正掌握知識的選項。
    • 是否有「陷阱」選項? 好的選項設計應該能夠區分出真正理解概念的學生,以及那些似是而非的學生。
  3. 重新檢視測驗結構:
    • 題目數量的配置: 是否有足夠的題目來涵蓋想要評估的各個面向?
    • 題型是否多元? 不同的題型可能會有不同的鑑別效果。
  4. 進行試題分析 (Item Analysis): 在正式施測前,先進行小規模的預試 (Pilot Test),並對試題進行詳細分析,找出鑑別度不佳的題目,並根據分析結果進行修改。

常見問題與專業解答

關於鑑別度,許多人還有一些常見的疑問,這裡我將一一為大家做詳細的解答。

Q1:我的題目鑑別度是負的,這代表什麼意思?我該怎麼辦?

A1:如果一個題目的鑑別度出現負值,這代表情況相當嚴重,必須立即處理!負的鑑別度意味著,在這個題目上,程度較差的學生反而比程度較好的學生更容易答對。這通常是以下幾種原因造成的:

  • 題目敘述錯誤或產生歧義: 題目可能用了非常規的、容易造成誤解的詞語,導致程度好的學生因為「想太多」或被題目本身誤導而答錯,而程度較弱的學生卻因為「僥倖」或「直覺」猜對。
  • 答案設計不良: 錯誤選項(Distractors)的設計可能誤導了能力較強的學生,或者正確答案本身就有瑕疵,導致看起來「正確」的選項反而不是真正符合題目意圖的解答。
  • 測量內容與整體測驗目標不符: 這個題目可能無意間測量了與整體測驗不同的能力,例如,其他題目都在測量學生的計算能力,而這個題目卻在測量學生的閱讀理解能力。
  • 抽樣問題: 極少數情況下,如果你的樣本非常小且特殊,也可能出現這種極端情況。

處理建議:

  • 仔細檢查題目敘述: 尋找是否有模稜兩可、容易引起不同解釋的字句。
  • 請其他專家進行審閱: 讓其他對該領域熟悉的人一起檢查題目和答案,尋找潛在問題。
  • 分析低分組答對、高分組答錯的原因: 嘗試從學生的角度去思考,他們為什麼會這樣作答。
  • 考慮刪除: 如果無法找出問題並修正,最安全的做法是直接刪除該題目,避免它對整體測驗結果造成負面影響。

Q2:我使用的鑑別度指標是「題項總分相關係數」,它顯示我的題目相關係數是 0.25,這算好嗎?

A2:題項總分相關係數 0.25,按照我們前面提到的標準,這屬於「尚可」的範圍。這意味著這個題目與整份測驗的整體分數確實有一定程度的正相關,但鑑別力相對偏弱,不是一個非常強勁的鑑別者。

進一步的思考與行動:

  • 評估題目的重要性: 如果這個題目是評量某個非常關鍵的學習目標,那麼即使鑑別度不高,你可能也需要考慮保留,但同時要想辦法加強。
  • 檢查難易度: 看看這個題目是屬於全體學生都容易答對,還是普遍都答錯。如果兩者皆是,那麼它的鑑別力自然難以顯現。
  • 審視錯誤選項: 檢查錯誤選項是否足夠「有吸引力」,足以讓程度稍弱的學生誤選,同時又不至於誤導程度強的學生。
  • 考慮修改: 你可以嘗試修改題目的用詞、增加情境描述,或者調整錯誤選項,讓它更能區分出能力上的差異。修改後,務必再次進行試題分析,確認鑑別度是否有提升。
  • 與其他題目比較: 如果你的測驗中有其他鑑別度都超過 0.4 的題目,那麼 0.25 的題目確實顯得較弱。但如果你的測驗整體鑑別度都不高,那麼 0.25 可能也算是不錯的了。

Q3:我聽說「高低分組答對率差異」這個指標比較主觀,是真的嗎?

A3:這個說法有一定道理,但不能完全說是「主觀」。高低分組答對率差異(D 值)的計算,確實會受到「如何劃分高低分組」的影響。不同的劃分比例(例如 20% vs 20%,或是 30% vs 30%)可能會得出略有不同的 D 值。

然而,它的「客觀性」體現在以下幾點:

  • 基於實際數據: D 值的計算是完全依據受試者的實際得分數據,而不是個人感覺或猜測。
  • 提供明確的比較基準: 它直接比較了兩個(理論上)能力差異最大的群體在題目上的表現,提供了一個量化的差異指標。
  • 與題項總分相關有互補性: 雖然題項總分相關係數也是基於數據,但 D 值在概念上更直接地體現了「區分能力」的意圖。

所以,與其說是「主觀」,不如說它是一個「依賴於數據劃分」的客觀指標。 在實際應用中,最常見的做法是取最高 25% 和最低 25% 的樣本,因為這個比例在統計上相對穩定,且能有效抓住兩端的能力差異。如果你擔心劃分比例的問題,可以嘗試不同的比例進行比較,觀察 D 值的變動趨勢,從而更全面地理解題目的鑑別情況。

Q4:IRT 中的鑑別參數 (a) 值越大越好嗎?有沒有一個絕對的數值標準?

A4:是的,在 IRT 模型中,鑑別參數 (a) 值越大,通常代表題目的鑑別力越好。 這是因為 a 值反映了在能力連續體上,題目的答對機率曲線的斜率。a 值越大,曲線越陡峭,意味著在能力值附近稍有差異,答對機率的變化就會非常顯著,能夠更精確地區分出微小的能力差異。

關於絕對數值標準:

一般來說,IRT 的鑑別參數 a 值可以大致參考如下:

  • a < 0.5: 鑑別力非常弱。
  • 0.5 ≤ a < 0.8: 鑑別力中等偏弱。
  • 0.8 ≤ a < 1.2: 鑑別力良好。
  • a ≥ 1.2: 鑑別力優秀。

然而,需要強調的是:

  • 相對性: 這些數字並非絕對標準,而是需要結合實際研究的背景、題目的難易度參數 (b),以及同份測驗中其他題目的 a 值來綜合判斷。
  • 與其他參數的關聯: 鑑別力好的題目(a 值大)通常也需要配合適當的難易度(b 值),才能有效發揮其區分能力的作用。一個 a 值很高的題目,如果 b 值設定得太難或太簡單,也會導致其鑑別力在實際應用中受限。
  • 題目本身的性質: 有些性質的題目(例如開放性問題、需要複雜推理的題目)可能自然會有較高的 a 值,而有些(例如單純的知識記憶題)則可能 a 值相對較低。

因此,在使用 IRT 分析時,我們通常會將題目的 a 值與其 b 值、以及整體模型擬合情況一起考慮,並參照現有的學術研究和實務經驗來進行判斷。

總之,了解並善用「鑑別度」這個概念,是提升測驗品質、做出更精準評估的關鍵。透過掌握這些指標和方法,相信您也能夠做出更具信效度、更能反映真實能力的評估工具!

鑑別度怎樣算好