鑑別度怎樣算好？掌握關鍵指標，讓你的評估更精準！

「唉呀，這份報告裡的題目鑑別度似乎不太理想，到底什麼才算是『好』的鑑別度呢？」相信不少人在進行測驗編制、學習成效評估，或是甚至是研究分析時，都曾遇上這樣的疑問。究竟，我們該怎麼判斷一個測驗題目、一個評估指標的鑑別度是否夠好，才能真正反映出差異，達到我們想要的目的呢？

Table of Contents

鑑別度是什麼？為何如此重要？

簡單來說，鑑別度（Item Discrimination）指的是一個題目（或評估項目）能否有效地區分出不同能力的受試者。換句話說，一個鑑別度好的題目，應該是能力較強的受試者答對的比例高，而能力較弱的受試者答對的比例低。

想想看，如果一份測驗裡，大部分題目都沒什麼鑑別力，大家得分都差不多，那這份測驗還有辦法區分出誰是真正學得好、誰是還有待加強的嗎？答案顯然是否定的。鑑別度差的題目，就像是測驗中的「裝飾品」，它無法提供有意義的資訊，反而可能稀釋了真正有鑑別力的題目的影響力，導致整體評估結果失真。

在我過去參與的幾次教育評鑑專案中，就曾經遇過這樣的情況。我們編了一份評量國中生數學能力的測驗，有一題關於分數加減的題目，結果統計出來，能力頂尖的學生和程度中等的學生答對率幾乎一樣，甚至還有幾個程度較弱的學生也僥倖猜對。這樣的題目，自然就大大削弱了整個測驗對數學能力差異的呈現。這也讓我深刻體會到，理解並應用「鑑別度」這個概念，是進行任何形式的評估工作時，不可或缺的一環。

鑑別度怎樣算好？三大關鍵指標讓你一看就懂

要判斷一個題目的鑑別度好不好，我們通常會從幾個關鍵指標來檢視。以下將詳細說明，並提供計算上的思路：

1. 題項總分相關係數 (Item-Total Correlation)

這是最常用、也最直觀的鑑別度指標之一。它的概念是計算「某一個題目答對情況」與「該份測驗總得分」之間的相關程度。

計算方式： 通常會使用皮爾森積差相關係數 (Pearson’s r) 來計算。具體來說，就是將每個受試者在該題目上的得分（通常是答對為1，答錯為0）與該受試者在整份測驗上的總得分進行相關分析。
判斷標準：
- 0.40 以上： 非常好，題目能有效區分高低能力者。
- 0.30 – 0.39： 良好，題目有不錯的鑑別力，可以考慮保留。
- 0.20 – 0.29： 尚可，題目鑑別力偏低，但可能還有保留的價值，需要審慎評估，或考慮修改。
- 0.19 以下： 差，題目鑑別力很弱，甚至可能是負相關（能力越強答錯越多），應考慮刪除或大幅修改。
我的看法： 這個指標非常直觀，能快速讓我們知道這個題目是否與整份測驗想測量的「潛在特質」是相關的。如果一個題目與總分相關係數很低，甚至為負，那它很可能測量的是其他跟整體能力無關的東西，甚至是出題有誤，需要特別注意。

2. 高低分組答對率差異 (Discrimination Index, D)

這個指標是另一種判斷鑑別度的常用方法，特別是在傳統的測驗編制中。它直接比較「高能力組」和「低能力組」在某個題目上的答對率差異。

計算方式：
1. 首先，將所有受試者依照總得分由高到低排序。
2. 接著，取出總得分最高的約 25% 的受試者作為「高分組」。
3. 取出總得分最低的約 25% 的受試者作為「低分組」。
4. 分別計算高分組和低分組在此題目上的答對率。
5. 鑑別度指數 (D) = (高分組答對率) – (低分組答對率)
判斷標準：
- 0.40 以上： 極佳，題目能非常有效地區分高低能力者。
- 0.30 – 0.39： 良好，題目有不錯的鑑別力。
- 0.20 – 0.29： 尚可，題目鑑別力較弱，需考慮修改。
- 0.19 以下： 差，題目鑑別力不足，應考慮刪除或大幅修改。
- 負值： 表示低分組比高分組答對率高，題目有嚴重問題，必須刪除。
我的看法： 這個方法提供了一個更「視覺化」的概念。當我們看到高分組的學生普遍答對，而低分組的學生普遍答錯時，我們就對這個題目的鑑別力更有信心。當然，在實際操作上，分組的比例（例如25%）可以根據樣本大小和研究需求來調整，但核心概念是不變的。

3. 項目反應理論 (Item Response Theory, IRT) 中的鑑別參數 (Item Discrimination Parameter, a)

相較於前面兩種方法，IRT 是一種更先進、更精密的測驗理論。在 IRT 模型中，每個題目都有幾個參數來描述其特性，其中「鑑別參數」(a) 就代表了題目的鑑別力。這個參數描述了在能力值 (θ) 改變一個標準差時，受試者答對該題目的機率改變多少。

計算方式： IRT 模型需要透過專門的統計軟體（如 R 語言的 `mirt` 套件、BILOG-MG、PARSCALE 等）進行估計。
判斷標準：
- a 值越大： 意味著該題目在能力連續體上，其答對機率的變化越陡峭，鑑別力越好。
- IRT 的判斷標準沒有一個絕對的數字界線，通常需要與同一個測驗中的其他題目參數進行比較，並結合題目的內容來綜合判斷。一般來說，a 值大於 1 通常被認為是具有不錯鑑別力的題目。
我的看法： IRT 的優勢在於它能提供更精確的題目和個人能力估計，並且不受樣本大小的影響（相較於傳統方法）。不過，它的計算和解釋也相對複雜，需要較深的統計背景。對於需要精確評量，且擁有較大樣本的研究來說，IRT 是個非常強大的工具。

怎樣的題目鑑別度才算「好」？

綜合以上指標，一個「好」的鑑別度的題目，應該具備以下特質：

與整體能力方向一致： 鑑別度指標（如題項總分相關、D 值）為正值，且數值較高。這表示答對此題目的學生，在整體測驗上也表現較好。
能有效區分能力層次： 高分組學生答對率顯著高於低分組學生，或者題項總分相關係數為正且有一定的大小。
內容清晰、無歧義： 題目本身不應有任何語意不清、可能引起誤解的地方，否則即使題目本身有潛在鑑別力，也會因為題目敘述問題而失效。
與測驗目標高度相關： 題目所測量的能力或知識點，應該是該份測驗真正想要評估的目標。

從我個人的經驗來看，能夠達到 0.4 以上的題項總分相關係數，或是 **0.3 以上的 D 值**，都已經算是相當不錯的題目了。當然，我們總是期望有接近 0.6 或更高的題目，但這往往需要非常精心設計。如果一個題目的鑑別度連 0.2 都不到，那它就很可能需要被檢討了。

如何提升題目的鑑別度？

發現題目鑑別度不高時，別太灰心！通常有以下幾種策略可以嘗試改善：

審視題目內容：
- 難度是否適中？ 過於簡單的題目，高低分組都可能答對；過於困難的題目，高低分組都可能答錯。
- 是否涵蓋了核心概念？ 題目是否只測量了邊緣知識，而忽略了關鍵概念？
- 是否有其他干擾因素？ 題目的用詞是否艱澀，或是選項設計不當，導致學生並非因為能力不足而答錯，而是因為看不懂題目或被選項誤導？
檢討選項設計：
- 是否有明顯的「猜中」機率？ 例如，選擇題答案如果只剩兩個，鑑別力自然會下降。
- 是否有「均標」或「趨勢」選項？ 有些選項可能是大部分學生都會傾向選擇的「安全牌」，而不是真正掌握知識的選項。
- 是否有「陷阱」選項？ 好的選項設計應該能夠區分出真正理解概念的學生，以及那些似是而非的學生。
重新檢視測驗結構：
- 題目數量的配置： 是否有足夠的題目來涵蓋想要評估的各個面向？
- 題型是否多元？ 不同的題型可能會有不同的鑑別效果。
進行試題分析 (Item Analysis)： 在正式施測前，先進行小規模的預試 (Pilot Test)，並對試題進行詳細分析，找出鑑別度不佳的題目，並根據分析結果進行修改。

常見問題與專業解答

關於鑑別度，許多人還有一些常見的疑問，這裡我將一一為大家做詳細的解答。

Q1：我的題目鑑別度是負的，這代表什麼意思？我該怎麼辦？

A1：如果一個題目的鑑別度出現負值，這代表情況相當嚴重，必須立即處理！負的鑑別度意味著，在這個題目上，程度較差的學生反而比程度較好的學生更容易答對。這通常是以下幾種原因造成的：

題目敘述錯誤或產生歧義： 題目可能用了非常規的、容易造成誤解的詞語，導致程度好的學生因為「想太多」或被題目本身誤導而答錯，而程度較弱的學生卻因為「僥倖」或「直覺」猜對。
答案設計不良： 錯誤選項（Distractors）的設計可能誤導了能力較強的學生，或者正確答案本身就有瑕疵，導致看起來「正確」的選項反而不是真正符合題目意圖的解答。
測量內容與整體測驗目標不符： 這個題目可能無意間測量了與整體測驗不同的能力，例如，其他題目都在測量學生的計算能力，而這個題目卻在測量學生的閱讀理解能力。
抽樣問題： 極少數情況下，如果你的樣本非常小且特殊，也可能出現這種極端情況。

處理建議：

仔細檢查題目敘述： 尋找是否有模稜兩可、容易引起不同解釋的字句。
請其他專家進行審閱： 讓其他對該領域熟悉的人一起檢查題目和答案，尋找潛在問題。
分析低分組答對、高分組答錯的原因： 嘗試從學生的角度去思考，他們為什麼會這樣作答。
考慮刪除： 如果無法找出問題並修正，最安全的做法是直接刪除該題目，避免它對整體測驗結果造成負面影響。

Q2：我使用的鑑別度指標是「題項總分相關係數」，它顯示我的題目相關係數是 0.25，這算好嗎？

A2：題項總分相關係數 0.25，按照我們前面提到的標準，這屬於「尚可」的範圍。這意味著這個題目與整份測驗的整體分數確實有一定程度的正相關，但鑑別力相對偏弱，不是一個非常強勁的鑑別者。

進一步的思考與行動：

評估題目的重要性： 如果這個題目是評量某個非常關鍵的學習目標，那麼即使鑑別度不高，你可能也需要考慮保留，但同時要想辦法加強。
檢查難易度： 看看這個題目是屬於全體學生都容易答對，還是普遍都答錯。如果兩者皆是，那麼它的鑑別力自然難以顯現。
審視錯誤選項： 檢查錯誤選項是否足夠「有吸引力」，足以讓程度稍弱的學生誤選，同時又不至於誤導程度強的學生。
考慮修改： 你可以嘗試修改題目的用詞、增加情境描述，或者調整錯誤選項，讓它更能區分出能力上的差異。修改後，務必再次進行試題分析，確認鑑別度是否有提升。
與其他題目比較： 如果你的測驗中有其他鑑別度都超過 0.4 的題目，那麼 0.25 的題目確實顯得較弱。但如果你的測驗整體鑑別度都不高，那麼 0.25 可能也算是不錯的了。

Q3：我聽說「高低分組答對率差異」這個指標比較主觀，是真的嗎？

A3：這個說法有一定道理，但不能完全說是「主觀」。高低分組答對率差異（D 值）的計算，確實會受到「如何劃分高低分組」的影響。不同的劃分比例（例如 20% vs 20%，或是 30% vs 30%）可能會得出略有不同的 D 值。

然而，它的「客觀性」體現在以下幾點：

基於實際數據： D 值的計算是完全依據受試者的實際得分數據，而不是個人感覺或猜測。
提供明確的比較基準： 它直接比較了兩個（理論上）能力差異最大的群體在題目上的表現，提供了一個量化的差異指標。
與題項總分相關有互補性： 雖然題項總分相關係數也是基於數據，但 D 值在概念上更直接地體現了「區分能力」的意圖。

所以，與其說是「主觀」，不如說它是一個「依賴於數據劃分」的客觀指標。 在實際應用中，最常見的做法是取最高 25% 和最低 25% 的樣本，因為這個比例在統計上相對穩定，且能有效抓住兩端的能力差異。如果你擔心劃分比例的問題，可以嘗試不同的比例進行比較，觀察 D 值的變動趨勢，從而更全面地理解題目的鑑別情況。

Q4：IRT 中的鑑別參數 (a) 值越大越好嗎？有沒有一個絕對的數值標準？

A4：是的，在 IRT 模型中，鑑別參數 (a) 值越大，通常代表題目的鑑別力越好。 這是因為 a 值反映了在能力連續體上，題目的答對機率曲線的斜率。a 值越大，曲線越陡峭，意味著在能力值附近稍有差異，答對機率的變化就會非常顯著，能夠更精確地區分出微小的能力差異。

關於絕對數值標準：

一般來說，IRT 的鑑別參數 a 值可以大致參考如下：

a < 0.5： 鑑別力非常弱。
0.5 ≤ a < 0.8： 鑑別力中等偏弱。
0.8 ≤ a < 1.2： 鑑別力良好。
a ≥ 1.2： 鑑別力優秀。

然而，需要強調的是：

相對性： 這些數字並非絕對標準，而是需要結合實際研究的背景、題目的難易度參數 (b)，以及同份測驗中其他題目的 a 值來綜合判斷。
與其他參數的關聯： 鑑別力好的題目（a 值大）通常也需要配合適當的難易度（b 值），才能有效發揮其區分能力的作用。一個 a 值很高的題目，如果 b 值設定得太難或太簡單，也會導致其鑑別力在實際應用中受限。
題目本身的性質： 有些性質的題目（例如開放性問題、需要複雜推理的題目）可能自然會有較高的 a 值，而有些（例如單純的知識記憶題）則可能 a 值相對較低。

因此，在使用 IRT 分析時，我們通常會將題目的 a 值與其 b 值、以及整體模型擬合情況一起考慮，並參照現有的學術研究和實務經驗來進行判斷。

總之，了解並善用「鑑別度」這個概念，是提升測驗品質、做出更精準評估的關鍵。透過掌握這些指標和方法，相信您也能夠做出更具信效度、更能反映真實能力的評估工具！

鑑別度怎樣算好