鑑別度怎樣算好?掌握關鍵指標,讓你的評估更精準!
「唉呀,這份報告裡的題目鑑別度似乎不太理想,到底什麼才算是『好』的鑑別度呢?」相信不少人在進行測驗編制、學習成效評估,或是甚至是研究分析時,都曾遇上這樣的疑問。究竟,我們該怎麼判斷一個測驗題目、一個評估指標的鑑別度是否夠好,才能真正反映出差異,達到我們想要的目的呢?
Table of Contents
鑑別度是什麼?為何如此重要?
簡單來說,鑑別度(Item Discrimination)指的是一個題目(或評估項目)能否有效地區分出不同能力的受試者。換句話說,一個鑑別度好的題目,應該是能力較強的受試者答對的比例高,而能力較弱的受試者答對的比例低。
想想看,如果一份測驗裡,大部分題目都沒什麼鑑別力,大家得分都差不多,那這份測驗還有辦法區分出誰是真正學得好、誰是還有待加強的嗎?答案顯然是否定的。鑑別度差的題目,就像是測驗中的「裝飾品」,它無法提供有意義的資訊,反而可能稀釋了真正有鑑別力的題目的影響力,導致整體評估結果失真。
在我過去參與的幾次教育評鑑專案中,就曾經遇過這樣的情況。我們編了一份評量國中生數學能力的測驗,有一題關於分數加減的題目,結果統計出來,能力頂尖的學生和程度中等的學生答對率幾乎一樣,甚至還有幾個程度較弱的學生也僥倖猜對。這樣的題目,自然就大大削弱了整個測驗對數學能力差異的呈現。這也讓我深刻體會到,理解並應用「鑑別度」這個概念,是進行任何形式的評估工作時,不可或缺的一環。
鑑別度怎樣算好?三大關鍵指標讓你一看就懂
要判斷一個題目的鑑別度好不好,我們通常會從幾個關鍵指標來檢視。以下將詳細說明,並提供計算上的思路:
1. 題項總分相關係數 (Item-Total Correlation)
這是最常用、也最直觀的鑑別度指標之一。它的概念是計算「某一個題目答對情況」與「該份測驗總得分」之間的相關程度。
- 計算方式: 通常會使用皮爾森積差相關係數 (Pearson’s r) 來計算。具體來說,就是將每個受試者在該題目上的得分(通常是答對為1,答錯為0)與該受試者在整份測驗上的總得分進行相關分析。
- 判斷標準:
- 0.40 以上: 非常好,題目能有效區分高低能力者。
- 0.30 – 0.39: 良好,題目有不錯的鑑別力,可以考慮保留。
- 0.20 – 0.29: 尚可,題目鑑別力偏低,但可能還有保留的價值,需要審慎評估,或考慮修改。
- 0.19 以下: 差,題目鑑別力很弱,甚至可能是負相關(能力越強答錯越多),應考慮刪除或大幅修改。
- 我的看法: 這個指標非常直觀,能快速讓我們知道這個題目是否與整份測驗想測量的「潛在特質」是相關的。如果一個題目與總分相關係數很低,甚至為負,那它很可能測量的是其他跟整體能力無關的東西,甚至是出題有誤,需要特別注意。
2. 高低分組答對率差異 (Discrimination Index, D)
這個指標是另一種判斷鑑別度的常用方法,特別是在傳統的測驗編制中。它直接比較「高能力組」和「低能力組」在某個題目上的答對率差異。
- 計算方式:
- 首先,將所有受試者依照總得分由高到低排序。
- 接著,取出總得分最高的約 25% 的受試者作為「高分組」。
- 取出總得分最低的約 25% 的受試者作為「低分組」。
- 分別計算高分組和低分組在此題目上的答對率。
- 鑑別度指數 (D) = (高分組答對率) – (低分組答對率)
- 判斷標準:
- 0.40 以上: 極佳,題目能非常有效地區分高低能力者。
- 0.30 – 0.39: 良好,題目有不錯的鑑別力。
- 0.20 – 0.29: 尚可,題目鑑別力較弱,需考慮修改。
- 0.19 以下: 差,題目鑑別力不足,應考慮刪除或大幅修改。
- 負值: 表示低分組比高分組答對率高,題目有嚴重問題,必須刪除。
- 我的看法: 這個方法提供了一個更「視覺化」的概念。當我們看到高分組的學生普遍答對,而低分組的學生普遍答錯時,我們就對這個題目的鑑別力更有信心。當然,在實際操作上,分組的比例(例如25%)可以根據樣本大小和研究需求來調整,但核心概念是不變的。
3. 項目反應理論 (Item Response Theory, IRT) 中的鑑別參數 (Item Discrimination Parameter, a)
相較於前面兩種方法,IRT 是一種更先進、更精密的測驗理論。在 IRT 模型中,每個題目都有幾個參數來描述其特性,其中「鑑別參數」(a) 就代表了題目的鑑別力。這個參數描述了在能力值 (θ) 改變一個標準差時,受試者答對該題目的機率改變多少。
- 計算方式: IRT 模型需要透過專門的統計軟體(如 R 語言的 `mirt` 套件、BILOG-MG、PARSCALE 等)進行估計。
- 判斷標準:
- a 值越大: 意味著該題目在能力連續體上,其答對機率的變化越陡峭,鑑別力越好。
- IRT 的判斷標準沒有一個絕對的數字界線,通常需要與同一個測驗中的其他題目參數進行比較,並結合題目的內容來綜合判斷。一般來說,a 值大於 1 通常被認為是具有不錯鑑別力的題目。
- 我的看法: IRT 的優勢在於它能提供更精確的題目和個人能力估計,並且不受樣本大小的影響(相較於傳統方法)。不過,它的計算和解釋也相對複雜,需要較深的統計背景。對於需要精確評量,且擁有較大樣本的研究來說,IRT 是個非常強大的工具。
怎樣的題目鑑別度才算「好」?
綜合以上指標,一個「好」的鑑別度的題目,應該具備以下特質:
- 與整體能力方向一致: 鑑別度指標(如題項總分相關、D 值)為正值,且數值較高。這表示答對此題目的學生,在整體測驗上也表現較好。
- 能有效區分能力層次: 高分組學生答對率顯著高於低分組學生,或者題項總分相關係數為正且有一定的大小。
- 內容清晰、無歧義: 題目本身不應有任何語意不清、可能引起誤解的地方,否則即使題目本身有潛在鑑別力,也會因為題目敘述問題而失效。
- 與測驗目標高度相關: 題目所測量的能力或知識點,應該是該份測驗真正想要評估的目標。
從我個人的經驗來看,能夠達到 0.4 以上的題項總分相關係數,或是 **0.3 以上的 D 值**,都已經算是相當不錯的題目了。當然,我們總是期望有接近 0.6 或更高的題目,但這往往需要非常精心設計。如果一個題目的鑑別度連 0.2 都不到,那它就很可能需要被檢討了。
如何提升題目的鑑別度?
發現題目鑑別度不高時,別太灰心!通常有以下幾種策略可以嘗試改善:
- 審視題目內容:
- 難度是否適中? 過於簡單的題目,高低分組都可能答對;過於困難的題目,高低分組都可能答錯。
- 是否涵蓋了核心概念? 題目是否只測量了邊緣知識,而忽略了關鍵概念?
- 是否有其他干擾因素? 題目的用詞是否艱澀,或是選項設計不當,導致學生並非因為能力不足而答錯,而是因為看不懂題目或被選項誤導?
- 檢討選項設計:
- 是否有明顯的「猜中」機率? 例如,選擇題答案如果只剩兩個,鑑別力自然會下降。
- 是否有「均標」或「趨勢」選項? 有些選項可能是大部分學生都會傾向選擇的「安全牌」,而不是真正掌握知識的選項。
- 是否有「陷阱」選項? 好的選項設計應該能夠區分出真正理解概念的學生,以及那些似是而非的學生。
- 重新檢視測驗結構:
- 題目數量的配置: 是否有足夠的題目來涵蓋想要評估的各個面向?
- 題型是否多元? 不同的題型可能會有不同的鑑別效果。
- 進行試題分析 (Item Analysis): 在正式施測前,先進行小規模的預試 (Pilot Test),並對試題進行詳細分析,找出鑑別度不佳的題目,並根據分析結果進行修改。
常見問題與專業解答
關於鑑別度,許多人還有一些常見的疑問,這裡我將一一為大家做詳細的解答。
Q1:我的題目鑑別度是負的,這代表什麼意思?我該怎麼辦?
A1:如果一個題目的鑑別度出現負值,這代表情況相當嚴重,必須立即處理!負的鑑別度意味著,在這個題目上,程度較差的學生反而比程度較好的學生更容易答對。這通常是以下幾種原因造成的:
- 題目敘述錯誤或產生歧義: 題目可能用了非常規的、容易造成誤解的詞語,導致程度好的學生因為「想太多」或被題目本身誤導而答錯,而程度較弱的學生卻因為「僥倖」或「直覺」猜對。
- 答案設計不良: 錯誤選項(Distractors)的設計可能誤導了能力較強的學生,或者正確答案本身就有瑕疵,導致看起來「正確」的選項反而不是真正符合題目意圖的解答。
- 測量內容與整體測驗目標不符: 這個題目可能無意間測量了與整體測驗不同的能力,例如,其他題目都在測量學生的計算能力,而這個題目卻在測量學生的閱讀理解能力。
- 抽樣問題: 極少數情況下,如果你的樣本非常小且特殊,也可能出現這種極端情況。
處理建議:
- 仔細檢查題目敘述: 尋找是否有模稜兩可、容易引起不同解釋的字句。
- 請其他專家進行審閱: 讓其他對該領域熟悉的人一起檢查題目和答案,尋找潛在問題。
- 分析低分組答對、高分組答錯的原因: 嘗試從學生的角度去思考,他們為什麼會這樣作答。
- 考慮刪除: 如果無法找出問題並修正,最安全的做法是直接刪除該題目,避免它對整體測驗結果造成負面影響。
Q2:我使用的鑑別度指標是「題項總分相關係數」,它顯示我的題目相關係數是 0.25,這算好嗎?
A2:題項總分相關係數 0.25,按照我們前面提到的標準,這屬於「尚可」的範圍。這意味著這個題目與整份測驗的整體分數確實有一定程度的正相關,但鑑別力相對偏弱,不是一個非常強勁的鑑別者。
進一步的思考與行動:
- 評估題目的重要性: 如果這個題目是評量某個非常關鍵的學習目標,那麼即使鑑別度不高,你可能也需要考慮保留,但同時要想辦法加強。
- 檢查難易度: 看看這個題目是屬於全體學生都容易答對,還是普遍都答錯。如果兩者皆是,那麼它的鑑別力自然難以顯現。
- 審視錯誤選項: 檢查錯誤選項是否足夠「有吸引力」,足以讓程度稍弱的學生誤選,同時又不至於誤導程度強的學生。
- 考慮修改: 你可以嘗試修改題目的用詞、增加情境描述,或者調整錯誤選項,讓它更能區分出能力上的差異。修改後,務必再次進行試題分析,確認鑑別度是否有提升。
- 與其他題目比較: 如果你的測驗中有其他鑑別度都超過 0.4 的題目,那麼 0.25 的題目確實顯得較弱。但如果你的測驗整體鑑別度都不高,那麼 0.25 可能也算是不錯的了。
Q3:我聽說「高低分組答對率差異」這個指標比較主觀,是真的嗎?
A3:這個說法有一定道理,但不能完全說是「主觀」。高低分組答對率差異(D 值)的計算,確實會受到「如何劃分高低分組」的影響。不同的劃分比例(例如 20% vs 20%,或是 30% vs 30%)可能會得出略有不同的 D 值。
然而,它的「客觀性」體現在以下幾點:
- 基於實際數據: D 值的計算是完全依據受試者的實際得分數據,而不是個人感覺或猜測。
- 提供明確的比較基準: 它直接比較了兩個(理論上)能力差異最大的群體在題目上的表現,提供了一個量化的差異指標。
- 與題項總分相關有互補性: 雖然題項總分相關係數也是基於數據,但 D 值在概念上更直接地體現了「區分能力」的意圖。
所以,與其說是「主觀」,不如說它是一個「依賴於數據劃分」的客觀指標。 在實際應用中,最常見的做法是取最高 25% 和最低 25% 的樣本,因為這個比例在統計上相對穩定,且能有效抓住兩端的能力差異。如果你擔心劃分比例的問題,可以嘗試不同的比例進行比較,觀察 D 值的變動趨勢,從而更全面地理解題目的鑑別情況。
Q4:IRT 中的鑑別參數 (a) 值越大越好嗎?有沒有一個絕對的數值標準?
A4:是的,在 IRT 模型中,鑑別參數 (a) 值越大,通常代表題目的鑑別力越好。 這是因為 a 值反映了在能力連續體上,題目的答對機率曲線的斜率。a 值越大,曲線越陡峭,意味著在能力值附近稍有差異,答對機率的變化就會非常顯著,能夠更精確地區分出微小的能力差異。
關於絕對數值標準:
一般來說,IRT 的鑑別參數 a 值可以大致參考如下:
- a < 0.5: 鑑別力非常弱。
- 0.5 ≤ a < 0.8: 鑑別力中等偏弱。
- 0.8 ≤ a < 1.2: 鑑別力良好。
- a ≥ 1.2: 鑑別力優秀。
然而,需要強調的是:
- 相對性: 這些數字並非絕對標準,而是需要結合實際研究的背景、題目的難易度參數 (b),以及同份測驗中其他題目的 a 值來綜合判斷。
- 與其他參數的關聯: 鑑別力好的題目(a 值大)通常也需要配合適當的難易度(b 值),才能有效發揮其區分能力的作用。一個 a 值很高的題目,如果 b 值設定得太難或太簡單,也會導致其鑑別力在實際應用中受限。
- 題目本身的性質: 有些性質的題目(例如開放性問題、需要複雜推理的題目)可能自然會有較高的 a 值,而有些(例如單純的知識記憶題)則可能 a 值相對較低。
因此,在使用 IRT 分析時,我們通常會將題目的 a 值與其 b 值、以及整體模型擬合情況一起考慮,並參照現有的學術研究和實務經驗來進行判斷。
總之,了解並善用「鑑別度」這個概念,是提升測驗品質、做出更精準評估的關鍵。透過掌握這些指標和方法,相信您也能夠做出更具信效度、更能反映真實能力的評估工具!
