Table of Contents

【icc量表是什麼】深入解析：統計學中的組內相關係數與其實際應用

在學術研究、臨床醫學、心理測量乃至於各種需要評估「一致性」與「可靠性」的領域中，「ICC量表」是一個極為重要的統計工具。它經常被提及，但其背後的概念、類型與應用卻常令人感到困惑。本篇文章將深入淺出地為您詳細解釋【icc量表是什麼】，為何它如此重要，以及如何在不同的情境下理解和應用它，幫助您掌握這個評估測量信度的利器。

什麼是ICC量表？

「ICC量表」所指的正是 Intraclass Correlation Coefficient，中文譯為「組內相關係數」。它是一種統計指標，主要用於評估兩個或多個評分者（或測量者、測量儀器）對相同對象或樣本進行測量時的 一致性（Agreement） 或 可靠性（Reliability） 程度。簡單來說，它回答的問題是：「如果多個評分者對同一組對象進行評分，他們的評分結果會有多接近？」

與常見的皮爾遜積差相關係數（Pearson correlation coefficient）不同，皮爾遜相關係數主要衡量兩個變數之間的線性關係強度和方向，它不考慮系統性偏差。而ICC則更側重於評估絕對一致性，即評分者間的評分不僅要趨勢一致，數值也要盡可能地接近。這使得ICC在需要評估測量工具或評分者本身穩定性的情境中，成為不可或缺的工具。

ICC的值介於0到1之間，值越高表示評分者之間的一致性或可靠性越高。如果ICC趨近於1，表示評分者之間的評分幾乎完全一致；如果趨近於0，則表示評分者之間的評分幾乎沒有一致性。

為何需要ICC量表？應用情境解析

ICC量表之所以在各領域受到廣泛應用，是因為許多研究和實務情境都需要精確評估「一致性」或「可靠性」。以下是一些常見的應用情境：

測量者間信度（Inter-rater Reliability）： 當一個研究需要多個評分者（例如，多位醫生判讀X光片、多位心理治療師評估病患狀況、多位觀察員記錄行為）對同一組對象進行評分或測量時，ICC能評估這些評分者之間的一致程度。高ICC表示評分結果不因評分者不同而有顯著差異，從而確保研究結果的客觀性。
重測信度（Test-retest Reliability）： 評估同一個測量工具在不同時間點對相同對象進行重複測量時，結果是否具有一致性。例如，一個問卷在兩週後對同一群受試者進行施測，ICC可用來評估其穩定性。
儀器間或方法間的一致性： 評估不同測量儀器（例如，不同品牌的血壓計）或不同測量方法（例如，兩種不同的檢測方式）對同一指標的測量結果是否一致。
團體內成員的一致性： 在一些特定的研究中，ICC也可用來評估同一組內成員的同質性或相關性，例如家庭成員間的某些特徵一致性。

無論是學術論文、臨床指南制定，還是產品品質控管，ICC量表都能提供量化的證據，支持決策的可靠性與有效性。

ICC量表的類型與選擇：理解其多樣性

ICC量表並非單一的公式，它根據研究設計、評分者選擇方式以及所關注的一致性類型，發展出多種不同的計算模型。選擇正確的ICC模型對於研究的有效性至關重要。以下是ICC的主要分類維度：

1. 基於評分者模型（Model Type）

這類區分主要考量評分者的選擇方式及其變異來源：

單向隨機效應模型（One-Way Random Effects Model）：

此模型假設研究中的每個評分者都是從一個大的評分者群體中隨機抽取的，且每位受測者都由不同的隨機抽取的評分者進行評分（或評分者每次測量都不同）。它主要用於評估不同評分者對相同對象的平均評分是否存在系統性差異。此模型只關注測量誤差，不考慮評分者之間的系統性差異。

適用情境： 例如，多位考生分別由不同隨機抽取的評閱老師評分，想知道這些分數的可靠性。
雙向隨機效應模型（Two-Way Random Effects Model）：

此模型假設研究中的評分者都是從一個大的評分者群體中隨機抽取的，且每位受測者都由同一組相同的評分者進行評分。它同時考慮到受測者的變異、評分者的變異以及隨機誤差。這是最常用且最廣泛接受的模型，因為它能分離出由評分者造成的變異。

適用情境： 例如，多位病患由同一組隨機抽取的醫生進行診斷，想知道醫生間判斷的一致性。
雙向混合效應模型（Two-Way Mixed Effects Model）：

此模型假設所選取的評分者是固定的，並非隨機抽樣而來（例如，某診所的固定三位醫生，或者某實驗室的固定儀器）。它考慮受測者的變異、固定評分者的系統性偏差以及隨機誤差。它通常用於評估一組特定且固定的評分者之間的一致性。

適用情境： 例如，固定三位資深護理師，評估同一組病人對某治療的反應，想知道這三位護理師間的評估一致性。

2. 基於衡量目標（Type of Agreement）

這類區分主要根據您想評估的是「絕對值」的一致性還是「相對排序」的一致性：

絕對一致性（Absolute Agreement）：

這種衡量方式要求評分者之間的評分數值不僅趨勢一致，其絕對數值也必須非常接近。它將評分者之間的任何差異（包括系統性偏差和隨機誤差）都視為不一致的來源。

適用情境： 例如，多位檢測員測量同一物品的重量，不僅要判斷輕重順序，更要確保測得的重量數值高度一致。
一致性或協調性（Consistency）：

這種衡量方式只要求評分者之間在評分趨勢或相對排序上保持一致，允許評分者之間存在系統性的平均差異。換句話說，如果一位評分者總是比另一位評分者高出5分，但在評分對象的相對高低順序上是相同的，那麼一致性ICC會認為這是可接受的。

適用情境： 例如，兩位老師批改作文，一位老師給分普遍較嚴格，另一位較寬鬆，但兩人對學生的成績排序（誰高分誰低分）卻非常相似。

3. 評分者數量：單一評分者 vs. 平均評分者

計算ICC時，還可以選擇是評估「單一評分者」的可靠性（如 ICC(A,1) 中的 ‘1’），還是「多個評分者平均值」的可靠性（如 ICC(C,k) 中的 ‘k’）。通常情況下，多個評分者的平均值會比單一評分者更可靠，所以基於平均值的ICC值會更高。

綜合上述三點，常見的ICC模型表示法包括：

ICC(A,1) 或 ICC(1,1)： 單向隨機效應，絕對一致性，單一評分者。通常用於初測或評分者隨機更換的情境。
ICC(C,1) 或 ICC(2,1)： 雙向隨機效應，一致性（consistency），單一評分者。評估每個評分者單獨評分時的相對一致性。
ICC(A,k) 或 ICC(1,k)： 單向隨機效應，絕對一致性，k個評分者的平均值。
ICC(C,k) 或 ICC(2,k)： 雙向隨機效應，一致性（consistency），k個評分者的平均值。這是最常用於衡量量測者間信度的ICC，因為它假設有多個評分者對同一組受試者進行評分，且研究者關心的是評分者集體的可靠性。
ICC(A,C) 或 ICC(3,1)： 雙向混合效應，絕對一致性，單一評分者。
ICC(A,k) 或 ICC(3,k)： 雙向混合效應，絕對一致性，k個評分者的平均值。

正確選擇ICC模型需要研究者對研究設計、評分者特性以及所關心的信度類型有清晰的理解。

如何解讀ICC量表的值？

ICC值範圍從0到1，值越高表示一致性或可靠性越好。雖然沒有絕對的標準，但根據不同的研究領域和應用情境，存在一些被廣泛接受的解釋指南：

ICC值解釋指南：

ICC < 0.50： 可靠性差（Poor reliability）

0.50 ≤ ICC < 0.75： 可靠性中等（Moderate reliability）

0.75 ≤ ICC < 0.90： 可靠性良好（Good reliability）

ICC ≥ 0.90： 可靠性極佳（Excellent reliability）

重要提示： 這些只是一般性的指導原則。在實際應用中，對ICC值的接受程度可能因研究領域和具體應用目的而異。例如，在臨床診斷中，對可靠性的要求通常會更高。

除了ICC的點估計值，報告其95%信賴區間（95% Confidence Interval, CI） 也是非常重要的。信賴區間提供了一個範圍，表示真實ICC值可能落在的區間。如果信賴區間很窄，表示ICC估計值比較精確；如果很寬，則可能需要更多的樣本或評分者來提高精確度。

ICC量表與其他相關係數的比較

為了更好地理解ICC的獨特性，我們將其與其他常見的相關係數進行比較：

與皮爾遜積差相關係數（Pearson’s r）的比較

目的不同： 皮爾遜相關係數衡量兩個變數之間的線性關係強度和方向。它關注的是「相對趨勢」的一致性，而非「絕對數值」的一致性。ICC則專注於「絕對一致性」或「可靠性」。
對系統性偏差的處理： 皮爾遜相關係數對系統性偏差（例如，一位評分者總是比另一位評分者高5分）不敏感，即使存在系統性偏差，只要相對趨勢一致，皮爾遜r仍可能很高。而ICC（特別是絕對一致性模型）則會將系統性偏差視為不一致的來源，導致其值較低。
評分者數量： 皮爾遜相關係數通常用於兩個變數之間，因此主要用於評估兩個評分者的一致性。ICC可以評估兩個或更多評分者之間的一致性。

與Cohen’s Kappa係數的比較

數據類型： Kappa係數主要用於評估兩個評分者對類別型（Categorical） 數據（例如，是/否，診斷結果A/B/C）的一致性，並校正了偶然達成一致的可能性。ICC則用於連續型或區間型（Continuous or Interval） 數據。
評分者數量： 標準的Kappa係數僅限於兩個評分者。對於三個或更多評分者的類別型數據一致性，通常會使用Fleiss’ Kappa。

總結來說，當您的數據是連續型或區間型，並且您需要評估多個評分者或測量之間（包括系統性偏差在內的）「絕對一致性」或「可靠性」時，ICC量表是您的首選工具。

計算ICC量表的軟體工具

手動計算ICC量表非常複雜，幸運的是，許多統計軟體都內建了計算ICC的功能，使得這項工作變得簡便：

SPSS (Statistical Package for the Social Sciences)：

在SPSS中，您可以透過「Analyze」>「Scale」>「Reliability Analysis」來計算ICC。在對話框中選擇「Statistics」選項，勾選「Intraclass Correlation Coefficient」，並選擇合適的模型（Two-Way Mixed、Two-Way Random或One-Way Random）以及類型（Absolute Agreement或Consistency）。
R語言：

R語言提供了多個套件（Packages）來計算ICC，例如 psych、irr、lme4 等。這些套件提供了強大的靈活性和多種模型選項，適合更複雜的研究設計。
SAS (Statistical Analysis System)：

SAS中的 PROC MIXED 或 PROC GLM 過程可以用於計算ICC，特別適合處理複雜的巢狀或重複測量數據。
Python：

Python的科學計算庫，如 numpy 和 scipy，以及專門的統計分析庫 statsmodels 或 pingouin，也可以用於ICC的計算。
MedCalc, GraphPad Prism等專業統計軟體： 這些軟體也提供直觀的界面來計算ICC，適合醫學和生物統計領域的使用者。

在使用任何軟體計算ICC之前，務必確保您的數據格式正確，並且您已根據研究設計選擇了最合適的ICC模型。

使用ICC量表的注意事項與潛在限制

儘管ICC是一個強大的工具，但在使用時也需要注意其潛在的限制和前提假設：

數據類型： ICC主要適用於連續型或區間型的數據。對於類別型數據，應考慮使用Cohen’s Kappa或其他適合的係數。
數據分佈： ICC的估計通常基於變異數分析（ANOVA）框架，這意味著它對數據的正態性分佈和方差同質性有一定假設。雖然在某些情況下可以容忍輕微的偏離，但在嚴重偏態或存在離群值時，其結果可能不穩定。
評分者數量： ICC的穩定性和可靠性會隨評分者數量的增加而提高。如果評分者數量過少（例如只有兩個），ICC的估計可能不夠穩定。
樣本異質性： 如果您的研究對象（受測者）的得分範圍很窄，也就是缺乏變異性，那麼即使評分者非常一致，ICC值也可能顯得較低。這是因為ICC在很大程度上取決於受測者之間的變異量。因此，選取具有足夠變異性的樣本對於獲得有意義的ICC值至關重要。
情境依賴性： ICC值並非一個通用標準。同一個ICC值在不同研究情境下的解釋可能不同。例如，在早期探索性研究中，中等可靠性可能是可接受的，但在臨床診斷工具的驗證中，則需要非常高的可靠性。

在報告ICC時，除了數值本身，還應詳細說明所使用的ICC模型（例如，雙向隨機效應，絕對一致性）、95%信賴區間、以及評分者和受測者的具體情況，以便讀者能全面理解其結果。

ICC量表作為評估測量信度和一致性的核心工具，對於確保研究結果的嚴謹性與可信度具有不可替代的價值。透過深入理解其不同類型、解讀方法以及應用限制，研究者和實務工作者將能更有效地運用這一統計工具，從而提升研究品質，做出更可靠的判斷。

常見問題 (FAQ)

如何選擇適合的ICC量表類型？

選擇ICC量表類型主要取決於您的研究設計。首先，考量評分者是如何被選取的（是隨機抽取還是固定不變的？），這決定了是選擇單向隨機、雙向隨機還是雙向混合效應模型。其次，您想評估的是評分者間「絕對數值」的一致性，還是只要「相對排序」的一致性？這將決定是選擇絕對一致性或一致性（consistency）模型。最後，您是想報告單一評分者的可靠性，還是多個評分者平均值的可靠性？仔細思考這些問題能幫助您做出正確選擇。

為何ICC量表比皮爾遜相關係數更適合評估量測者間的一致性？

皮爾遜相關係數主要衡量兩個變數之間的線性關係，它對系統性偏差不敏感。換句話說，如果一個評分者總是比另一個評分者高出固定分數，皮爾遜相關係數仍然可能很高。然而，ICC（特別是絕對一致性模型）會將這種系統性偏差視為不一致的來源，其值會因此降低。因此，ICC更能夠反映測量者間的「絕對一致性」，即他們測量的數值是否真正地接近，這在評估可靠性時更為關鍵。

如何判斷ICC量表的值是否足夠好？

判斷ICC值是否「足夠好」沒有一個絕對的閾值，它高度依賴於研究的領域和具體應用情境。一般性的解釋指南通常將ICC值分為差（<0.50）、中等（0.50-0.75）、好（0.75-0.90）和極佳（≥0.90）。在臨床診斷或需要高度精確的測量中，通常會要求更高的ICC值（例如0.80以上甚至0.90以上）。而在探索性研究中，較低的ICC值也可能被接受。重要的是，要結合95%信賴區間來判斷其穩定性，並在報告中闡明對該值判斷的理由。

ICC量表是否適用於所有類型的數據？

不是。ICC量表主要用於連續型或區間型的數據。例如，身高、體重、溫度、量表得分等。如果您的數據是類別型的（例如，性別、疾病診斷結果是A或B、滿意度等級為高/中/低），那麼ICC不適用。對於類別型數據，您應該考慮使用其他的信度係數，例如Cohen’s Kappa係數（用於兩個評分者）或Fleiss’ Kappa係數（用於兩個以上評分者）。

為何在研究中報告ICC量表很重要？

在研究中報告ICC量表至關重要，因為它提供了量化證據，證明您的測量結果是可靠且一致的。這有助於提高研究的信度（Reliability）和效度（Validity），讓讀者和同行能夠相信您的數據是穩健且可重複的。無論是評估測量工具、評分者的訓練效果，還是不同儀器之間的一致性，ICC都能為您的研究結果提供堅實的統計支持，使其更具說服力和學術價值。

icc量表是什麼

【icc量表 是什麼】深入解析：統計學中的組內相關係數與其實際應用