如何用Excel算相關係數:完整教學與實用技巧
Table of Contents
Excel 算相關係數,原來這麼簡單!
嘿,各位在數據世界裡奮鬥的朋友們!是不是常常在整理報表、分析數據時,遇到這樣一個問題:「這兩個變數之間,到底有沒有關係?它們的關係有多緊密?」身為一個長期在 Excel 這片領域耕耘的「老手」,我必須說,這絕對是大家最常遇到的疑惑之一。尤其是當你手上有一堆數據,卻不知道該如何量化它們之間的關聯性時,那種無力感,簡直讓人抓狂!
別擔心,今天這篇文章,就是要來徹底解決你的困擾!我們將帶你一步一步學會,如何用 Excel 算相關係數。這不僅僅是一個枯燥的計算過程,更是一種洞察數據之間隱藏連結的強大工具。學會了它,你會發現,分析數據不再是件難事,反而充滿了樂趣與發現!
快速精確解答:
要用 Excel 計算相關係數,最快、最直接的方法是利用其內建的 `CORREL` 函數。只需要選取你想分析的兩組數據範圍,然後輸入 `=CORREL(array1, array2)` 就能輕鬆得到皮爾森相關係數。如果你需要更深入的分析,可以透過「資料分析工具庫」中的「相關性」功能,一次計算多個變數之間的相關係數矩陣,並提供顯著性檢定。
什麼是相關係數?讓我們深入理解
在我們動手計算之前,先來釐清一下,到底什麼是「相關係數」?簡單來說,它就是一個數值,用來衡量兩個變數之間線性關係的強度和方向。這個數值介於 -1 到 +1 之間。讓我們來細細拆解:
- +1: 表示完全正相關。也就是說,當一個變數增加時,另一個變數也以相同的比例增加;反之,當一個變數減少,另一個也跟著減少。像是「讀書時間」和「考試分數」,通常情況下,讀書時間越長,分數也會越高,這就是一種正相關的例子。
- -1: 表示完全負相關。這代表當一個變數增加時,另一個變數反而以相同的比例減少;反之,當一個變數減少,另一個反而增加。想像一下「運動時間」和「體重」,通常情況下,運動時間越多,體重可能會下降,這就是一個負相關的例子。
- 0: 表示兩個變數之間沒有線性相關。這不代表它們完全沒有關係,只是這種「線性」的連結性不存在。可能是曲線關係,或者根本就毫無關聯。
- 介於 -1 和 +1 之間的數值: 則代表不同程度的相關性。數值越接近 +1 或 -1,表示相關性越強;越接近 0,表示相關性越弱。
我們最常使用的是「皮爾森積差相關係數」(Pearson correlation coefficient),它特別適合用來衡量兩個連續性變數之間的線性關係。所以,當我們說「用 Excel 算相關係數」,通常指的就是計算皮爾森相關係數。
如何用 Excel 算相關係數:基本方法 (CORREL 函數)
好啦,理論講完了,現在就來進入最實際的部分!如何用 Excel 算相關係數呢?最簡單、最快速的方法,就是善用 Excel 的內建函數 `CORREL`。這個函數非常直觀,只要你選對了範圍,幾秒鐘就能得到結果。
步驟一:準備你的數據
首先,確保你的數據已經整齊地排列在 Excel 工作表中。通常,你會需要兩欄數據,每一欄代表一個變數。請注意,這兩欄數據的列數必須相同,也就是說,它們的觀測值數量必須一樣。
例如,我們想看看「廣告支出」和「銷售額」之間的關係。我們可以在 A 欄放廣告支出,B 欄放對應的銷售額。
| 廣告支出 (千元) | 銷售額 (萬元) |
|—————–|—————–|
| 10 | 150 |
| 12 | 165 |
| 15 | 180 |
| 18 | 195 |
| 20 | 210 |
步驟二:輸入 CORREL 函數
找一個你想要顯示相關係數結果的儲存格。然後,輸入以下公式:
=CORREL(array1, array2)
這裡的 `array1` 和 `array2` 就是你剛剛準備好的兩欄數據範圍。假設你的廣告支出在 A2:A6,銷售額在 B2:B6,那麼公式就會變成:
=CORREL(A2:A6, B2:B6)
步驟三:按下 Enter 鍵
輸入完公式後,按下 Enter 鍵,Excel 就會立刻計算出這兩組數據之間的相關係數。你會得到一個數值,例如 0.998。這個數值非常接近 +1,表示廣告支出和銷售額之間有著非常強的正相關!是不是很方便呢?
進階技巧:使用資料分析工具庫一次計算多變數相關性
如果你的數據比較複雜,不只兩個變數,而是好幾個變數需要互相計算相關係數,那麼一個一個用 `CORREL` 函數會有點費時。這時候,Excel 的「資料分析工具庫」(Data Analysis ToolPak)就派上用場了!
請注意: 「資料分析工具庫」預設是沒有啟用的,你可能需要先手動啟用它。
啟用資料分析工具庫
- 點選 Excel 左上角的「檔案」(File)。
- 選擇「選項」(Options)。
- 在「Excel 選項」視窗中,點選左側的「增益集」(Add-ins)。
- 在下方的「管理」下拉選單中,選擇「Excel 增益集」,然後點選「執行」(Go…)。
- 在「增益集」視窗中,勾選「分析工具箱」(Analysis ToolPak),然後點選「確定」。
完成以上步驟後,你應該能在 Excel 功能區的「資料」(Data)標籤頁右側,看到「資料分析」(Data Analysis)這個選項。
步驟一:整理你的多變數數據
將所有你想分析的變數數據,整齊地排列在連續的欄位中。確保每一欄都代表一個變數,且列數相同。
例如,我們有「廣告支出」、「電視廣告」、「網路廣告」、「促銷活動」和「銷售額」這五個變數,並且都放在 A1:E10 的範圍內。
步驟二:執行「相關性」分析
- 點選「資料」標籤頁,然後點選「資料分析」。
- 在「資料分析」視窗中,選擇「相關性」(Correlation),然後點選「確定」。
- 在「相關性」對話框中:
- 輸入範圍 (Input Range): 選擇你所有變數的數據範圍,例如 `$A$1:$E$10`。
- 群組方式 (Grouped By): 預設是「欄」(Columns),這通常是我們需要的。如果你是將變數排成列,再改為「列」(Rows)。
- 第一列是否為標籤 (Labels in first row): 如果你的數據範圍包含標題列(例如「廣告支出」、「銷售額」等),請務必勾選此選項。
- 輸出選項 (Output Options): 你可以選擇將結果輸出到「新工作表」(New Worksheet)或「現有工作表」(Existing Worksheet)中的某個儲存格。我個人比較喜歡輸出到新工作表,這樣比較乾淨。
- 點選「確定」。
步驟三:解讀相關係數矩陣
Excel 會產生一個「相關性」表格,這是一個相關係數矩陣。矩陣中的每一個儲存格,都顯示了對應兩個變數之間的相關係數。
例如,這個表格可能會顯示:
| 廣告支出 | 電視廣告 | 網路廣告 | 促銷活動 | 銷售額 | |
|---|---|---|---|---|---|
| 廣告支出 | 1.00 | 0.85 | 0.70 | 0.60 | 0.98 |
| 電視廣告 | 0.85 | 1.00 | 0.50 | 0.45 | 0.80 |
| 網路廣告 | 0.70 | 0.50 | 1.00 | 0.30 | 0.75 |
| 促銷活動 | 0.60 | 0.45 | 0.30 | 1.00 | 0.55 |
| 銷售額 | 0.98 | 0.80 | 0.75 | 0.55 | 1.00 |
從這個表格中,你可以一目了然地看出:
- 對角線上的值永遠是 1.00,因為任何變數都與自身完全相關。
- 矩陣是對稱的,例如「廣告支出」和「銷售額」的相關係數 (0.98),會與「銷售額」和「廣告支出」的相關係數相同。
- 你可以快速找到哪些變數之間的相關性最強(接近 1 或 -1),哪些較弱(接近 0)。在這個例子中,「廣告支出」和「銷售額」的相關性最強 (0.98)。
解讀相關係數的注意事項
雖然相關係數是個強大的工具,但我們在解讀時,絕對不能掉以輕心!以下幾點是絕對需要注意的:
1. 相關不等於因果 (Correlation does not imply causation)
這絕對是「相關係數」最最最重要的一句話!就算兩個變數高度相關,也不能直接斷定其中一個是另一個的原因。為什麼呢?
- 潛在的第三變數: 可能有一個你沒有觀察到的「隱藏變數」,同時影響了這兩個變數,讓它們看起來好像有關聯。例如,夏天冰淇淋銷量和溺水人數都增加,但它們的共同原因是「天氣炎熱」,而不是吃冰淇淋導致溺水。
- 巧合: 有時候,高度相關可能只是單純的巧合,尤其是在數據量較小時。
- 反向因果: 也可能是因果關係是反向的。
我在分析客戶流失率和客服電話量時,發現兩者高度正相關。但我們不能直接說「客服電話量高導致客戶流失」,更可能是「客戶滿意度低」導致了「客服電話量高」和「客戶流失」這兩個現象同時發生。所以,務必保持理性,結合實際情況來判斷。
2. 僅衡量線性關係
皮爾森相關係數只能衡量「線性」關係。如果兩個變數之間存在的是一個強烈的「曲線」關係,那麼相關係數可能很低,甚至接近於零,但這並不代表它們毫無關係。這時候,我們可能需要繪製散佈圖來觀察數據的分布情況,以發現潛在的曲線關係。
3. 離群值的影響
離群值(Outliers),也就是那些遠離大多數數據點的異常值,對相關係數的影響非常大。一個明顯的離群值,有可能會大幅度地拉高或拉低相關係數,甚至改變其正負方向。因此,在計算相關係數之前,最好先繪製散佈圖,檢查是否有明顯的離群值,並思考如何處理它們(例如,移除或使用其他統計方法)。
4. 數據的性質
皮爾森相關係數最適用於連續性數據。如果你的數據是類別型的(例如,產品顏色、性別),那麼直接計算皮爾森相關係數就不太合適了,需要使用其他的統計方法,例如卡方檢定(Chi-squared test)。
常見問題與詳細解答
在學習和應用 Excel 計算相關係數的過程中,大家一定會遇到不少疑問。以下我整理了一些常見的問題,並希望能透過詳細的解答,幫助大家更深入地理解。
Q1:我的 Excel 版本沒有「資料分析工具庫」,怎麼辦?
這是一個很常見的狀況,尤其是在較舊的版本或是某些預設設定的 Excel 中。別擔心,正如前面提到的,你只需要按照我提供的步驟,手動啟用它即可。通常,在「檔案」>「選項」>「增益集」中,找到「Excel 增益集」,點選「執行」,然後勾選「分析工具箱」。如果仍然找不到,有可能是你的 Office 安裝檔缺少這個元件,可能需要重新安裝或修改 Office 安裝。
Q2:計算出來的相關係數是 0.5,這代表什麼意思?
當你得到一個相關係數為 0.5 時,這代表兩個變數之間存在一個「中等程度的正相關」。也就是說,它們確實有一起變動的趨勢,當一個增加,另一個通常也會增加,但這種關聯性不是非常緊密,也不是絕對的。例如,你的「學習時間」和「期中考分數」計算出來是 0.5,這表示學習時間長一點,分數有比較高的傾向,但也有可能有些人學習時間很長,分數卻不盡理想;反之亦然。在實際應用中,0.5 通常可以被認為是一個值得關注的相關性,但你需要進一步結合其他資訊來判斷它的意義。
Q3:相關係數是負的,是不是代表沒有關係?
絕對不是!相關係數為負值,恰恰代表了「負相關」。例如,如果計算出「運動時間」和「體重」的相關係數是 -0.7,這表示兩者之間存在一個「強烈的負相關」。也就是說,當運動時間增加時,體重有顯著下降的趨勢。負相關和正相關一樣,都代表了「關係」,只是關係的方向相反。數值越接近 -1,負相關性越強。
Q4:我看到有些地方提到 P 值,這跟相關係數有什麼關係?
這是一個非常專業的問題,也是進一步探討相關性「顯著性」的關鍵!簡單來說,相關係數告訴你相關的「強度」和「方向」,而 P 值(p-value)則告訴你這個相關性是「偶然」還是「統計上顯著」。
當我們從一個樣本數據計算出相關係數時,總會有一定的機率是隨機波動造成的。P 值就是用來衡量,在「兩個變數實際上沒有關聯」這個假設下,我們觀察到目前這麼強(或更強)的相關係數的機率。通常,我們會設定一個顯著水準(alpha,α),常見的是 0.05。
- 如果 P 值小於 α (例如 P < 0.05),我們就認為這個相關性是「統計上顯著的」,表示這個相關性不太可能是由偶然造成的,我們有足夠的證據拒絕「兩個變數實際上沒有關聯」這個假設。
- 如果 P 值大於或等於 α (例如 P >= 0.05),我們就認為這個相關性「不夠顯著」,表示我們沒有足夠的證據說這兩個變數之間存在真實的關聯,它很有可能只是隨機的結果。
「資料分析工具庫」中的「相關性」功能,除了計算相關係數,也會提供 P 值,這對於科學研究和嚴謹的數據分析非常重要。在日常的 Excel 工作表中,`CORREL` 函數本身只會給你相關係數,但如果你需要 P 值,就必須透過「資料分析工具庫」。
Q5:繪製散佈圖對於理解相關係數有什麼幫助?
我強烈建議大家,在計算出相關係數後,務必繪製一張散佈圖(Scatter Plot)!散佈圖能以視覺化的方式呈現你的數據點,讓你更直觀地看到:
- 關係的類型: 是線性的,還是曲線的?
- 關係的強度: 數據點是緊密地聚集在某個趨勢線上,還是非常分散?
- 潛在的離群值: 是否有明顯偏離數據群的異常點?
- 數據的分布: 數據是均勻分布,還是有聚集的現象?
繪製散佈圖的步驟也很簡單:
- 選取你的兩欄數據。
- 點選「插入」(Insert)標籤頁。
- 在「圖表」(Charts)群組中,找到「散佈圖」(Scatter),然後選擇最基本的散佈圖類型。
透過散佈圖,你可以把計算出來的相關係數,與數據的實際樣貌做對照,這樣就能得到更全面、更準確的理解,避免僅憑數字而產生誤判。
結語:讓 Excel 成為你數據分析的好幫手
看到這裡,相信你對「如何用 Excel 算相關係數」已經有了非常紮實的掌握。從簡單的 `CORREL` 函數,到強大的「資料分析工具庫」,Excel 提供了非常方便且有效的工具,讓我們能夠快速量化兩個變數之間的關係。不過,請永遠記得,數字只是工具,真正的洞察力來自於我們對數據的理解,以及對結果的審慎解讀。相關不等於因果,離群值會影響結果,線性關係只是其中一種考量。多多利用散佈圖,結合實際情境,你就能從數據中挖掘出更多有價值的資訊。
希望今天的分享,對你有所幫助!下次在處理數據時,不妨就動手試試看,讓 Excel 成為你數據分析的得力助手吧!

