歐式距離是什麼？理解其定義、計算與實際應用，讓你一網打盡！

「歐式距離是什麼？」這個問題，相信不少人在接觸到數據分析、機器學習或是地圖導航等領域時，都會不經意間冒出來。別擔心！今天，我們就來好好聊聊這個聽起來有點「歐陸風」的距離概念，保證讓你豁然開朗，不再感到霧煞煞。

Table of Contents

歐式距離：最直觀的「直線」衡量

簡單來說，歐式距離 (Euclidean distance)，就是我們在日常生活中最熟悉、也最直觀的那種「直線」距離。想像一下，你站在平面上的 A 點，要去 B 點，最省力、最快的路徑，就是一條筆直的線，對吧？這條直線的長度，就是 A 點到 B 點的歐式距離。

它之所以被稱為「歐式」，是因為這個概念源自古希臘數學家歐幾里得 (Euclid) 的幾何學。歐幾里得在《幾何原本》中，奠定了我們今天所熟知的平面幾何基礎，而歐式距離，正是這種幾何學思維的直接體現。

在數學上，歐式距離也被稱為 **L2 範數 (L2 norm)**。這個聽起來有點專業的術語，其實描述的也是同一件事：向量的「長度」或「大小」。

如何計算歐式距離？一步步解密

講了這麼多，實際計算歐式距離究竟該怎麼做呢？其實一點都不複雜，只要跟著以下步驟，你就能輕鬆搞定！

二維空間的計算

我們先從最簡單的二維平面開始。假設我們有兩個點，分別是 P1 = (x1, y1) 和 P2 = (x2, y2)。它們之間的歐式距離，可以用畢氏定理來計算：

$$ d(P1, P2) = \sqrt{(x2 – x1)^2 + (y2 – y1)^2} $$

是不是有點眼熟？這不就是直角三角形的斜邊平方等於兩股平方和嘛！

步驟一： 計算兩個點在 X 軸上的差值，也就是 (x2 – x1)。
步驟二： 計算兩個點在 Y 軸上的差值，也就是 (y2 – y1)。
步驟三： 將 X 軸上的差值平方，得到 (x2 – x1)^2。
步驟四： 將 Y 軸上的差值平方，得到 (y2 – y1)^2。
步驟五： 將這兩個平方值相加：(x2 – x1)^2 + (y2 – y1)^2。
步驟六： 對相加後的結果開平方根，最終得到的就是歐式距離。

三維空間的延伸

如果我們把它延伸到三維空間呢？假設有兩個點 P1 = (x1, y1, z1) 和 P2 = (x2, y2, z2)。計算方式也非常類似，只是多了一個 Z 軸的維度：

$$ d(P1, P2) = \sqrt{(x2 – x1)^2 + (y2 – y1)^2 + (z2 – z1)^2} $$

原理一樣，只是在平方和之後，多加上了 Z 軸差值的平方。是不是很有規律性？

高維空間的通用公式

更厲害的是，歐式距離的計算公式可以一路推廣到任意維度的空間。假設我們有兩個點 P1 和 P2，它們分別位於 n 維空間中，座標為：

P1 = (p1_1, p1_2, …, p1_n)

P2 = (p2_1, p2_2, …, p2_n)

那麼，它們之間的歐式距離就可以用以下公式表示：

$$ d(P1, P2) = \sqrt{\sum_{i=1}^{n} (p2_i – p1_i)^2} $$

這個公式看起來更簡潔有力，對吧？它代表的意思就是：將所有維度上座標的差值，分別進行平方，然後把這些平方值全部加起來，最後再對這個總和開平方根。這個公式，無論是二維、三維，還是更高維度的空間，都適用。

為什麼要用歐式距離？它的優點與應用場景

你可能會問，世界上有那麼多計算距離的方法，為什麼偏偏歐式距離這麼受歡迎呢？這主要歸功於它幾個非常實用的優點：

直觀易懂： 如前所述，它就是我們最熟悉的直線距離，概念上非常容易理解，不需要太複雜的數學背景也能掌握。
計算相對簡單： 相較於一些更複雜的度量方式，歐式距離的計算公式簡單明瞭，而且計算效率也相對較高。
幾何意義明確： 在許多情況下，歐式距離能很好地反映出兩點在幾何空間中的「接近程度」，這對於許多演算法來說至關重要。

正因為這些優點，歐式距離在很多領域都有著廣泛的應用，讓我們一起來看看：

1. 機器學習中的應用

這絕對是歐式距離最活躍的舞台之一！

K 近鄰 (K-Nearest Neighbors, KNN) 演算法： KNN 的核心思想就是「物以類聚，人以群分」。在判斷一個新數據點屬於哪個類別時，KNN 會計算它與訓練集中所有數據點的歐式距離，找出距離最近的 K 個鄰居，然後根據這 K 個鄰居的類別進行投票。距離越近，代表越相似，分類效果自然就越好。
分群 (Clustering) 演算法： 像是 K-Means 分群演算法，也是利用歐式距離來判斷數據點與簇中心點之間的遠近，進而將數據點分配到最接近的簇中。
降維 (Dimensionality Reduction) 技術： 在處理高維數據時，有時候我們會需要將數據投影到低維空間，以方便視覺化或減少計算量。在進行這些投影時，歐式距離有時也會被用來衡量數據點之間的相對位置關係。

舉個例子，假設我們在做一個「推薦系統」，想根據使用者過去的購買紀錄來推薦商品。我們可以用一個向量來表示每個使用者，向量的每個維度代表某個商品，值可以是購買次數或金額。那麼，我們就可以計算使用者之間的歐式距離，找出跟某個使用者「最相似」的使用者，再看看這些相似使用者喜歡但我們還沒買過的商品，推薦給他。是不是很直觀？

2. 地理資訊系統 (GIS) 與導航

這就更不用說了！我們每天使用的地圖 App，導航系統，背後都離不開距離的計算。

計算兩點之間的直線距離： 雖然地球是個球體，實際導航會考慮地球曲率，但在許多簡化模型或局部區域內，歐式距離依然是重要的基礎。
尋找最近的設施： 「尋找離我最近的加油站」、「離我最近的便利商店」等功能，都是基於計算使用者位置與各設施點之間的距離，而歐式距離是其中一種常見的計算方式。

3. 影像處理

在影像辨識和圖像處理領域，歐式距離也常常被用來衡量圖像或圖像特徵之間的相似度。例如，比較兩張圖片的像素值差異，或是比較兩張圖片提取出的特徵向量之間的距離。

4. 統計學

在某些統計模型中，例如迴歸分析，歐式距離的概念也會在殘差分析等地方有所體現，用來衡量模型的擬合程度。

歐式距離的限制與注意事項

雖然歐式距離如此萬用，但它也不是萬能的。在使用它之前，我們也需要了解它的幾個限制：

對特徵縮放敏感： 這是最最重要的一點！如果你的數據有不同的單位或尺度，那麼歐式距離的計算很容易被數值較大的特徵所主導。例如，一個特徵的取值範圍是 0-1000，另一個特徵的取值範圍是 0-1，那麼前者的差異在計算歐式距離時，會比後者大得多，即使後者在實際問題中可能更重要。

我的經驗是，在使用歐式距離之前，一定要先進行「特徵縮放 (feature scaling)」！ 最常見的兩種方法是：

標準化 (Standardization)： 將數據轉換成平均值為 0，標準差為 1 的分佈。公式為：$X_{scaled} = (X – \mu) / \sigma$，其中 $\mu$ 是平均值，$\sigma$ 是標準差。
歸一化 (Normalization)： 將數據縮放到一個固定的範圍，最常見的是 0 到 1 之間。公式為：$X_{scaled} = (X – X_{min}) / (X_{max} – X_{min})$，其中 $X_{min}$ 是最小值，$X_{max}$ 是最大值。

這樣做，才能確保所有特徵在計算距離時，都能受到公平的對待。否則，你可能會發現，你的 KNN 模型竟然把「身高」和「體重」數值較大的那個人，判斷成跟他的「體溫」數值較大的那個人更相似，這顯然不是我們想要的結果！

對異常值敏感： 由於是平方差相加，距離較遠的異常值，會對最終的歐式距離產生較大的影響。
無法處理類別型數據： 歐式距離是定義在數值型數據上的，對於文字、顏色等類別型數據，需要先將其轉換成數值表示，才能計算歐式距離，但轉換的方式可能影響結果。
「維度災難 (Curse of Dimensionality)」： 在非常高維度的空間中，所有點之間的歐式距離可能都會變得非常接近，這會降低許多依賴距離的演算法的效果。

常見相關問題與深入解答

相信您可能還有一些關於歐式距離的疑問，這裡我為您整理了一些常見問題，並提供更深入的解答。

Q1：歐式距離和曼哈頓距離 (Manhattan distance) 有什麼不同？

這是一個非常好的問題！曼哈頓距離，又稱 L1 距離，它的概念也很直觀。想像一下，你是在一個城市裡，只能沿著街道行走，不能走「斜線」。那麼，從 A 點到 B 點，你走的總路程，就是曼哈頓距離。

在二維空間中，兩個點 P1 = (x1, y1) 和 P2 = (x2, y2) 的曼哈頓距離計算方式是：

$$ d(P1, P2) = |x2 – x1| + |y2 – y1| $$

你可以看到，它不像歐式距離那樣需要平方和開根號，而是直接將各維度上的差值的絕對值相加。它的幾何意義是「城市街區」的距離。

主要區別在於：

對異常值的敏感度： 歐式距離由於平方的關係，對異常值更敏感。曼哈頓距離則相對較不敏感，因為它只取絕對值。
計算方式： 歐式距離是直線距離，曼哈頓距離是沿軸線移動的距離。
應用場景： 當特徵之間的關係更像是獨立的「步數」時，曼哈頓距離可能更合適；而當我們關心總體「量」的差異時，歐式距離可能更直觀。

例如，在影像處理中，如果我們想計算兩個圖像的像素差異，同時又希望盡量減少單個像素點異常值造成的影響，那麼曼哈頓距離可能比歐式距離更適合。

Q2：為什麼在機器學習中，特徵縮放如此重要？

如同前面提到的，這個問題的根本在於「權重」的問題。在許多機器學習演算法中，如 KNN、SVM (Support Vector Machine) 或 K-Means，距離的計算是演算法的核心。如果各個特徵的數值範圍差異很大，那麼數值範圍較大的特徵，在計算距離時，其影響力會遠遠超過數值範圍較小的特徵，即使後者在問題的本質上可能更為重要。

舉個具體的例子。假設我們正在建立一個房價預測模型，使用的特徵有「房屋面積 (單位：平方公尺，範圍 50-500)」和「房間數量 (範圍 1-5)」。

房屋	房屋面積 (m²)	房間數量
A	100	3
B	120	2

我們計算房屋 A 和 B 的歐式距離：

$$ \sqrt{(120-100)^2 + (2-3)^2} = \sqrt{20^2 + (-1)^2} = \sqrt{400 + 1} = \sqrt{401} \approx 20.02 $$

在這個計算中，由於「房屋面積」的差值是 20，平方後得到 400，而「房間數量」的差值是 1，平方後只有 1。這意味著，面積的差異對總體距離的貢獻，遠遠大於房間數量的差異。即使這兩個特徵對房價的影響力是相當的，面積的數值特性也會讓它在距離計算中佔據絕對主導地位。

如果我們對這兩個特徵進行標準化，讓它們具有相同的平均值和標準差，那麼它們在距離計算中的影響力就會更加平衡。這才能讓我們更準確地捕捉到不同特徵對目標變數的真實影響。

Q3：歐式距離可以用於哪些非數值數據？

嚴格來說，歐式距離本身是為連續數值數據定義的。但我們可以透過一些方法，將非數值數據轉換成數值，進而計算歐式距離，不過這需要謹慎處理。

類別型數據：
- 獨熱編碼 (One-Hot Encoding)： 這是最常見的方法。例如，一個「顏色」特徵有紅、綠、藍三種可能。獨熱編碼會將其轉換成三個二進位特徵：(1, 0, 0) 代表紅，(0, 1, 0) 代表綠，(0, 0, 1) 代表藍。然後就可以計算這些向量之間的歐式距離。但要注意，這種轉換可能會引入「距離」的概念，例如，(1, 0, 0) 和 (0, 1, 0) 的歐式距離是 $\sqrt{(1-0)^2 + (0-1)^2 + (0-0)^2} = \sqrt{2}$。
- 標籤編碼 (Label Encoding)： 直接為每個類別分配一個整數。例如，紅=1, 綠=2, 藍=3。然而，這種方式會假設類別之間存在順序關係和大小差異，這在很多情況下是不成立的，因此不建議直接用於需要計算距離的場景。
文字數據：
- 詞袋模型 (Bag-of-Words)： 將文檔轉換成一個向量，向量的每個維度代表一個詞彙，值可以是該詞彙在文檔中出現的次數。
- TF-IDF： 這是詞袋模型的改進，考慮了詞彙的頻率以及它在整個語料庫中的重要性。
- 詞嵌入 (Word Embeddings)： 如 Word2Vec, GloVe 等，它們將詞彙映射到低維度的連續向量空間中，使得語義相似的詞彙在向量空間中的距離也相近。然後就可以計算這些詞向量之間的歐式距離。

總之，在處理非數值數據時，將其轉換成數值表示後計算歐式距離，是一種可行的方法，但轉換的過程和結果的解讀，都需要仔細考量，以免造成誤導。

希望這篇文章能幫助你徹底理解「歐式距離是什麼」，並能在你的學習和工作中使用它。記住，理解概念是第一步，掌握計算方法和了解其應用場景及限制，才能讓你真正駕馭這個強大的工具！