機器學習-距離(1) Euclidean Distance歐氏距離

Yili Shih
Mar 6, 2021

--

機器學習分類問題需要估算樣本之間的Similarity Measurement(相似度),可採用計算樣本間的Distance(距離)代替。

Euclidean Distance歐氏距離又稱歐幾理得度量。

應用於k-means或kNN。 易於理解,可用於任何空間的距離計算。

而Manhattan Distance(曼哈頓距離,City Block distance,城市街區距離)則適合計算水平或垂直距離,有維度的限制。

還有其他多種計算方法各有適用情境容後介紹。

(標準歐氏距離、夾角餘弦、切比雪夫距離、閔可夫斯基距離、馬氏距離、漢明距離、傑拉德距離、相關距離、信息熵)

缺點

它將不同屬性(即各指標或各變量量綱/單位scale)視為相同。沒有考慮分布。

例如: 對人的分析和判別,個體的不同屬性對於區分個體應該有不同的重要性。 因此,較適用於向量各分量的度量標準統一的情況。 所以才有標準歐氏距離的方法。

身高和體重,這兩個變數有不同的單位標準(scale)。

身高用公分計算,而體重用公斤計算,差10公分的身高與差10kg的體重是不同的。但在普通的歐氏距離中,會算作相同的差距。

Python 範例程式如下:

Euclidean Distance
Euclidean Distance歐氏距離

參考資料: https://www.itread01.com/content/1524567619.html

--

--