數據科學分析:Python語言實現》 —3.8 一些有用的措施:距離和相似性

      網友投稿 926 2022-05-29

      3.8 一些有用的措施:距離和相似性

      一旦我們根據訓練數據構建了一組模型,重要的是將表現良好的模型與不太好的模型區分開來。那么,我們如何確定模型足夠好呢?答案是需要借助評分或目標函數來評估模型。

      各種機器學習算法都有適當的方法讓我們評估在多大程度上可以信任機器學習學到的內容以及模型的預測性如何。因此,模型的性能將取決于各種因素,例如類的分布、錯誤分類的成本、數據集的大小、用于獲取數據的采樣方法,甚至所選特征中的值范圍。值得注意的是,評估措施方法通常專門針對所使用的問題類型和算法,并且所提供的分數對問題有意義。例如,在分類問題中,分類準確性可以提供比其他措施更有意義的分數。

      通常,模型評估可以作為給定目標函數的約束優化問題。然后可以將目標表示為找到使該目標函數最小化的一組參數的問題。這是解決問題的一種非常有用的方法,因為評估措施可以作為目標函數的一部分。例如,考慮我們有興趣在給定多個數據點的情況下找到最佳擬合線的情況:當數據點排成一條直線時,可以找到完美擬合。可以想象,這種情況很少發生。

      在不考慮意外發生的情況下,通過計算點的實際位置與從模型中預測到的點的位置之間的差異,我們可以評估線與數據的擬合程度。如果我們最小化該距離,那么可以評估和比較各種已得到的預測。回歸分析中使用的這種特殊評估指標稱為殘差平方和(SSR),我們將在第4章中對其進行更詳細的討論。

      正如我們所看到的,距離的概念作為表達評價問題的一種方式自然而然地產生了,事實上許多傳統的評價程序依賴于對距離的度量。考慮圖3.1所示二維空間中的點A和B。點A的坐標為p(p1,p2),點B的坐標為q(q1,q2)。我們想要計算這兩點之間的距離。這可以用不同的方式來實現,我們熟悉其中的一些,例如歐幾里得距離和曼哈頓距離。

      圖3.1 計算點A和B之間的距離

      《數據科學與分析:Python語言實現》 —3.8 一些有用的措施:距離和相似性

      歐幾里得距離:這與用連接點A和B的直線計算的普通距離相對應;在二維空間中,它與畢達哥拉斯定理給出的距離相對應。問題中分別給定兩個點的坐標,我們可以得到點A和點B之間的距離dE:

      其中x和y的距離如圖3.1所示。將這個定義擴展到n維(即歐幾里得距離):

      其中xi是沿第i維的距離。歐幾里得距離又稱為L2范數(也稱L2范式)。

      曼哈頓距離:如果我們聯想一輛黃色出租車在曼哈頓沿著街道所行駛的距離,就很容易看出這個距離為什么用這個名字。除了百老匯,出租車不能在街道圍成的格子中沿著對角線行駛,而是只能沿南北或東西方向行駛。在圖3.1所示的情況下,曼哈頓距離dM用下面的公式計算:

      對于n維空間,可以把上面的定義擴展為:

      曼哈頓距離也稱為L1范數。

      從幾何學的角度來看,測量兩點之間距離的想法非常直觀。此外,如果距離為零,我們可以認為這兩個點實際上是相同的,或者至少彼此相似。因此,這種相似性思想是評估計算過程中的另一個有用工具,特別是在特征本身不能被放置在幾何空間中時。

      給定兩個點A和B,測量的相似性必須滿足下列一般條件:

      1)必須是正的:d(A, B)≥0。

      2)如果測量值為零,則點A和B相等,反之,若點A和B相等,則測量值為零:d(A, B) = 0?A=B。

      3)必須是對稱的:d(A, B) = d(B, A)。

      4)必須滿足三角不等式:d(A, B) + d(B, C)≥d(A, C)。

      上面討論的這兩個距離可用于衡量相似性,但是還有許多其他有用的方法可以做到這一點,例如余弦和Jaccard相似性:

      余弦相似性:舉個例子,這種相似性度量通常用于文本挖掘任務。在這些情況下,被挖掘的語料庫的文檔中的單詞對應于數據特征。這些功能可以被安排到向量中,我們的任務是確定任意兩個文件是否相似。余弦相似性基于特征向量的點積的計算。它實際上是向量構成的角度θ的度量:如果θ=0,則cos θ=1,并且兩個矢量被認為是相似的。對于θ的其他值,余弦相似度將小于1。向量v1和v2的余弦相似度由下面的公式給出:

      通常使用歐幾里得范數來測量向量vi的大小|vi|。

      Jaccard相似性:Jaccard相似性度量為我們提供了一種比較無序對象集合(即集合)的方法。我們根據所討論的集合共有的元素來定義Jaccard相似性。考慮兩個集合A和B,其基數分別為|A|和|B|。兩個集合的共同元素由交集A??B給出。為了了解交集相對于集合的大小,我們將前者除以集合的并集。可以表示如下:

      例如,在比較文檔相似性時,兩個相同的文檔具有的Jaccard相似性為1,完全不相似的文檔的Jaccard相似性為0。中間值對應于不同的相似度。

      也可以使用其他距離和相似性度量。如何選擇,將在很大程度上取決于要解決的問題類型以及用于解決問題的算法和技術。在接下來的章節中,我們將一一討論適合于計算距離以及相似性的特定算法和評估措施。

      Python python 機器學習

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      上一篇:軟件就是敲代碼?一篇文章帶你了解軟件生存周期!
      下一篇:云端實驗室-30分鐘輕松搭建網站應用體驗
      相關文章
      亚洲偷偷自拍高清| 亚洲欧美日韩一区二区三区在线| 亚洲а∨精品天堂在线| 亚洲国产91在线| 亚洲综合图片小说区热久久| 久久久久亚洲AV无码专区首JN| 亚洲国产精品第一区二区| 亚洲AV日韩AV高潮无码专区| 亚洲VA成无码人在线观看天堂| 亚洲午夜久久久久久久久久| 综合亚洲伊人午夜网 | 亚洲欧洲日韩极速播放 | 国产亚洲精久久久久久无码AV| 亚洲精品无码专区2| 亚洲国产精品成人一区| 亚洲男人的天堂在线va拉文| 亚洲国产小视频精品久久久三级 | 亚洲中文字幕无码一区二区三区 | 国产成人亚洲综合无码精品 | 亚洲国产欧美一区二区三区| 亚洲欧美成人综合久久久| 亚洲成a人无码亚洲成www牛牛| 亚洲AV无码一区二区一二区| 国产亚洲精品2021自在线| 亚洲精品高清在线| 亚洲精品无码MV在线观看| 亚洲AV美女一区二区三区| 亚洲色欲或者高潮影院| 久久精品亚洲AV久久久无码| 亚洲精品无码成人片久久不卡| 日本系列1页亚洲系列| 亚洲日本va午夜中文字幕久久| 亚洲日韩精品一区二区三区| 亚洲AV无码久久精品成人| 亚洲黄色在线电影| 国产午夜亚洲精品国产| 极品色天使在线婷婷天堂亚洲| 国产91精品一区二区麻豆亚洲| 亚洲精品无码MV在线观看| 亚洲三级电影网站| 亚洲一级毛片在线播放|