機(jī)器學(xué)習(xí)服務(wù)提取圖片的特征向量">使用SAP Leonardo上的機(jī)器學(xué)習(xí)服務(wù)提取圖片的特征向量
767
2025-03-31
書(shū)中舉了一個(gè)例子來(lái)闡述條件概率的概念。7塊石頭,3塊是灰色的,4塊是黑色的,放入兩個(gè)桶A和B,A桶放4塊石頭(2塊灰色,2塊黑色),B桶放3塊石頭(1塊灰色,2塊灰色)。計(jì)算從B桶中取到灰色石頭的概率的方法,就是所謂的條件概率。這里的已知條件是石頭取自B桶且B桶有3塊石頭。用公式表示為:
P(gray?|?bucketB)?=?P(gray?and?bucketB)?/?P(bucketB)1
這個(gè)公式看起來(lái)不起眼,但卻開(kāi)啟了一門(mén)新的理論,即通過(guò)先驗(yàn)知識(shí)和邏輯推理來(lái)處理不確定命題。另一種概率解釋稱為頻數(shù)概率,它只從數(shù)據(jù)本身獲取結(jié)論,并不考慮邏輯推理及先驗(yàn)知識(shí)。
另一種有效計(jì)算條件概率的方法稱為貝葉斯準(zhǔn)則。貝葉斯準(zhǔn)則告訴我們?nèi)绾谓粨Q條件概率中的條件和結(jié)果,即如果已知P(x | c),要求P(c | x)。其公式為:樸素貝葉斯
樸素貝葉斯有兩個(gè)簡(jiǎn)單的假設(shè):
特征之間相互獨(dú)立。所謂獨(dú)立指的是統(tǒng)計(jì)意義上的獨(dú)立,即一個(gè)特征出現(xiàn)的可能性與其它特征值無(wú)關(guān)。
每個(gè)特征同等重要。
盡管上述假設(shè)存在一些小瑕疵,但樸素貝葉斯的實(shí)際效果很好。使用公式表示如下:
P(W0,?W1,?W2,?...,?WN?|?c)?=?P(W0|c)*P(W1|c)*...*P(WN|c)1
利用貝葉斯分類(lèi)器對(duì)文檔進(jìn)行分類(lèi)時(shí),要計(jì)算多個(gè)概率的乘積以獲得文檔屬于某個(gè)類(lèi)別的概率,即計(jì)算P(W0|1)P(W1|1)P(W2|1)。如果其中一個(gè)概率值為0,那么最后的乘積也為0。為降低這種影響,可以將所有詞的出現(xiàn)數(shù)初始化為1,并將分母初始化為2。
另外還要處理下溢出問(wèn)題,這是因?yàn)樘嗪苄〉臄?shù)相乘,最后結(jié)果可能會(huì)四舍五入,得到0。解決的方法是利用代數(shù)中的公式:
ln(a*b)?=?ln(a)?+?ln(b)1
通過(guò)求對(duì)數(shù)避免下溢出或者浮點(diǎn)數(shù)舍入導(dǎo)致的錯(cuò)誤。采用自然對(duì)數(shù)進(jìn)行處理不會(huì)有任何損失。
隨機(jī)選擇數(shù)據(jù)的一部分作為訓(xùn)練集,而剩余部分作為測(cè)試集的過(guò)程成為留存交叉驗(yàn)證。如果想更精確的估計(jì)分類(lèi)器的錯(cuò)誤率,可以進(jìn)行多次迭代后求出平均錯(cuò)誤率。
4.7章節(jié)的示例無(wú)法使用,原因在于代碼中使用的RSS源已經(jīng)不存在。我對(duì)這個(gè)示例做了修改,用來(lái)顯示垃圾郵件中使用最多的詞語(yǔ)。另外在這個(gè)示例中會(huì)去掉出現(xiàn)次數(shù)最高的30個(gè)詞,如果將這個(gè)應(yīng)用在垃圾郵件過(guò)濾,錯(cuò)誤率反而會(huì)提高,但如果只是去掉10個(gè)最常用詞,結(jié)果一致。
可見(jiàn),即使采用同樣的算法,我們還是可以采用不同的修正方法,進(jìn)行微調(diào),對(duì)最后的錯(cuò)誤率有一些影響。
機(jī)器學(xué)習(xí)
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實(shí)的內(nèi)容,請(qǐng)聯(lián)系我們jiasou666@gmail.com 處理,核實(shí)后本網(wǎng)站將在24小時(shí)內(nèi)刪除侵權(quán)內(nèi)容。
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實(shí)的內(nèi)容,請(qǐng)聯(lián)系我們jiasou666@gmail.com 處理,核實(shí)后本網(wǎng)站將在24小時(shí)內(nèi)刪除侵權(quán)內(nèi)容。