[機(jī)器學(xué)習(xí)實(shí)戰(zhàn)札記](méi) 樸素貝葉斯

      網(wǎng)友投稿 767 2025-03-31

      書(shū)中舉了一個(gè)例子來(lái)闡述條件概率的概念。7塊石頭,3塊是灰色的,4塊是黑色的,放入兩個(gè)桶A和B,A桶放4塊石頭(2塊灰色,2塊黑色),B桶放3塊石頭(1塊灰色,2塊灰色)。計(jì)算從B桶中取到灰色石頭的概率的方法,就是所謂的條件概率。這里的已知條件是石頭取自B桶且B桶有3塊石頭。用公式表示為:

      P(gray?|?bucketB)?=?P(gray?and?bucketB)?/?P(bucketB)1

      這個(gè)公式看起來(lái)不起眼,但卻開(kāi)啟了一門(mén)新的理論,即通過(guò)先驗(yàn)知識(shí)和邏輯推理來(lái)處理不確定命題。另一種概率解釋稱為頻數(shù)概率,它只從數(shù)據(jù)本身獲取結(jié)論,并不考慮邏輯推理及先驗(yàn)知識(shí)。

      另一種有效計(jì)算條件概率的方法稱為貝葉斯準(zhǔn)則。貝葉斯準(zhǔn)則告訴我們?nèi)绾谓粨Q條件概率中的條件和結(jié)果,即如果已知P(x | c),要求P(c | x)。其公式為:樸素貝葉斯

      樸素貝葉斯有兩個(gè)簡(jiǎn)單的假設(shè):

      [機(jī)器學(xué)習(xí)實(shí)戰(zhàn)札記](méi) 樸素貝葉斯

      特征之間相互獨(dú)立。所謂獨(dú)立指的是統(tǒng)計(jì)意義上的獨(dú)立,即一個(gè)特征出現(xiàn)的可能性與其它特征值無(wú)關(guān)。

      每個(gè)特征同等重要。

      盡管上述假設(shè)存在一些小瑕疵,但樸素貝葉斯的實(shí)際效果很好。使用公式表示如下:

      P(W0,?W1,?W2,?...,?WN?|?c)?=?P(W0|c)*P(W1|c)*...*P(WN|c)1

      利用貝葉斯分類(lèi)器對(duì)文檔進(jìn)行分類(lèi)時(shí),要計(jì)算多個(gè)概率的乘積以獲得文檔屬于某個(gè)類(lèi)別的概率,即計(jì)算P(W0|1)P(W1|1)P(W2|1)。如果其中一個(gè)概率值為0,那么最后的乘積也為0。為降低這種影響,可以將所有詞的出現(xiàn)數(shù)初始化為1,并將分母初始化為2。

      另外還要處理下溢出問(wèn)題,這是因?yàn)樘嗪苄〉臄?shù)相乘,最后結(jié)果可能會(huì)四舍五入,得到0。解決的方法是利用代數(shù)中的公式:

      ln(a*b)?=?ln(a)?+?ln(b)1

      通過(guò)求對(duì)數(shù)避免下溢出或者浮點(diǎn)數(shù)舍入導(dǎo)致的錯(cuò)誤。采用自然對(duì)數(shù)進(jìn)行處理不會(huì)有任何損失。

      隨機(jī)選擇數(shù)據(jù)的一部分作為訓(xùn)練集,而剩余部分作為測(cè)試集的過(guò)程成為留存交叉驗(yàn)證。如果想更精確的估計(jì)分類(lèi)器的錯(cuò)誤率,可以進(jìn)行多次迭代后求出平均錯(cuò)誤率。

      4.7章節(jié)的示例無(wú)法使用,原因在于代碼中使用的RSS源已經(jīng)不存在。我對(duì)這個(gè)示例做了修改,用來(lái)顯示垃圾郵件中使用最多的詞語(yǔ)。另外在這個(gè)示例中會(huì)去掉出現(xiàn)次數(shù)最高的30個(gè)詞,如果將這個(gè)應(yīng)用在垃圾郵件過(guò)濾,錯(cuò)誤率反而會(huì)提高,但如果只是去掉10個(gè)最常用詞,結(jié)果一致。

      可見(jiàn),即使采用同樣的算法,我們還是可以采用不同的修正方法,進(jìn)行微調(diào),對(duì)最后的錯(cuò)誤率有一些影響。

      機(jī)器學(xué)習(xí)

      版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實(shí)的內(nèi)容,請(qǐng)聯(lián)系我們jiasou666@gmail.com 處理,核實(shí)后本網(wǎng)站將在24小時(shí)內(nèi)刪除侵權(quán)內(nèi)容。

      版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實(shí)的內(nèi)容,請(qǐng)聯(lián)系我們jiasou666@gmail.com 處理,核實(shí)后本網(wǎng)站將在24小時(shí)內(nèi)刪除侵權(quán)內(nèi)容。

      上一篇:wps圖片轉(zhuǎn)pdf文件太大怎么辦(wps pdf圖片放大)
      下一篇:excel設(shè)置顯示公式的教程
      相關(guān)文章
      国产成人亚洲综合a∨| 18gay台湾男同亚洲男同| 亚洲无线一二三四区| 亚洲国产国产综合一区首页| 久久久久久亚洲精品不卡| 国产精品亚洲综合| 亚洲第一se情网站| 亚洲av日韩综合一区二区三区| 久久亚洲精品国产精品婷婷| 亚洲日韩中文字幕天堂不卡| 亚洲综合视频在线观看| 久久亚洲私人国产精品vA| 亚洲精品私拍国产福利在线| 亚洲伊人tv综合网色| 久久亚洲AV无码精品色午夜麻豆 | 国产亚洲人成A在线V网站| 亚洲日本一区二区一本一道| 久久精品国产亚洲一区二区三区| 亚洲国产精品一区二区第四页| 国产91成人精品亚洲精品| 在线精品自拍亚洲第一区| 国产亚洲日韩在线a不卡| 亚洲高清无码在线观看| 亚洲乱码中文字幕综合234| 亚洲人成影院在线无码观看| 中文字幕精品无码亚洲字| 亚洲日韩欧洲乱码AV夜夜摸| 亚洲av色福利天堂| 亚洲网站免费观看| 亚洲一区二区三区高清在线观看 | 国产亚洲精AA在线观看SEE| 久久久久久久尹人综合网亚洲| 亚洲日本乱码在线观看| 亚洲AV无码成人网站久久精品大 | 亚洲欧美日韩综合久久久久| 亚洲αⅴ无码乱码在线观看性色| 国产精品亚洲一区二区三区 | 亚洲1区2区3区精华液| 亚洲欧美精品午睡沙发| 日韩国产精品亚洲а∨天堂免| 亚洲精品第一国产综合精品99|