TensorFlow自然語言處理》">《TensorFlow自然語言處理》
794
2025-04-03
3.2.3 TF-IDF方法
TF-IDF是一種基于頻率的方法,它考慮了單詞在語料庫中出現的頻率。這是一種表示給定文檔中特定單詞的重要性的單詞表示。直觀地說,單詞的頻率越高,該單詞在文檔中就越重要。例如,在關于貓的文檔中,單詞cats會出現更多次。然而,僅僅計算頻率是行不通的,因為像this和is這樣的詞是非常頻繁的,但是它們并沒有攜帶很多信息。TF-IDF將此考慮在內,并把這些常用單詞的值置為零。
同樣,TF代表詞頻率,IDF代表逆文檔頻率:
下面做個快速練習,考慮兩個文件:
文件1:This is about cats. Cats are great companions.
文件2:This is about dogs. Dogs are very loyal.
現在讓我們來處理一些數字:
因此,cat這個詞具有豐富的信息,而this這個詞不是,這是我們在衡量單詞重要性方面所期望的行為。
TensorFlow 自然語言處理基礎
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。