搜索引擎原理識別雞湯文的“詭辯”

      網友投稿 688 2022-05-29

      余晟以為

      我是這么以為的,當然你也可以那么以為

      本文轉載自公眾號?余晟以為

      因為早年做過相關的開發,我大致了解搜索引擎的基本原理。不過這些年來我發現,這種原理完全可以用在其它地方,比如識別信息質量,比如識破詭辯術。

      搜索引擎要解決的核心問題是,如何在浩如煙海的文檔中,找出來用戶最關心的那部分。換句話說,當用戶希望了解某個話題或事物時,如何識別出對他/她最有價值,最讓他/她感興趣的那些資料(這里不討論競價排名)。為此,無數的科學家、工程師、程序員都做了大量的工作,才有了現在大家覺得“理所當然”的搜索引擎。

      最近幾年,網絡上的信息越來越多,不同意見也越來越多樣化。那么如何找到真正靠譜的、有價值的信息,如何識破各種詭辯?這已經成了人人都要面對的一個問題。其實,這個問題也是可以從搜索引擎中得到啟發的。

      不要以為這“原理”相當深奧,普通人只需要知道“最基本最簡單”的TF-IDF,就能理清很多東西了。

      TF,即Term Frequency,指一個“語詞”(term,也可以簡單理解為“單詞”,WTO、感冒、華為 都是“語詞”)在文檔(document,也可以理解為“文章”,對應到搜索結果中的一條)中出現的頻率。

      通常,在判斷文檔相關性時,TF與結果正相關(未必是“成正比”)。這個道理也不難理解,如果有兩篇篇幅類似的文章,一篇“華為”出現了10次,一篇“華為”只出現了2次,那么我們可以推斷,前者與“華為”的關系更密切,用戶在搜索“華為”時,前者應當出現在更靠前的位置。

      IDF,即Inverse Doc Frequency,有中文翻譯為“逆向文件頻率”,理解起來稍微麻煩一點:文檔總數與包含該語詞的文檔數目的比值。有許多人相當認為這是個“含量”,所以比值應當小于1,這是把分子和分母搞反了,也是“逆向”的意思所在。

      通常,在判斷文檔相關性時,IDF也與結果正相關(未必是“成正比”),而且彌補了TF的片面性。如果單純以TF來考察相關性,比如“的”這個字是各種文章中出現頻率都極高的,其TF相當高,但不能用來說明信息質量。因為其IDF很低,接近于1(注意IDF是“倒過來算的”,所以如果只有1/10的文檔中出現了了這個語詞,其IDF是10)。

      再比如,如果某個資料庫都是關于中國的,其中包含了政治、軍事、經濟、文化各種主題的許多資料。那么可以肯定,基本每篇資料都包含“中國”這個語詞,而包含“國防”的資料只占其中的一部分。顯然,“國防”比“中國”更容易區分出相關的資料,在搜索時也更容易找到對應的結果。對應的,“國防”的IDF值顯然遠高于“中國”。

      好了,技術內容就談到這里。簡單說,以特定語詞搜索時,文檔中特定語詞出現“密度”越高,文檔和語詞的關聯度就越高;該語詞的“普適性”越低,篩選出高質量文檔的幾率就越高。

      下面可以引申開來:如果我們要做的不是搜索,而是討論某個主題,獲得相關的信息,并判斷信息的靠譜程度,是否可以從TF-IDF中得到一些啟發?

      答案應當是肯定的。

      如果某篇文章“看起來”是關于某個主題的,那么這篇文章毫無疑問應當緊扣這個主題。倘若內文其實并沒有太多緊扣主題的論述和分析,那么借鑒TF的思想,這篇文章的參考價值相當有限。

      這真是“暖風熏得游人醉,直把杭州作汴州”,但是怎么避免呢?其實很好辦,就是清醒認識,抵御各種“暖風”——在閱讀時不要被各種段子、故事、表情包、配圖給熏醉了,時刻記住主題。

      還有一些主張、論斷,它們聽起來鏗鏘有力,但借鑒IDF的思想就會知道,如果這些主張、論斷對于任何主題都可以適用,那么從IDF的角度來看,其信息價值是相當有限的。

      姜昆和李文華曾經說過一段深受大家喜愛的相聲《如此照相》,諷刺的是特殊年代里生活中做任何事情都要先背誦一句語錄的現象。凡事都要“背語錄”,那么它就好像上文提到的每篇文章中的“的”字,或者關于中國的資料庫里的“中國”一樣,區分度很低,無法證明其有效性。事實證明,廣大人民群眾不背語錄,照樣不影響正常生活。

      從搜索引擎原理,識別雞湯文的“詭辯”

      當然,這種“IDF極低”的現象還有很多,比如網絡上的“杠精”常用的詰問也是如此。使用這些“萬精油”式詰問,對知識儲備、邏輯思維等等沒有任何要求,隨時可以祭出:你怎么知道你知道的就是真的?你以為就你看得多,多看了點東西就了不起?沒有什么是絕對的好事,沒有誰是圣人,一切都要辯證地看……

      如果我們從信息價值的角度來分析,就會發現這些詰問其實也沒什么信息質量也提供不了什么信息價值。

      沒有人能確認自己知道的絕對“就是真的”,重要的是在比較甄別中接近客觀真相。如果既不能找出對方論述中的重要錯誤,也不能提供信息含量更高的信息,那么“你怎么知道你知道的就是真的?”本身是沒有意義的。

      在討論問題時,“看得多”和“了不起”是沒有關聯的。如果對問題背景有充分的了解,對問題領域有持續的關注,那多半是比其他人“看得多”。如果認可判斷的依據是信息和知識,自然的結論就是,多看點之后下的判斷往往更靠譜。所以與其反問“多看了點東西就了不起”,不如自己多讀多看,多提供一點有價值的信息出來。

      事和人確實都沒有絕對的好壞,但這不意味著我們無法對事和人作出確切的判斷。如果大家的判斷不一致,應當擺出事實來,進行細致(最好是可以量化)的分析。一個人做了件好事造福了一百萬人,不能簡單拿“它也損害了三五個人”來否定,一個做了一萬件好事的人,也不能簡單用“他也做過兩三件壞事”來否定。

      同樣道理,一個人或一個國家做事可能出于利益考慮,也可能出于道德考慮。真正有意義的討論必然是具體而具體的,做這件事是出于道德考慮還是利益考慮?或者二者兼而有之,但其中哪種因素更重要?如果當時確實是出于道德考慮,或者更多出于道德考慮,那么通過簡單的“沒有誰是圣人”或者“沒有國家講道德”得出粗陋的結論,只會擾亂認知,把討論變成口舌之爭。

      最后需要注明的是,上面的論述都是從基于“信息質量”,而不是基于“熱鬧”或者“話題性”而展開的。世界很大,大家看中的因素各不相同。有些人在乎的就是熱鬧,而不在乎信息質量,這本身無可厚非,說清楚即可。

      而且在這個時代,如果你注重提升自己的信息質量,或多或少會有一些副作用,要放棄一些熱鬧的話題,甚至傷了某些人的面子。不過冷靜下來想想,堅持做下來的話,收獲還是比付出要多,總的來說還是劃算的,對吧?

      本文轉載自公眾號【程序員小灰】

      搜索引擎

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      上一篇:Flink Solt優化需求與方案
      下一篇:Python官方文檔學習心得(第一章)
      相關文章
      亚洲综合激情视频| 国产亚洲福利一区二区免费看| jjzz亚洲亚洲女人| 亚洲综合色婷婷在线观看| 亚洲人成在线中文字幕| 亚洲免费电影网站| 亚洲AV综合色区无码二区爱AV| 久久精品国产亚洲αv忘忧草| 亚洲剧情在线观看| 亚洲区精品久久一区二区三区| 亚洲妓女综合网99| 亚洲中文字幕一二三四区苍井空 | 亚洲精品电影天堂网| 亚洲国产第一页www| 亚洲一区二区在线免费观看| 午夜亚洲AV日韩AV无码大全| 亚洲成在人天堂一区二区| 亚洲久本草在线中文字幕| 亚洲视频在线观看不卡| 亚洲国产精品成人综合色在线婷婷| 亚洲国产视频一区| 国产 亚洲 中文在线 字幕| 亚洲精品无AMM毛片| 国产精品自拍亚洲| 久久久久亚洲精品男人的天堂 | 亚洲AV成人噜噜无码网站| 2019亚洲午夜无码天堂| 亚洲天然素人无码专区| 久久久久亚洲精品无码网址色欲 | 亚洲精品国产高清嫩草影院| 亚洲一本大道无码av天堂| 亚洲一区二区三区影院| 亚洲av无码不卡一区二区三区| 亚洲视频在线一区| 亚洲av无码不卡久久| 亚洲色大成网站www永久男同| 国产精品亚洲av色欲三区| 国产成人精品久久亚洲高清不卡 国产成人精品久久亚洲 | 久久精品九九亚洲精品| 亚洲一区二区三区四区视频| 亚洲一本到无码av中文字幕|