亚洲另类自拍丝袜第五页,久久夜色精品国产亚洲AV动态图,亚洲Av无码专区国产乱码DVD

網友投稿 688 2022-05-29

余晟以為

我是這么以為的，當然你也可以那么以為

本文轉載自公眾號?余晟以為

因為早年做過相關的開發，我大致了解搜索引擎的基本原理。不過這些年來我發現，這種原理完全可以用在其它地方，比如識別信息質量，比如識破詭辯術。

搜索引擎要解決的核心問題是，如何在浩如煙海的文檔中，找出來用戶最關心的那部分。換句話說，當用戶希望了解某個話題或事物時，如何識別出對他/她最有價值，最讓他/她感興趣的那些資料（這里不討論競價排名）。為此，無數的科學家、工程師、程序員都做了大量的工作，才有了現在大家覺得“理所當然”的搜索引擎。

最近幾年，網絡上的信息越來越多，不同意見也越來越多樣化。那么如何找到真正靠譜的、有價值的信息，如何識破各種詭辯？這已經成了人人都要面對的一個問題。其實，這個問題也是可以從搜索引擎中得到啟發的。

不要以為這“原理”相當深奧，普通人只需要知道“最基本最簡單”的TF-IDF，就能理清很多東西了。

TF，即Term Frequency，指一個“語詞”（term，也可以簡單理解為“單詞”，WTO、感冒、華為都是“語詞”）在文檔（document，也可以理解為“文章”，對應到搜索結果中的一條）中出現的頻率。

通常，在判斷文檔相關性時，TF與結果正相關（未必是“成正比”）。這個道理也不難理解，如果有兩篇篇幅類似的文章，一篇“華為”出現了10次，一篇“華為”只出現了2次，那么我們可以推斷，前者與“華為”的關系更密切，用戶在搜索“華為”時，前者應當出現在更靠前的位置。

IDF，即Inverse Doc Frequency，有中文翻譯為“逆向文件頻率”，理解起來稍微麻煩一點：文檔總數與包含該語詞的文檔數目的比值。有許多人相當認為這是個“含量”，所以比值應當小于1，這是把分子和分母搞反了，也是“逆向”的意思所在。

通常，在判斷文檔相關性時，IDF也與結果正相關（未必是“成正比”），而且彌補了TF的片面性。如果單純以TF來考察相關性，比如“的”這個字是各種文章中出現頻率都極高的，其TF相當高，但不能用來說明信息質量。因為其IDF很低，接近于1（注意IDF是“倒過來算的”，所以如果只有1/10的文檔中出現了了這個語詞，其IDF是10）。

再比如，如果某個資料庫都是關于中國的，其中包含了政治、軍事、經濟、文化各種主題的許多資料。那么可以肯定，基本每篇資料都包含“中國”這個語詞，而包含“國防”的資料只占其中的一部分。顯然，“國防”比“中國”更容易區分出相關的資料，在搜索時也更容易找到對應的結果。對應的，“國防”的IDF值顯然遠高于“中國”。

好了，技術內容就談到這里。簡單說，以特定語詞搜索時，文檔中特定語詞出現“密度”越高，文檔和語詞的關聯度就越高；該語詞的“普適性”越低，篩選出高質量文檔的幾率就越高。

下面可以引申開來：如果我們要做的不是搜索，而是討論某個主題，獲得相關的信息，并判斷信息的靠譜程度，是否可以從TF-IDF中得到一些啟發？

答案應當是肯定的。

如果某篇文章“看起來”是關于某個主題的，那么這篇文章毫無疑問應當緊扣這個主題。倘若內文其實并沒有太多緊扣主題的論述和分析，那么借鑒TF的思想，這篇文章的參考價值相當有限。

這真是“暖風熏得游人醉，直把杭州作汴州”，但是怎么避免呢？其實很好辦，就是清醒認識，抵御各種“暖風”——在閱讀時不要被各種段子、故事、表情包、配圖給熏醉了，時刻記住主題。

還有一些主張、論斷，它們聽起來鏗鏘有力，但借鑒IDF的思想就會知道，如果這些主張、論斷對于任何主題都可以適用，那么從IDF的角度來看，其信息價值是相當有限的。

姜昆和李文華曾經說過一段深受大家喜愛的相聲《如此照相》，諷刺的是特殊年代里生活中做任何事情都要先背誦一句語錄的現象。凡事都要“背語錄”，那么它就好像上文提到的每篇文章中的“的”字，或者關于中國的資料庫里的“中國”一樣，區分度很低，無法證明其有效性。事實證明，廣大人民群眾不背語錄，照樣不影響正常生活。

從搜索引擎原理，識別雞湯文的“詭辯”

當然，這種“IDF極低”的現象還有很多，比如網絡上的“杠精”常用的詰問也是如此。使用這些“萬精油”式詰問，對知識儲備、邏輯思維等等沒有任何要求，隨時可以祭出：你怎么知道你知道的就是真的？你以為就你看得多，多看了點東西就了不起？沒有什么是絕對的好事，沒有誰是圣人，一切都要辯證地看……

如果我們從信息價值的角度來分析，就會發現這些詰問其實也沒什么信息質量也提供不了什么信息價值。

沒有人能確認自己知道的絕對“就是真的”，重要的是在比較甄別中接近客觀真相。如果既不能找出對方論述中的重要錯誤，也不能提供信息含量更高的信息，那么“你怎么知道你知道的就是真的？”本身是沒有意義的。

在討論問題時，“看得多”和“了不起”是沒有關聯的。如果對問題背景有充分的了解，對問題領域有持續的關注，那多半是比其他人“看得多”。如果認可判斷的依據是信息和知識，自然的結論就是，多看點之后下的判斷往往更靠譜。所以與其反問“多看了點東西就了不起”，不如自己多讀多看，多提供一點有價值的信息出來。

事和人確實都沒有絕對的好壞，但這不意味著我們無法對事和人作出確切的判斷。如果大家的判斷不一致，應當擺出事實來，進行細致（最好是可以量化）的分析。一個人做了件好事造福了一百萬人，不能簡單拿“它也損害了三五個人”來否定，一個做了一萬件好事的人，也不能簡單用“他也做過兩三件壞事”來否定。

同樣道理，一個人或一個國家做事可能出于利益考慮，也可能出于道德考慮。真正有意義的討論必然是具體而具體的，做這件事是出于道德考慮還是利益考慮？或者二者兼而有之，但其中哪種因素更重要？如果當時確實是出于道德考慮，或者更多出于道德考慮，那么通過簡單的“沒有誰是圣人”或者“沒有國家講道德”得出粗陋的結論，只會擾亂認知，把討論變成口舌之爭。

最后需要注明的是，上面的論述都是從基于“信息質量”，而不是基于“熱鬧”或者“話題性”而展開的。世界很大，大家看中的因素各不相同。有些人在乎的就是熱鬧，而不在乎信息質量，這本身無可厚非，說清楚即可。

而且在這個時代，如果你注重提升自己的信息質量，或多或少會有一些副作用，要放棄一些熱鬧的話題，甚至傷了某些人的面子。不過冷靜下來想想，堅持做下來的話，收獲還是比付出要多，總的來說還是劃算的，對吧？

本文轉載自公眾號【程序員小灰】

搜索引擎

【愚公系列】2022年02月 Django商城項目 26-搜索引擎功能實現

688 2022-05-29

識別 名字算數值（wps 名字一樣的數值直接匯總）">wps如何識別 名字算數值（wps 名字一樣的數值直接匯總）

688 2022-05-29

身份證 識別男女（表格怎么識別身份證男女）">表格如何用身份證 識別男女（表格怎么識別身份證男女）

688 2022-05-29

從搜索引擎原理，識別 雞湯文的“詭辯”

【愚公系列】2022年02月 Django商城項目 26-搜索引擎功能實現

識別 名字算數值（wps 名字一樣的數值直接匯總）">wps如何識別 名字算數值（wps 名字一樣的數值直接匯總）

身份證 識別男女（表格怎么識別身份證男女）">表格如何用身份證 識別男女（表格怎么識別身份證男女）

推薦文章

企業生產管理是什么，企業生產管理軟件

進盤點進銷存軟件排行榜前十名

進銷存系統哪個簡單好用？進銷存系統優點

工廠生產管理（工廠生產管理流程及制度）

生產管理軟件，機械制造業生產管理，制造業生產過程管理軟件

進銷存軟件和ERP有什么區別？進銷存與erp軟件理解

進銷存如何進行庫存管理

如何利用excel制作銷售訂單管理系統？

數據庫訂單管理系統有哪些功能？數據庫訂單管理系統怎么設計？

什么是數據庫管理系統？

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理 系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

WPS2016怎么繪制簡單的價格表?

定制家居數字化管理模式：提升品質、智能化和個性化的未

智能定制家居管理系統：重新定義家庭生活方式

友情鏈接

從搜索引擎原理，識別雞湯文的“詭辯”

識別名字算數值（wps 名字一樣的數值 直接匯總）">wps如何識別名字算數值（wps 名字一樣的數值 直接匯總）

身份證識別男女（表格怎么識別身份證男女）">表格如何用身份證識別男女（表格怎么識別身份證男女）

推薦文章

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

友情鏈接

識別名字算數值（wps 名字一樣的數值直接匯總）">wps如何識別名字算數值（wps 名字一樣的數值直接匯總）