扒一扒搜索引擎是如何工作的?

      網(wǎng)友投稿 700 2022-05-29

      搜索引擎是信息檢索(IR)系統(tǒng)的通俗叫法。雖然研究和開發(fā)人員看待IR系統(tǒng)的眼光更寬一些,但用戶想到它們更多的是根據(jù)他們期望系統(tǒng)能做的功能 — 即搜索網(wǎng)絡,或者企業(yè)內部網(wǎng),或者一個數(shù)據(jù)庫。

      事實上用戶會更喜歡一個發(fā)現(xiàn)引擎,而不僅僅是一個搜索引擎。

      搜索引擎匹配查詢到它們創(chuàng)建的索引上。這個索引包含每個文檔的單詞,和能指向文兒當?shù)刂返闹羔槨_@被叫做倒排索引文件【 inverted file】。一個搜索引擎或者IR系統(tǒng)包括四個基本的模塊:

      一個文檔處理器

      扒一扒搜索引擎是如何工作的?

      一個查詢處理器

      一個搜索和匹配功能

      一個排名能力

      雖然用戶關注的點是“搜索”,但是搜索和匹配功能僅僅是這四個模塊里的其中之一。這四個模塊中的每一個都可能導致用戶在使用搜索引擎時獲得預期或意外的結果。

      文檔處理器

      文檔處理器準備,處理和輸入用戶搜索的文檔,頁面或站點。文檔處理器執(zhí)行以下部分或全部步驟:

      將文檔流規(guī)范化為預定義格式。

      將文檔流分解為所需的可檢索單元。

      隔離和元標記每個子文檔塊。

      標識文檔中潛在的可索引元素。

      刪除停用詞。

      詞根化檢索詞。

      提取索引條目。

      計算權重。

      創(chuàng)建并更新搜索引擎搜索的主要倒排索引文件,以便將查詢與文檔進行匹配。

      第1-3步:預處理。?雖然是必不可少的步驟并且可能對影響搜索結果很重要,但前三個步驟只是簡單地標準化了各種來源或者處理各種網(wǎng)站時遇到的多種文件格式。這些步驟用于將所

      搜索引擎

      版權聲明:本文內容由網(wǎng)絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網(wǎng)站將在24小時內刪除侵權內容。

      上一篇:【Free Style】Hadoop-Yarn之Resource Manager源碼分析(四) Free Style】Hadoop-Yarn之Resource Manager源碼分析(一) 【Free Style】Hadoop-Yarn之Resource Manager源碼分析(二) 【Free Style】Hadoop-Yarn之Resource Manager源碼分析(三)
      下一篇:【Java從入門到頭禿專欄 6】語法篇(五) :多線程 線程池 可見、原子性 并發(fā)包 Lambda表達式
      相關文章
      亚洲av午夜成人片精品电影 | 亚洲精品成人久久久| 亚洲精品亚洲人成在线麻豆| 2022中文字字幕久亚洲| 小说专区亚洲春色校园| 亚洲AV无码专区在线电影成人| 中文字幕乱码亚洲无线三区| 亚洲欧洲久久精品| 亚洲成人黄色在线观看| 亚洲欧洲日本精品| 亚洲国产精品综合久久2007| 亚洲第一成年网站大全亚洲| 久久久久久亚洲精品成人| 亚洲黄色免费在线观看| 久久亚洲sm情趣捆绑调教| 亚洲美女免费视频| 亚洲欧洲综合在线| 亚洲成aⅴ人在线观看| 亚洲国产精品线观看不卡 | 国产精品亚洲专区无码唯爱网| 亚洲日韩一中文字暮| 亚洲色无码专区一区| 亚洲丶国产丶欧美一区二区三区| MM1313亚洲精品无码久久| 国内成人精品亚洲日本语音| 亚洲成a人片在线观看老师| 亚洲日本一区二区三区在线不卡| 亚洲欧洲自拍拍偷精品 美利坚| 久久久久国产成人精品亚洲午夜| 亚洲偷自拍拍综合网| 亚洲精品成人网站在线观看 | 亚洲熟妇无码八V在线播放| 亚洲精品无播放器在线播放| 亚洲av日韩aⅴ无码色老头| 亚洲?V乱码久久精品蜜桃 | 爱情岛论坛网亚洲品质自拍| 亚洲色欲久久久综合网| 亚洲日本一区二区三区在线| 亚洲国产日韩一区高清在线 | 亚洲综合激情六月婷婷在线观看| 亚洲一欧洲中文字幕在线|