亚洲国产精品久久久久秋霞影院,91亚洲国产在人线播放午夜,亚洲二区在线视频

Solr 概述

網友投稿 836 2025-04-02

Solr 簡介：

什么是lucene？

lucene是一個開放源代碼的全文檢索引擎工具包，但它不是一個完整的全文檢索引擎，而是一個全文檢索引擎的架構，提供了完整的查詢引擎和索引引擎，部分文本分析引擎。

什么是Solr？

Solr是Apache下的一個開源項目，使用Java基于Lucene開發的全文檢索服務；是一個獨立的企業級搜索應用服務器，它對外提供類似于Web-service的API接口。用戶可以通過http請求，向搜索引擎服務器提交一定格式的XML文件，生成索引；也可以通過Http Get操作提出查找請求，并得到XML格式的返回結果。

為什么選擇Solr ？

在大型的SQL數據庫上很難執行高速的查詢有Solr是Apache 下的一個開源項目，使用Java基于Lucene開發的全文檢索服務；

是一個獨立的企業級搜索應用服務器，它對外提供類似于Web-service的API接口。用戶可以通過http請求，向搜索引擎服務器提交一定格式的XML文件，生成索引；也可以通過Http Get操作提出查找請求，并得到XML格式的返回結果。

兩點原因:第一點原因來自SQL數據庫在性能上缺乏亮點。基本上，你需要在你的查詢中使用JOIN操作。

第二點原因是文檔的天然數據特性：松散的文本文件，這種查詢都是需要使用LIKE。然而joins和likes都是性能殺手，在目前的數據庫引擎中是不方便的。

所以，很多時候希望找到一種跟SQL完全不同的數據檢索方式：倒排索引。這種數據結構類似與美化過的詞典：

key是單個的term

values是跟term對應的文檔列表

這種數據方式可以幫助在大型的數據庫上面進行高速查詢。

Solr 關鍵特性：

1.基于標準的開放接口：Solr搜索服務器支持通過XML、JSON和HTTP查詢和獲取結果。

2.易管理：Solr可以通過HTML頁面管理，Solr配置通過XML完成。

3.可伸縮性：能夠有效地復制到另外一個Solr搜索服務器。

4.靈活的插件體系：新功能能夠以插件的形式方便的添加到Solr服務器上。

5.強大的數據導入功能：數據庫和其他結構化數據源現在都可以導入、映射和轉化。

Solr 核心組成：

SolrHome：SolrHome是Solr運行的主目錄，該目錄可以包含多個solrcore目錄。

SolrCore：每個solrcore相互獨立，可以單獨對外提供搜索和索引服務；Solr實例就是一個solrcore目錄，包含運行solr實例的所有配置文件和索引文件

Solr 倒排索引：

正排索引（正向索引）：正排表是以文檔的ID為關鍵字，表中記錄文檔中每個字的位置信息，查找時掃描表中每個文檔中字的信息直到找出所有包含查詢關鍵字的文檔。

正排表結構如圖1所示，這種組織方法在建立索引的時候結構比較簡單，建立比較方便且易于維護;因為索引是基于文檔建立的，若是有新的文檔加入，直接為該文檔建立一個新的索引塊，掛接在原來索引文件的后面。若是有文檔刪除，則直接找到該文檔號文檔對應的索引信息，將其直接刪除。但是在查詢的時候需對所有的文檔進行掃描以確保沒有遺漏，這樣就使得檢索時間大大延長，檢索效率低下。

盡管正排表的工作原理非常的簡單，但是由于其檢索效率太低，除非在特定情況下，否則實用性價值不大。

倒排索引（反向索引）：倒排表以字或詞為關鍵字進行索引，表中關鍵字所對應的記錄表項記錄了出現這個字或詞的所有文檔，一個表項就是一個字表段，它記錄該文檔的ID和字符在該文檔中出現的位置情況。

由于每個字或詞對應的文檔數量在動態變化，所以倒排表的建立和維護都較為復雜，但是在查詢的時候由于可以一次得到查詢關鍵字所對應的所有文檔，所以效率高于正排表。在全文檢索中，檢索的快速響應是一個最為關鍵的性能，而索引建立由于在后臺進行，盡管效率相對低一些，但不會影響整個搜索引擎的效率。倒排表的結構圖如圖2：

solr索引創建流程：

分詞組件Tokenizer

分詞組件(Tokenizer)會做以下幾件事情(這個過程稱為：Tokenize)，處理得到的結果是詞匯單元（Token）。

Solr 概述

1、將文檔分成一個一個單獨的單詞。

2、去除標點符號。

3、去除停詞（stop word）。

語言處理組件

語言處理組件(linguistic processor)主要是對得到的詞元(Token)做一些語言相關的處理。對于英語，語言處理組件(Linguistic Processor)一般做以下幾點：

1、變為小寫（Lowercase）

2、將單詞縮減為詞根形式

3、將單詞轉換為詞根形式

索引組件（Indexer）

1、利用得到的詞（Term）創建一個字典

2、對字段進行排序

3、合并相同的詞和詞出現的文檔

Solr 寫數據流程：

1、源字符串首先經過分詞器處理，包括：拆分詞以及去除stopword。

2、然后經過語言處理，包括大小寫轉換以及單詞轉換

3、將源數據中需要的信息加入到Document中的各個Field字段中，并把需要索引的Field字段索引起來，同時把需要存儲的Field字段存儲起來。然后將索引寫入存儲器，存儲器可以是內存或者磁盤。

Solr 讀數據流程：

1、用戶提供搜索關鍵詞，也就是搜索語句，需要經過分詞器處理以及語言處理

2、對處理之后的關鍵詞，搜索索引找出對應Document 即記錄

3、用戶根據需要從找到的Document中提取需要的Field字段

XML Lucene/Solr

PHP如何解決網站大流量與高并發的問題（二）

836 2025-04-02

Solr 概述

面試官常考的MySQL索引（MySQL進階）

Git內部原理之深入解析傳輸協議

PHP如何解決網站大流量與高并發的問題（二）

推薦文章

企業生產管理是什么，企業生產管理軟件

進盤點進銷存軟件排行榜前十名

進銷存系統哪個簡單好用？進銷存系統優點

工廠生產管理（工廠生產管理流程及制度）

生產管理軟件，機械制造業生產管理，制造業生產過程管理軟件

進銷存軟件和ERP有什么區別？進銷存與erp軟件理解

進銷存如何進行庫存管理

如何利用excel制作銷售訂單管理系統？

數據庫訂單管理系統有哪些功能？數據庫訂單管理系統怎么設計？

什么是數據庫管理系統？

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理 系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

WPS2016怎么繪制簡單的價格表?

系統的功能有哪些？餐飲服務系統的構成及工作程序">連鎖餐飲管理系統的功能有哪些？餐飲服務系統的構成及工

進銷存庫存管理盤點">簡單進銷存庫存管理盤點

友情鏈接