Lucene是一套用於全文檢索搜尋開放源碼程式庫,由Apache軟件基金會支持和提供。Lucene提供了一個簡單卻強大的應用程式介面,能夠做全文索引和搜索。Lucene被廣泛應用作搜索應用的標準基礎庫[1][2][3]

Lucene
開發者Apache軟件基金會
首次發布1999年,​25年前​(1999
當前版本9.4.1(2022年10月24日,​2年前​(2022-10-24
源代碼庫 編輯維基數據鏈接
編程語言Java
操作系統跨平臺
類型搜索全文檢索
許可協議Apache許可證 2.0
網站lucene.apache.org

Lucene現已被移植到其他編程語言,包括Object PascalPerlC#C++PythonRubyPHP[4]

歷史

Doug Cutting在1999年編寫了Lucene[5],他是一位資深的全文索引及檢索專家,曾經是V-Twin搜索引擎的主要開發者,後來在Excite擔任高級系統架構設計師,目前從事於一些互聯網底層架構的研究。他貢獻出Lucene的目標是為各種中小型應用程式加入全文檢索功能。Lucene最初可以從SourceForge網站的主頁下載,它於2001年9月加入Apache軟件基金會的Jakarta開源Java產品家族,並於2005年2月成為獨立的頂級Apache項目。Lucene這個名字是Doug Cutting妻子的中間名,也是她外祖母的名字[6]

Lucene以前包含了許多子項目,例如 Lucene.NET、Mahout、Tika and Nutch。這三個現在已經成為了獨立的頂級Apache項目。

2010年3月,Apache Solr搜索服務器作為Lucene子項目加入,合併了開發者社區。

4.0版於2012年10月12日發布[7]

2021年3月,Lucene更改了logo,Apache Solr再次成為頂級Apache項目,獨立於 Lucene。

功能和常見用途

雖然理論上Lucene適用於任何需要全文索引和搜索功能的應用程序,但其主要是因為在Internet搜索引擎和本地單站點搜索實現中的實用性而受到認可[8][9]

Lucene包含了基於編輯距離執行模糊搜索的功能[10]

Lucene也被用於實現推薦系統[11]。例如,Lucene的'MoreLikeThis'類可以生成相似文檔的推薦。在將「MoreLikeThis」基於向量的相似性方法與基於引用的文檔相似性度量(例如共引和共引鄰近度分析)進行比較時,Lucene的方法在推薦具有非常相似的結構特徵和更窄相關性的文檔上表現出色[12]。相比之下,基於引用的文檔相似性度量往往更適合推薦更廣泛相關的文檔[12]

基於Lucene的項目

Lucene本身只是一個索引和搜索庫,不包含爬取和HTML解析功能。但是,以下的項目擴展了Lucene的功能:

  • Apache Nutch — 提供成熟可用的網絡爬蟲[13]
  • Apache Solr — 基於Lucene核心的高性能搜索服務器,提供JSON/Python/Ruby API[14]
  • CompassElasticsearch的前身[15]
  • CrateDB – 基於Lucene構建的開源分布式SQL數據庫[16]
  • DocFetcher — 跨平台的本機文件搜索桌面程序[來源請求][17]
  • Elasticsearch —企業搜索平台,目的是組織數據並使其易於獲取[18]
  • Kinosearch – 用PerlC語言[19]實現的搜索引擎與Lucene的移植[20]Socialtext wiki[19]MojoMojo wiki均使用了這一搜索引擎[21]。 它在人類代謝物組數據庫(HMDB)[22] 和毒素與毒素目標數據庫(T3DB)[23]中亦有應用。
  • MongoDB Atlas Search – 基於MongoDB和Apache Lucene的雲原生企業搜索應用程序
  • OpenSearch – 基於Elasticsearch 7的開源企業級搜索服務器
  • Swiftype — 基於Lucene的企業級搜索[24]
  • Lucene.NET — 提供給.Net平台用戶的Lucene類庫的封裝[25]
  • Apache Lucy — 為動態語言提供全文搜索的能力,是Lucene Java 庫的C接口[26]
  • Luke — Java編寫的用戶界面用於編輯Lucene的索引,此項目已停止開發[27]

參見

  • Solr - 使用Lucene的企業搜索伺服器,亦由Apache軟件基金會所研發。

參考資料

  1. ^ Kamphuis, Chris; de Vries, Arjen P.; Boytsov, Leonid; Lin, Jimmy, Jose, Joemon M.; Yilmaz, Emine; Magalhães, João; Castells, Pablo , 編, Which BM25 Do You Mean? A Large-Scale Reproducibility Study of Scoring Variants, Advances in Information Retrieval (Cham: Springer International Publishing), 2020, 12036: 28–34 [2021-06-07], ISBN 978-3-030-45441-8, PMC 7148026 , doi:10.1007/978-3-030-45442-5_4 (英語) 
  2. ^ Grand, Adrien; Muir, Robert; Ferenczi, Jim; Lin, Jimmy, Jose, Joemon M.; Yilmaz, Emine; Magalhães, João; Castells, Pablo , 編, From MAXSCORE to Block-Max Wand: The Story of How Lucene Significantly Improved Query Evaluation Performance, Advances in Information Retrieval (Cham: Springer International Publishing), 2020, 12036: 20–27 [2021-06-07], ISBN 978-3-030-45441-8, PMC 7148045 , doi:10.1007/978-3-030-45442-5_3 (英語) 
  3. ^ Azzopardi, Leif; Moshfeghi, Yashar; Halvey, Martin; Alkhawaldeh, Rami S.; Balog, Krisztian; Di Buccio, Emanuele; Ceccarelli, Diego; Fernández-Luna, Juan M.; Hull, Charlie; Mannix, Jake; Palchowdhury, Sauparna. Lucene4IR: Developing Information Retrieval Evaluation Resources using Lucene. ACM SIGIR Forum. 2017-02-14, 50 (2): 58–75 [2022-07-25]. ISSN 0163-5840. doi:10.1145/3053408.3053421. (原始內容存檔於2022-07-28) (英語). 
  4. ^ LuceneImplementations. apache.org. [23 September 2015]. (原始內容存檔於6 October 2015). 
  5. ^ KeywordAnalyzer Better Search with Apache Lucene and Solr (PDF). 19 November 2007. (原始內容 (PDF)存檔於31 January 2012). 
  6. ^ Barker, Deane. Web Content Management. O'Reilly. 2016: 233. ISBN 978-1491908105. 
  7. ^ Apache Lucene - Welcome to Apache Lucene. apache.org. [4 February 2016]. (原始內容存檔於4 February 2016). 
  8. ^ McCandless, Michael; Hatcher, Erik; Gospodnetić, Otis. Lucene in Action, Second Edition . Manning. 2010: 8. ISBN 978-1933988177. 
  9. ^ GNU/Linux Semantic Storage System (PDF). glscube.org. (原始內容 (PDF)存檔於2010-06-01). 
  10. ^ Apache Lucene - Query Parser Syntax. lucene.apache.org. (原始內容存檔於2017-05-02). 
  11. ^ J. Beel, S. Langer, and B. Gipp, 「The Architecture and Datasets of Docear’s Research Paper Recommender System,」 in Proceedings of the 3rd International Workshop on Mining Scientific Publications (WOSP 2014) at the ACM/IEEE Joint Conference on Digital Libraries (JCDL 2014), London, UK, 2014
  12. ^ 12.0 12.1 M. Schwarzer, M. Schubotz, N. Meuschke, C. Breitinger, V. Markl, and B. Gipp, https://www.gipp.com/wp-content/papercite-data/pdf/schwarzer2016.pdf頁面存檔備份,存於網際網路檔案館) "Evaluating Link-based Recommendations for Wikipedia" in Proceedings of the 16th ACM/IEEE-CS Joint Conference on Digital Libraries (JCDL), New York, NY, USA, 2016, pp. 191-200.
  13. ^ [email protected]. Apache Nutch™ -. nutch.apache.org. [2016-11-29]. (原始內容存檔於2021-01-26). 
  14. ^ What are the main differences between ElasticSearch, Apache Solr and SolrCloud? - Quora. quora.com. [23 September 2015]. 
  15. ^ The Future of Compass & Elasticsearch. the dude abides. [2015-10-14]. (原始內容存檔於2015-10-15) (英語). 
  16. ^ Wayner, Peter. 11 cutting-edge databases worth exploring now. InfoWorld. [21 September 2015]. (原始內容存檔於21 September 2015). 
  17. ^ Quang, Tran Nam. DocFetcher - Fast Document Search. docfetcher.sourceforge.net. [2016-11-29]. (原始內容存檔於2021-01-13). 
  18. ^ Elasticsearch: RESTful, Distributed Search & Analytics - Elastic. elastic.co. [23 September 2015]. (原始內容存檔於2015-09-21). 
  19. ^ 19.0 19.1 Natividad, Angela. Socialtext Updates Search, Goes Kino. CMS Wire. [2011-05-31]. (原始內容存檔於2012-09-29). 
  20. ^ Marvin Humphrey. KinoSearch - Search engine library. - metacpan.org. p3rl.org. [23 September 2015]. 
  21. ^ Diment, Kieren; Trout, Matt S. Catalyst Cookbook. The Definitive Guide to Catalyst . Apress. 2009: 280. ISBN 978-1-4302-2365-8. 
  22. ^ Wishart, D. S.; et al. HMDB: a knowledgebase for the human metabolome. Nucleic Acids Res. January 2009, 37 (Database issue): D603–10. PMC 2686599 . PMID 18953024. doi:10.1093/nar/gkn810. 
  23. ^ Lim, Emilia; Pon, Allison; Djoumbou, Yannick; Knox, Craig; Shrivastava, Savita; Guo, An Chi; Neveu, Vanessa; Wishart, David S. T3DB: a comprehensively annotated database of common toxins and their targets. Nucleic Acids Res. January 2010, 38 (Database issue): D781–6. PMC 2808899 . PMID 19897546. doi:10.1093/nar/gkp934. 
  24. ^ Swiftype - Site search and enterprise search. Swiftype. [2016-11-29]. (原始內容存檔於2021-02-05). 
  25. ^ Apache Lucene.Net. lucenenet.apache.org. [2016-11-29]. (原始內容存檔於2020-12-31). 
  26. ^ Apache Lucy. lucy.apache.org. [2016-11-29]. (原始內容存檔於2020-12-31). 
  27. ^ luke. GitHub. [2016-11-29]. (原始內容存檔於2020-11-30). 

外部連結