2016 - 2024

感恩一路有你

java有哪些搜索引擎 全文搜索引擎有那些?

浏览量:4572 时间:2023-04-30 23:23:06 作者:采采

全文搜索引擎有那些?

全文搜索引擎有:

Lucene的开发语言是Java,也是Java家族中之一知名的一个开源搜索引擎,在Java世界中早就是标准的全文检索程序,它可以提供了求全部的查询引擎和索引引擎,没有中文分词引擎,是需要自己去实现程序,而用Lucene去做一个搜素引擎要自己去架构.至于它不意见实时地直接搜索,但linkedin和twitter有共有对Lucene改进的实时地搜素.其中Lucene有一个C移植版本叫CLucene,CLucene是因为可以使用C编写,所以我理论上要比lucene快.

官方主页:

CLucene官方主页:

2.Sphinx

Sphinx是一个用C语言写的开放源代码搜索引擎,确实是现在都很主流的搜索引擎之一,在成立索引的事件方面比Lucene快50%,可是索引文件比Lucene要大一倍,但Sphinx在索引的建立方面是空间得到事件的策略,在检索到速度上,和lucene超过不是太大,但检索数据库精准度方面Lucene要效果更优Sphinx,同时在加入到中文分词引擎难度方面,Lucene要效果更优Sphinx.其中Sphinx支持实时自动搜索,可以使用下来比较简单比较方便.

官方主页:

3.Xapian

Xapian是一个用C汇编语言的全文检索程序,它的api和检索到原理和lucene在很多方面都很相象,不算摆脱了lucene在C中的一个空缺.

官方主页:

Nutch是一个用java基于的开源的web搜索引擎,除了爬虫crawler,索引引擎,可以查询引擎.其中Nutch是基于条件Lucene的,Lucene为Nutch能提供了文本索引和搜索的API.

是对应该要可以使用Lucene还是不使用Nutch,肯定是如果你不需要抓取数据的话,肯定可以使用Lucene,最常见的应用是:你有数据源,需要为这些数据能提供一个搜索页面,在状况下,最好的是再从数据库中接过数据,用此LuceneAPI成立索引.

官方主页:

DataparkSearch是一个用C语言实现方法的开源的搜索引擎.其中网页排序是区分神经网络模型.其中接受HTTP,HTTPS,FTP,NNTP等去下载网页.除开索引引擎,数据库检索引擎和中文分词引擎(这个确实是唯一的一个开源的搜索引擎里有中文分词引擎).能个性化定制搜索结果,具备求全部的日志记录.

官方主页:

6.Zettair

Zettair是参照JustinZobel的研究成果为基础的全文检索实验系统.它是用C语言实现方法的.其中JustinZobel在全文检索领域很有名气,是业界第一个系统提出来倒排序索引差分压缩后算法的人,倒排列表的压缩后大大提高了检索和读取的性能,同样的空间膨胀率也缩小成到蛮杰出的水平.而Zettair是缘于学术界,代码是由RMITUniversity的搜索引擎组织写的,而它的代码简洁明快装备精练,算法高效稳定,是去学习倒排索引经典算法的相当好的实例.其中支持什么linux,windows,mac os等系统.

官方主页:

Indri是一个用C语言和C语言写的全文检索引擎系统,是由University ofMassachusetts和Carnegie MellonUniversity合作会推出的一个开源项目.特点是跨平台,API接口支持什么Java,PHP,C.

官方主页:

8.Terrier

Terrier是由SchooltheComputingScience,UniversityofGlasgow用java开发的一个全文检索系统.

官方主页:

Galago是一个用java语言写的麻烦问下文本搜索的工具集.1个步兵旅索引引擎和去查询引擎,还除了一个叫TupleFlow的分布式计算框架(和google的MapReduce很像).这个检索系统支持什么很多Indri网站查询语言.

官方主页:

10.Zebra

Zebra是一个用C语言实现程序的检索程序,特点是对大数据的支持,支持EMAIL,XML,MARC等格式的数据.

官方主页:

Solr是两个用java开发的相当于的企业级搜索应用服务器,它需要提供了类似于Web-service的API接口,它是基于组件Lucene的全文检索服务器,也算得Lucene的一个变种,很多一线互联网公司都在使用Solr,也算得一种成熟的解决方案.

官方主页:

12.Elasticsearch

Elasticsearch是一个区分java语言开发的,设计和实现Lucene构造的开源,分布式的搜索引擎.设计主要用于云计算中,能够提升实时搜索,稳定可靠.Elasticsearch的数据模型是JSON.

官方主页:

13.Whoosh

Whoosh是三个用纯python写的开源代码搜索引擎.

官方主页:

ES原理?

ES是基于组件Lucene的搜索服务器,它提供给了一个分布式多用户能力的全问搜索引擎,且ES支持RestFulweb风格的url访问。ES是基于条件Java开发的闭源搜索引擎,啊,设计用于云计算,也能达到实时地搜索,稳定、可信度高、飞快。当然了,ES还能提供了数据聚合体分析功能,但在数据分析方面,es的时效性不是什么很理想和目标,在企业应用中一般我还是主要是用于搜索。ES自2016年起早最多Solr等,称做排名第一的搜索引擎应用。

ES、Lucene、solr对比:

Luence是Apache基于组件Java汇编语言的信息搜索工具包(jar包),它乾坤二卦了索引结构、读写索引工具、相关性工具、排序等功能,因此Lucene的使用是需要我们及时开发搜索引擎系统,假如数据资源、解析、分词等

Solr是个有HTTP接口的实现Lucene的查询服务器,是一个搜索引擎系统,mems器件了很多lucene细节,Solr可以直接借用HTTPget/POST各位去网上查询,维护修改索引。Solr利用zookeeper接受分布式管理,它的实现程序更加全面,官方能提供的功能一些。

搜索 引擎 Lucene 官方主页 系统

版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。