elasticsearch操作记录 mysql是否能够存储一亿条记录?
mysql是否能够存储一亿条记录?
ES使用Lucene提供检索服务,数据也会放在磁盘上。ES有各种存储数据、节点数据、索引数据、事务日志、Luc
全文搜索引擎有那些?
全文搜索引擎包括:
1.全文搜索引擎
Lucene 的开发语言是Java,也是Java家族中最著名的开源搜索引擎。在Java世界中,它已经是一个标准的全文搜索程序。它提供了完整的查询引擎和索引引擎,没有中文分词引擎,需要自己实现。因此,有必要用Lucene构建一个搜索引擎。此外,它不支持实时搜索。不过linkedin和twitter已经改进了lucene的实时搜索,Lucene有一个移植版本叫做Lucene,理论上比Lucene快,因为它是用C编写的.
官方主页:
CLucene官方主页:
2.狮身人面像
Sphinx是用C语言编写的开源搜索引擎,也是目前主流的搜索引擎之一。在索引事件上比lucene快50%,但是索引文件比Lucene大一倍,所以Sphinx在索引上是用空间换事件的策略,在检索速度上和Lucene相差不大,但是在检索准确率上Lucene比Sphinx好。另外,Lucene在中文分词引擎的加入难度上优于Sphinx,其中Sphinx支持实时搜索,使用起来相对简单方便。
官方主页:
3.夏皮安
Xapian是一个用c编写的全文检索程序,它的api和检索原理在很多方面与lucene相似,填补了c中的一个空缺.
官方主页:
4.上下真空滤器
Nutch是一个用java实现的开源web搜索引擎,包括爬虫、索引引擎和查询引擎,其中Nutch基于Lucene,Lucene为Nutch提供了一个用于文本索引和搜索的API。
你是否应该使用Lucene或Nutch应该是,如果你不 不需要抓取数据,你应该使用Lucene。最常见的应用是您有数据源,需要为这些数据提供一个搜索页面。在这种情况下,最好的方法是直接从数据库中获取数据,并用Lucene API构建一个索引。
官方主页:
5.数据公园搜索
DataparkSearch是一个用C语言实现的开源搜索引擎,其中网页排序基于神经网络模型,支持下载HTTP、HTTPS、FTP、NNTP等网页,包括索引引擎、搜索引擎和中文分词引擎(这是唯一一个带有中文分词引擎的开源搜索引擎)。它可以单独定制搜索结果,并有完整的日志记录。
官方主页:
6.泽泰尔
Zettair是一个基于Justin Zobel 的研究成果。它是用C语言实现的。Justin Zobel在全文检索领域非常有名,他是业界第一个系统提出倒排索引差分压缩算法的人。倒排表的压缩大大提高了检索和加载的性能。与此同时,空间膨胀率也降低到了一个非常好的水平。因为Zettair起源于学术界,代码是由RMIT大学的搜索引擎编写的,所以它的代码简洁高效,是学习倒排索引经典算法的一个非常好的例子。支持linux、windows、mac os等系统。
官方主页:
7.因德里
Indri是一个用C语言和C语言编写的全文检索引擎系统。它是由麻省大学和卡内基梅隆大学联合推出的开源项目。它的特点是跨平台和API接口支持Java,PHP和c。
官方主页:
8.一种活泼的小狗
Terrier是由格拉斯哥大学计算科学学院用java开发的全文检索系统。
官方主页:
9.加拉戈
Galago是一个用java语言编写的关于文本搜索的工具集。它包括索引引擎和查询引擎,还包括一个叫做TupleFlow的分布式计算框架(类似于google 的MapReduce)。这个检索系统支持多种Indri查询语言。
官方主页:
10.斑马
Zebra是用C语言实现的检索程序,其特点是支持大数据、EMAIL、XML、MARC等格式。
官方主页:
11.索尔
Solr是一个用java开发的独立的企业级搜索应用服务器,它提供了一个类似于Web-service的API接口。它是基于Lucene的全文检索服务器,也是Lucene的变种。很多一线互联网公司都在用Solr,也是成功的。熟悉的解决方案。
官方主页:
12.弹性搜索
Elasticsearch是一个开源的分布式搜索引擎,用java语言开发,基于Lucene构建。它是为云计算设计的,可以实现实时搜索、稳定可靠。Elasticsearch的数据模型是JSON。
官方主页:
13.呼
Whoosh是一个用纯python编写的开源搜索引擎。
官方主页:
版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。