安装

ES依赖于JDK,使用Oracke JDK或OpenJDK均可。

JDK在不同平台的安装方式各异,具体方法这里不再介绍。ES的安装也非常容易,通常只需要简单修改其配置文件中的集群名称,并启动服务即可,这里不再赘述。

ElasticSearch在设计上支持插件式体系结构,用户可根据需要通过插件来增强ElasticSearch的功能。

目前,常用的通过插件扩展的功能包括添加自定义映射类型、自定义分析器、本地脚本、自定义发现方式等等。

安装及移除插件

插件的安装有两种方式:直接将插件放置于plugins目录中,或通过plugin脚本进行安装。

Marvel、BigDesk及Head这三个是较为常用的插件。

使用

ElasticSearch提供了易用但功能强大的RESTful API以用于与集群进行交互,这些API大体可分为如下四类:

(1) 检查集群、节点、索引等健康与否,以及获取其相关状态与统计信息;
(2) 管理集群、节点、索引数据及元数据;
(3) 执行CRUD操作及搜索操作;
(4) 执行高级搜索操作,例如paging、filtering、scripting、faceting、aggregations及其它操作;

数据查询

Query API是ElasticSearch的API中较大的一部分,基于Query DSL(JSON based language for building complex queries),可完成诸多类型查询操作,例如simple term query, phrase, range, boolean, fuzzy, span, wildcard, spatial等简单类型查询、组合简单查询类型为复杂类型查询,以及文档过滤等。

另外,查询执行过程通常要分成两个阶段,分散阶段及合并阶段。

分散阶段是向所查询的索引中的所有shard发起执行查询的过程,合并阶段是将各shard返回的结果合并、排序并响应给客户端的过程。

向ElasticSearch发起查询操作有两种方式:一是通过RESTful request API传递查询参数,也称“query-string”;另一个是通过发送REST request body,也称作JSON格式。

通过发送request body的方式进行查询,可以通过JSON定义查询体编写更具表现形式的查询请求。访问ElasticSearch的search API需要通过_search端点进行。例如,向students索引发起一个空查询。

~]$ curl -XGET 'localhost:9200/students/_search?pretty'

上面的查询命令也可改写为带request body的格式,其等同效果的命令如下。

~]$ curl -XGET 'localhost:9200/students/_search?pretty' -d '
{ 
  "query": { "match_all": { } }
}'

此命令所示的查询语句是ElasticSearch提供的JSON风格的域类型查询语言,也即所谓的Query DSL。

上面的命令中,“query”参数给出了查询定义,match_all给出了查询类型,它表示返回给定索引的所有文档。

除了query参数之外,还可以额外指定其它参数来控制搜索结果,例如“size”参数可定义返回的文档数量(默认为10),而“from”参数可指定结果集中要显示出的文档的起始偏移量(默认为0),“sort”参数可指明排序规则等。
ElasticSearch的大多数search API(除了Explain API)都支持多索引(mutli-index)和多类型(multi-type)。如果不限制查询时使用的索引和类型,查询请求将发给集群中的所有文档。

ElasticSearch会把查询请求并行发给所有shard的主shard或某一副本shard,将返回的结果集中的前10返回给用户。

不过,如果是想向某一或某些个索引的某一或某些类型发起查询请求,可通过指定查询的URL进行。

/_search:搜索所有索引的所有类型;
/students/_search:搜索students索引的所有类型;
/students,tutors/_search:搜索students和tutors索引的所有类型;
/s*,t*/_search:搜索名称以s和t开头的所有索引的所有类型;
/students/class1/_search:搜索students索引的class1类型;
/_all/class1,class2/_search:搜索所有索引的class1和class2类型;

索引一个文档时,Elasticsearch会取得其所有域的所有值,并将其连接起来合并为一个大字符串,其被索引为一个特殊域_all。

在某次查询中,如果在query-string中未指定查询的域,则使用_all域进行查询。

下面四个查询的功用会有所不同。前两个在_all域中搜索,而后两个将会在class域上做精确搜索。

GET /_search?q="Huashan"
GET /_search?q="Huashan Pai"
GET /_search?q=class:"Huashan Pai"
GET /_search?q=class:"Huahan"

需要注意的是,文档中每个域的值可能会存储为特定类型,而非字符串类型,因此,_all域的索引方式与特域的索引方式未必完全相同。

文档中,域的数据存储时支持“string”、“numbers”、“Booleans”和“dates”几种类型,不同类型的数据在索引时是略有区别的。

在创建文档时,Elasticsearch会通过检查域的值来动态为其创建mapping,可通过Mapping API来查看type的mapping,其访问端点是_mapping。

ES的精确值、full-text及倒排索引

ES的数据可被广义的分为两种类型:“types:exect”和“full-text”。

精确值(Exact values)就是指数据未曾加工过的原始值,而Full-text则用于引用文本中的数据。

在查询中,精确值是很容易进行搜索的,但full-text则需要判断文档在“多大程度上”匹配查询请求,换句话讲,即需要评估文档与给定查询的相关度(relevant)。

因此,所谓的full-text查询通常是指在给定的文本域内部搜索指定的关键字,但搜索操作该需要真正理解查询者的目的,例如:

(1) 搜索“UK”应该返回包含“United Kingdom”的相关文档;
(2) 搜索“jump”应该返回包含“JUMP”、“jumped”、“jumps”、“jumping”甚至是“leap”的文档;
(3) 搜索“johnny walker”应该匹配包含“Johnnie Walker”的文档;

为了完成此类full-text域的搜索,ES必须首先分析文本并将其构建成为倒排索引(inverted index),倒排索引由各文档中出现的单词列表组成,列表中的各单词不能重复且需要指向其所在的各文档。

因此,为了创建倒排索引,需要先将各文档中域的值切分为独立的单词(也称为term或token),而后将之创建为一个无重复的有序单词列表。这个过程称之为“分词(tokenization)”。
图片描述
其次,为了完成此类full-text域的搜索,倒排索引中的数据还需进行“正规化(normalization)”为标准格式,才能评估其与用户搜索请求字符串的相似度。

例如,将所有大写字符转换为小写,将复数统一单数,将同义词统一进行索引等。

另外,执行查询之前,还需要将查询字符串按照同与索引过程的同种格式进行“正规化(normalization)”。

这里的“分词”及“正规化”操作也称为“分析(analysis)”。
其次,为了完成此类full-text域的搜索,倒排索引中的数据还需进行“正规化(normalization)”为标准格式,才能评估其与用户搜索请求字符串的相似度。

例如,将所有大写字符转换为小写,将复数统一单数,将同义词统一进行索引等。

另外,执行查询之前,还需要将查询字符串按照同与索引过程的同种格式进行“正规化(normalization)”。

这里的“分词”及“正规化”操作也称为“分析(analysis)”。

分析(analysis)

Analysis过程由两个步骤的操作组成:首先将文本切分为terms(词项)以适合构建倒排索引,其次将各terms正规化为标准形式以提升其“可搜索度”。这两个步骤由分析器(analyzers)完成。

一个分析器通常需要由三个组件构成:字符过滤器(Character filters)、分词器(Tokenizer)和分词过滤器(Token filters)组成。

字符过滤器:在文本被切割之前进行清理操作,例如移除HTML标签,将&替换为字符等;

分词器:将文本切分为独立的词项;简单的分词器通常是根据空白及标点符号进行切分;

分词过滤器:转换字符(如将大写转为小写)、移除词项(如移除a、an、of及the等)或者添加词项(例如,添加同义词);

Elasticsearch内置了许多字符过滤器、分词器和分词过滤器,用户可按需将它们组合成“自定义”的分析器。

固然,创建倒排索引时需要用到分析器,但传递搜索字符串时也可能需要分析器,甚至还要用到与索引创建时相同的分析器才能保证单词匹配的精确度。

执行full-text域搜索时,需要用到分析器,但执行精确值搜索时,查询过程不会分析查询字符串而是直接进行精确值匹配。

Queries and Filters

尽管统一称之为query DSL,事实上Elasticsearch中存在两种DSL:查询DSL(query DSL)和过滤DSL(filter DSL)。

查询子句和过滤子句的自然属性非常相近,但在使用目的上略有区别。

简单来讲,当执行full-text查询或查询结果依赖于相关度分值时应该使用查询DSL,当执行精确值(extac-value)查询或查询结果仅有“yes”或“no”两种结果时应该使用过滤DSL。

Filter DSL计算及过滤速度较快,且适于缓存,因此可有效提升后续查询请求的执行速度。

而query DSL不仅要查找匹配的文档,还需要计算每个文件的相关度分值,因此为更重量级的查询,其查询结果不会被缓存。

不过,得益于倒排索引,一个仅返回少量文档的简单query或许比一个跨数百万文档的filter执行起来并得显得更慢。

Elasticsearch支持许多的query和filter,但最常用的也不过几种。

Filter DSL中常见的有term Filter、terms Filter、range Filter、exists and missing Filters和bool Filter。

而Query DSL中常见的有match_all、match 、multi_match及bool Query。鉴于时间关系,这里不再细述,朋友们可参考官方文档学习。

Queries用于查询上下文,而filters用于过滤上下文,不过,Elasticsearch的API也支持此二者合并运行。

组合查询可用于合并查询子句,组合过滤用于合并过滤子句,然而,Elasticsearch的使用习惯中,也常会把filter用于query上进行过滤。不过,很少有机会需要把query用于filter上的。

文章来源:http://www.itnose.net/detail/...


zebrayoung
240 声望35 粉丝