elasticsearch 存储原理

合集下载

elasticsearch 存储原理Elasticsearch存储原理
Elasticsearch是一个开源的分布式搜索和分析引擎，采用倒排索引的方式来存储和检索数据。

倒排索引是一种将文档中的每个词都映射到包含该词的文档的数据结构，这使得Elasticsearch能够快速且高效地搜索和过滤大量的数据。

在Elasticsearch中，数据存储在称为分片（shard）的单元中。

每个分片是一个独立的Lucene索引，包含了文档的倒排索引和其他相关数据。

分片是水平扩展和并行处理的基本单元，可以分布在集群中的不同节点上，从而实现数据的分布和负载均衡。

数据写入过程：
当有新的文档需要写入Elasticsearch时，它首先会将文档分配给一个主分片（primary shard）。

主分片负责处理文档的写入请求，并将其复制到副本分片（replica shard）中。

副本分片是主分片的拷贝，用于提高数据的可用性和容错性。

主分片接收到文档后，会先将文档的字段进行分词和标准化处理。

分词是将文本按照一定的规则切分成词语的过程，而标准化则是对词语进行小写转换、去除停用词等操作，以便更好地进行搜索和匹配。

处理后的字段会被添加到倒排索引中，并与文档的其他信息一
起存储。

在将文档添加到倒排索引之前，Elasticsearch会先检查文档的版本号。

版本号是一个用于乐观并发控制的整数值，用于解决多个写入请求同时修改同一文档的冲突。

如果文档的版本号与当前索引中的版本号不一致，那么写入请求将被拒绝。

当主分片将文档添加到倒排索引后，它会向副本分片发送复制请求，将文档的变更同步到副本分片中。

副本分片会对接收到的请求进行确认，并在确认后更新自己的倒排索引。

这样，即使主分片发生故障，副本分片仍然可以提供服务。

数据读取过程：
当用户发起搜索请求时，Elasticsearch会将请求发送到所有的分片上，并行地进行搜索操作。

每个分片都会返回与搜索条件匹配的文档，并计算出一个分数，用于排序和评估结果的相关性。

接收到搜索结果后，Elasticsearch会对结果进行合并和排序，并返回给用户。

合并过程通常是基于分数进行的，较高分数的文档会排在前面。

此外，用户还可以根据自定义的排序规则对结果进行排序。

除了搜索，Elasticsearch还支持聚合（aggregation）操作，用于对文档进行统计和分析。

聚合操作可以对搜索结果进行分组、求和、平均值等操作，从而得到更详细和全面的分析结果。

总结：
Elasticsearch利用倒排索引和分布式存储的方式，实现了高效的数据存储和检索。

它通过将数据分散到不同的分片上，实现了水平扩展和负载均衡，提高了系统的吞吐量和可用性。

同时，倒排索引和并行搜索的机制，使得Elasticsearch能够快速地处理大规模的数据，并提供强大的搜索和分析功能。