目录
  1. 1. ElasticSearch–简单入门
    1. 1.1. 简介
    2. 1.2. 安装
    3. 1.3. 安装可视化管理工具
    4. 1.4. 创建索引
      1. 1.4.1. postman
    5. 1.5. 集成分词器
      1. 1.5.1. ik-smart 为最少切分
      2. 1.5.2. ik-max-word 为最精细切分
      3. 1.5.3. 新建索引库
    6. 1.6. 集群配置
      1. 1.6.1. master节点配置
      2. 1.6.2. slave节点配置
      3. 1.6.3. 完整配置
      4. 1.6.4. 配置效果
ElasticSearch--简单入门

ElasticSearch–简单入门

总结于同学大佬的学习ElasticSearch,以及慕课网一些教程

简介

  Elaticsearch ,简称为es,es是一个开源的高扩展的分布式全文检索引擎,它可以近乎实时的存储、检索数据;本身扩展性很好,可以扩展到上百台服务器,处理PB级别的数据。es也使用Java开发并使用Lucene作为其核心来实现所有索引和搜索的功能,但是它的目的是通过简单的RESTful API来隐藏Lucene的复杂性,从而让全文搜索变得变得简单。

安装

因为用是 win 本,mac 的没怎么用过,这里说一下 win 下的安装

  • 可以选择去官网下载你想要的版本(下图所示位置),因为一般用的都是 5.x 版本的,新版本会有些旧命令不兼容

image-20200512112807928

  • 当然这里下载是比较慢的,百度网盘的应该会快一点吧,我把他上传到了网盘上。(点击下载,提取码:0qc5)
  • JDK 版本要求为 1.8 以上,默认占用端口 9300,9200
  • 解压下载好的文件,进入 bin 目录点击启动脚本启动(我这里是 5.6.10 版本)

image-20200512113247389

  • 浏览器输入 localhost:9200(我这里是改了下端口,后续测试集群改的,改不改无所谓的)

image-20200512113408506

安装可视化管理工具

image-20200512113805480

  • 因为他本身需要 Node.js 运行环境,这里不再赘述如何安装 Node.js ,在当前这个 head 文件夹这里打开命令行或者 powershell 按顺序执行下面语句(注意一定要在 head 这个文件夹内操作
1
npm install -g grunt-cli
1
npm install

在这里插入图片描述

1
grunt server
  • 在浏览器里输入 localhost:9100 就可以看到图形化界面了

在这里插入图片描述

  • 连接前还需配置一下 es 的配置文件 ==》elasticsearch-5.6.10\config\elasticsearch.yml
  • 在文件末尾加入下面两句话:
1
2
http.cors.enabled: true
http.cors.allow-origin: "*"
  • 重启 es,连接成功

在这里插入图片描述

创建索引

  • 可以直接在 head 内的复合查询里写 json 语句进行创建,也可以通过 postman 创建,因为 es 支持 restful 风格的接口进行访问,或者可以在 head 索引那里直接创建,不过这样创建的就是 非结构化的索引,即 mappings 里是空的。

postman

image-20200512144007062

  可以看出结构很清晰,restful 风格访问 9200 端口,用put创建一个叫 blog 的索引(删除是delete),然后 json 形式设置 mappings 结构,里面会再细分比如说 articles 文章类型,然后规定 文章类型 的各种属性,id、title、content 等等,然后这些属性也可以再定义更细的类型,分词策略等等。

这里可以和MySQL数据库进行类比:

  • 索引(blog)就相当于 MySQL 的 database
  • 类型(articles)相当于 table
  • 文档 相当于 一条 score 记录,是可以被索引到的最基本的数据

  下面那个 settings,就是设置分片的个数和分片备份的个数,默认就是分片是 5,备份数为 1。

image-20200512144348371

  五个分片分别对应 0,1,2,3,4,而备份就是下面这个 框 比较细的 1,2,这个就是对 1,2 分片的备份。而框比较粗的就是真正的分片。

集成分词器

  • 下载 elasticsearch-analysis-ik-5.6.10 ,注意版本与 es 版本保持一致。(下载地址
  • 下载解压出来的所有文件,粘贴到新建的一个目录下,ik-analyzer 文件夹下(这个是新建的)

image-20200512145153364

这里提供两种分词策略:

ik-smart 为最少切分

image-20200512145419567

测试结果:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
{
"tokens": [
{
"token": "我",
"start_offset": 0,
"end_offset": 1,
"type": "CN_CHAR",
"position": 0
},
{
"token": "是",
"start_offset": 1,
"end_offset": 2,
"type": "CN_CHAR",
"position": 1
},
{
"token": "河北",
"start_offset": 2,
"end_offset": 4,
"type": "CN_WORD",
"position": 2
},
{
"token": "大学",
"start_offset": 4,
"end_offset": 6,
"type": "CN_WORD",
"position": 3
},
{
"token": "青年",
"start_offset": 6,
"end_offset": 8,
"type": "CN_WORD",
"position": 4
}
]
}

ik-max-word 为最精细切分

image-20200512145534680

结果略过,会尽可能切分组合成新词

新建索引库

  以后我们创建索引库就可以这样指定分词器进行创建:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
{
"mappings":{
"hello":{
"properties":{
"id":{
"type":"long",
"store":true
},
"title":{
"type":"text",
"store":true,
"analyzer":"ik_smart"
},
"content":{
"type":"text",
"store":true,
"analyzer":"ik_smart"
}
}
}
}
}

集群配置

  ES 的集群配置还是比较简单的,在 config 下的 elasticsearch.yml 进行修改:

master节点配置

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
#集群名称:保证一个集群的都是一样的
cluster.name: my-elasticsearch
#节点名称:必须不一样,主节点就可以叫 master,从机就可以交 slave
node.name: master
#节点是否可以成为 master,默认是 true,也就是不写的话默认每个机器都可以是 master
node.master: true
#节点是否可以保存数据,默认开启,master一般就关了只负责维护集群
node.data: true
#必须为本机ip地址
network.host: 127.0.0.1
#服务端口号,在同一机器下必须不一样
http.port: 9200
#集群间通信的端口号,在同一机器下必须不一样
transport.tcp.port: 9300
#设置集群自动发现机器ip集合
discovery.zen.ping.unicast.hosts: ["127.0.0.1:9300","127.0.0.1:9301","127.0.0.1:902"]

slave节点配置

1
2
3
4
5
6
7
8
9
10
11
12
13
#集群名称:保证唯一
cluster.name: my-elasticsearch
#节点名称:必须不一样
node.name: slave1
node.master: false
#必须为本机ip地址
network.host: 127.0.0.1
#服务端口号,在同一机器下必须不一样
http.port: 9201
#集群间通信的端口号,在同一机器下必须不一样
transport.tcp.port: 9301
#设置集群自动发现机器ip集合
discovery.zen.ping.unicast.hosts: ["127.0.0.1:9300","127.0.0.1:9301","127.0.0.1:9302"]

完整配置

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
在生产环境下,如果不修改elasticsearch节点的角色信息,在高数据量,高并发的场景下集群容易出现脑裂等问题。
默认情况下,elasticsearch集群中每个节点都有成为主节点的资格,也都存储数据,还可以提供查询服务。
这些功能是由两个属性控制的。
node.master和node.data
默认情况下这两个属性的值都是true。
下面详细介绍一下这两个属性的含义以及不同组合可以达到的效果。
node.master:这个属性表示节点是否具有成为主节点的资格
注意:此属性的值为true,并不意味着这个节点就是主节点。
因为真正的主节点,是由多个具有主节点资格的节点进行选举产生的。
所以,这个属性只是代表这个节点是不是具有主节点选举资格。
node.data:这个属性表示节点是否存储数据。
这两个属性可以有四种组合:
第一种:这种组合表示这个节点即有成为主节点的资格,又存储数据,
这个时候如果某个节点被选举成为了真正的主节点,那么他还要存储数据,这样对于这个节点的压力就比较大了。
elasticsearch默认每个节点都是这样的配置,在测试环境下这样做没问题。实际工作中建议不要这样设置,
这样相当于主节点和数据节点的角色混合到一块了。
node.master: true
node.data: true
第二种:这种组合表示这个节点没有成为主节点的资格,也就不参与选举,只会存储数据。
这个节点我们称为data(数据)节点。在集群中需要单独设置几个这样的节点负责存储数据。后期提供存储和查询服务。
node.master: false
node.data: true
第三种:这种组合表示这个节点不会存储数据,有成为主节点的资格,可以参与选举,有可能成为真正的主节点。
这个节点我们称为master节点
node.master: true
node.data: false
第四种:这种组合表示这个节点即不会成为主节点,也不会存储数据,
这个节点的意义是作为一个client(客户端)节点,主要是针对海量请求的时候可以进行负载均衡。
node.master: false
node.data: false
默认情况下,每个节点都有成为主节点的资格,也会存储数据,还会处理客户端的请求。
在一个生产集群中我们可以对这些节点的职责进行划分。
建议集群中设置3台以上的节点作为master节点【node.master: true node.data: false
这些节点只负责成为主节点,维护整个集群的状态。
再根据数据量设置一批data节点【node.master: false node.data: true
这些节点只负责存储数据,后期提供建立索引和查询索引的服务,这样的话如果用户请求比较频繁,这些节点的压力也会比较大
所以在集群中建议再设置一批client节点【node.master: false node.data: false
这些节点只负责处理用户请求,实现请求转发,负载均衡等功能。
master节点:普通服务器即可(CPU 内存 消耗一般)
data节点:主要消耗磁盘,内存
client节点:普通服务器即可(如果要进行分组聚合操作的话,建议这个节点内存也分配多一点)

配置效果

image-20200512150421529

文章作者: Archiver
文章链接: https://www.kaiming66.com/2020/05/12/ElasticSearch/ElasticSearch%E5%85%A5%E9%97%A8/
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 Archiver`s Blog
打赏
  • 微信
  • 支付寶

评论