1200字范文 > 全文搜索引擎ElasticSearch

全文搜索引擎ElasticSearch

时间：2019-03-14 00:32:48

相关推荐

全文搜索引擎ElasticSearch

什么是ElasticSearch?

Elasticsearch和Redis, Mysql一样,不仅服务于Java语言,其它语言也可以使用, 它的功能也类似一个数据库,能高效的从大量数据中搜索匹配指定关键字的内容, 它将数据保存在硬盘中

ES底层技术

ES使用了java的一套名为Lucene的API, 这个API提供了全文搜索引擎核心操作的接口, 相当于搜索引擎的核心支持,ES是在Lucene的基础上进行了完善,实现了开箱即用的搜索引擎软件, 市面上和ES功能类似的软件有Solr/MongoDB

为什么需要Elasticsearch?

数据库进行模糊查询效率严重低下

所有关系型数据库都有这个缺点(mysql\mariaDB\oracle\DB2等)

在执行类似下面模糊查询时

select * from spu where spu_name like '%鼠标%'

测试证明一张千万级别的数据表进行模糊查询需要20秒以上

原因是模糊查询时因为'%鼠标%',使用的是前模糊条件,使用索引必须明确前面的内容是什么,前模糊查询是不能使用索引的,只能是全表的逐行搜索,所以效率非常低

当前互联网项目要求"三高"的需求下,这样的效率肯定不能接受

Elasticsearch主要是为了解决数据库模糊查询性能低下问题的

ES进行优化之后,从同样数据量的ES中查询相同条件数据,效率能够提高100倍以上

ES运行原理

要想使用ES提高模糊查询效率

首先要将数据库中的数据复制到ES中

在新增数据到ES的过程中,ES可以对指定的列进行分词索引保存在索引库中,形成倒排索引结构

ES启动

双击bin\elasticsearch.bat

验证ES的运行状态

浏览器输入地址:localhost:9200看到如下内容即可

ES基本使用

操作ES是对ES发送请求

我们创建一个子项目search,在这个子项目中创建一个专门发送各种类型请求的文件来操作ES

创建search项目也要父子相认

### 三个#是注释,也是分隔符,每个请求编写前必须使用###与上个请求分隔GET http://localhost:9200### 测试ES的分词功能,运行分词,查看分词结果POST http://localhost:9200/_analyzeContent-Type: application/json{"text": "my name is hanmeimei","analyzer": "standard"}

analyze:分析

analyzer:分析者(分词器)

standard是ES默认的分词器,"analyzer": "standard"是可以省略的

standard这个分词器只能对英文等西文字符(有空格的),进行正确分词

但是中文分词不能按空格分,按这个分词器分词,每个字都会形成分词,这样的结果不能满足我们日常的搜索需要

解决中文不能正确分词的问题

实际上要引入一个中文常见词语的词库,分词时按照词库中的词语分词即可

我们可以使用免费的中文分词器词库插件IK来实现中文分词效果

我们安装的ik实际上不只一个分词器

实际上除了ik_smart之外还有ik_max_word

ik_smart

优点:特征是粗略快速的将文字进行分词,占用空间小,查询速度快

缺点:分词的颗粒度大,可能跳过一些重要分词,导致查询结果不全面,查全率低

ik_max_word

优点:特征是详细的文字片段进行分词,查询时查全率高,不容易遗漏数据

缺点:因为分词太过详细,导致有一些无用分词,占用空间较大,查询速度慢

使用ES操作数据

ES是一个数据库性质的软件

可以执行增删改查操作,只是他操作数据不使用sql,数据的结构和关系型数据库也不同

我们先了解一下ES保存数据的结构

ES启动后,ES服务可以创建多个index(索引),index可以理解为数据库中表的概念

一个index可以创建多个保存数据的document(文档),一个document理解为数据库中的一行数据

一个document中可以保存多个属性和属性值,对应数据库中的字段(列)和字段值

SpringBoot 操作 Elasticsearch

原生状态下,我们使用JDBC连接数据库,因为代码过于繁琐,所以改为使用Mybatis框架

在ES的原生状态下,我们java代码需要使用socket访问ES,但是也是过于繁琐,我们可以使用SpringData框架简化

Spring Data

Spring Data是Spring提供的一套连接各种第三方数据源的框架集

我们需要使用的是其中连接ES的Spring Data Elasticseatrch

官方网站:Spring Data

<dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-data-elasticsearch</artifactId></dependency>

application.properties添加配置

# 配置ES所在的ip地址和端口号spring.elasticsearch.rest.uris=http://localhost:9200# 设置日志门槛,用于显示ES运行信息.tedu.search=debug# SpringDataElasticsearch框架中有一个专门的类来输出运行信息,也要设置为.elasticsearch.client.RestClient=debug

创建和ES关联的实体类

和数据库一样

我们操作ES时也需要一个类似实体类的数据类,作为操作ES的数据载体

search项目创建entity包

在包中创建Item(商品)类

@Data@Accessors(chain = true) // 支持链式set赋值@AllArgsConstructor // 自动生成当前类的全参构造方法@NoArgsConstructor// 自动生成当前类的无参构造方法// @Document注解标记表示当前类是对应ES框架的一个实体类// indexName来指定对应ES中的索引名称,运行时,SpringDataES框架会自动创建这个索引@Document(indexName = "items")public class Item implements Serializable {// SpringData标记当前字段为主键的注解@Idprivate Long id;// SpringData 标记title字段支持分词,并定义它的分词器@Field(type = FieldType.Text,analyzer = "ik_max_word",searchAnalyzer = "ik_max_word")private String title;// 我们设计分类名称是不需要分词的@Field(type = FieldType.Keyword)private String category;@Field(type = FieldType.Keyword)private String brand;@Field(type = FieldType.Double)private Double price;// imgPath是图片路径,它不会称为搜索条件,所以可以不创建索引,节省一些空间// 设置index=false,就是不会设置索引// 但是注意,不设置索引并不是不保存这个数据,ES会保存这个数据@Field(type = FieldType.Keyword,index = false)private String imgPath;}

创建操作ES的持久层

SpringData框架对持久层的命名规则

持久层规范名称为repository(仓库),创建这个包,包中创建接口ItemRepository

// Repository是Spring家族框架对持久层的命名@Repositorypublic interface ItemRepository extends ElasticsearchRepository<Item,Long> {// ItemRepository接口要继承SpringData提供的ElasticsearchRepository父接口// 一旦继承,当前接口就可以编写连接ES进行操作的代码了,继承了这个父接口之后// 会自动生成对Item数据的基本增删改查方法,无需我们自己编写// ElasticsearchRepository<[关联的实体类的名称],[实体类主键的类型]>}

测试ES

创建test测试包

创建测试类

编写测试

// 必须添加下面的注解,否则无法运行@SpringBootTestpublic class SpringDataTest {@Autowiredprivate ItemRepository itemRepository;// 执行单增@Testvoid addOne(){// 实例化一个item对象并赋值Item item=new Item().setId(1L).setTitle("罗技激光无线游戏鼠标").setCategory("鼠标").setBrand("罗技").setPrice(188.0).setImgPath("/1.jpg");// 利用SpringData提供的新增方法,完成Item新增到ESitemRepository.save(item);System.out.println("ok");}// 单查@Testvoid getOne(){// SpringDataElasticsearch提供了按id查询数据的方法// Optional是一个容器,但是只能存放一个元素,Springdata返回包含查询结果的Optional对象// 可以将Optional理解为一个只能保存一个元素的ListOptional<Item> optional=itemRepository.findById(1L);Item item=optional.get();System.out.println(item);}// 批量增@Testvoid addList(){// 实例化一个List对象,用于保存要新增到ES中对象List<Item> list=new ArrayList<>();list.add(new Item(2L,"罗技激光有线办公鼠标","鼠标","罗技",98.0,"/2.jpg"));list.add(new Item(3L,"雷蛇机械无线游戏键盘","键盘","雷蛇",278.0,"/3.jpg"));list.add(new Item(4L,"微软有线静音办公鼠标","鼠标","微软",197.0,"/4.jpg"));list.add(new Item(5L,"罗技机械有线背光键盘","键盘","罗技",226.0,"/5.jpg"));itemRepository.saveAll(list);System.out.println("OK list");}// 全查@Testvoid getAll(){// SpringData提供的全查ES中对应实体类的所有数据的方法Iterable<Item> items=itemRepository.findAll();for(Item item : items){System.out.println(item);}System.out.println("--------------------------------");items.forEach(item -> System.out.println(item));}}

SpringData自定义查询

SpringData框架提供的基本增删改查方法并不能完全满足我们的业务需要

如果是针对当前Es数据,进行个性化的自定义查询,那还是需要自己编写查询代码

就像我们要实现根据关键词查询商品信息一样,完成类似数据库中的模糊查询

// SpringData实现自定义查询// 我们要编写遵循SpringData给定格式的方法名// SpringData会根据我们编写的方法名自动完成数据操作// query(查询):表示当前方法是一个查询方法,类似sql语句中的select// Item/Items:确定要查询哪一个实体类,不带s的是单个对象,带s是集合// By(通过/根据):标识开始设置查询条件,类似sql语句中的where// Title:要查询的字段,可以根据查询条件修改为Item中的任何字段// Matches:执行查询的操作,Matches表示字符串的匹配,而且这个匹配是支持分词的,类似sql语句的like

单条件查询

我们查询需求为输出所有数据中title属性包含"游戏"这个分词的商品信息

在SpringData框架下,ItemRepository接口中实现更加简单

// 单条件查询@Testvoid queryOne(){// 查询ES中items索引里,title字段包含"游戏"分词的数据Iterable<Item> items=itemRepository.queryItemsByTitleMatches("游戏");items.forEach(item -> System.out.println(item));}

多条件查询

// 多条件查询// 多个条件之间要使用逻辑运算符and或or来分隔,表示多个条件间的逻辑关系// 我们如果要查询title包含某个关键字的同时指定品牌的查询// 多个参数时,SpringData会按照参数声明的顺序向需要参数的位置赋值,和参数名无关Iterable<Item> queryItemsByTitleMatchesAndBrandMatches(String title,String brand);

// 多条件查询@Testvoid queryTwo(){// 查询ES中items索引里,title字段包含"游戏"并且品牌是"罗技"的数据Iterable<Item> items=itemRepository.queryItemsByTitleMatchesAndBrandMatches("游戏","罗技");items.forEach(item -> System.out.println(item));}

底层运行的请求

### 多字段搜索POST http://localhost:9200/items/_searchContent-Type: application/json{"query": {"bool": {"must": [{ "match": { "title": "游戏"}},{ "match": { "brand": "罗技"}}]}}}

当查询条件关系为And时,查询语句关键字为must

当查询条件关系为Or时,查询语句关键字为should

排序查询

默认情况下从ES中查询获得的数据排序依据是ES查询得出的相关性分数(score)

但是如果想改变这个排序就需要在查询方法上添加新的关键字

在ItemRepository接口添加具备排序功能的查询方法

// 排序查询@Testvoid queryOrder(){Iterable<Item> items=itemRepository.queryItemsByTitleMatchesOrBrandMatchesOrderByPriceDesc("游戏","罗技");items.forEach(item -> System.out.println(item));}

底层运行的代码

### 多字段搜索POST http://localhost:9200/items/_searchContent-Type: application/json{"query": {"bool": {"should": [{ "match": { "title": "游戏"}},{ "match": { "brand": "罗技"}}]}},"sort":[{"price":"desc"}]}

分页查询

SpringData框架支持完成分页查询

需要在ItemRepository接口中修改方法的参数和返回值就可以实现

// 分页查询// 返回值类型修改为Page类型,这个类型中包含了查询到的当前页数据和本次查询的相关分页信息// 分页信息指:当前页码,总页数,总条数,每页条数,是否有上一页,是否有下一页等// 方法参数要添加Pageable,在所有的参数后再添加一个新的参数类型 PageablePage<Item> queryItemsByTitleMatchesOrBrandMatchesOrderByPriceDesc(String title, String brand, Pageable pageable);

// 分页查询@Testvoid queryPage(){int page=2;//要查询的页码int pageSize=2; //每页的数据条数Page<Item> pages=itemRepository.queryItemsByTitleMatchesOrBrandMatchesOrderByPriceDesc("游戏","罗技", PageRequest.of(page-1,pageSize));pages.forEach(item -> System.out.println(item));// pages对象的分页信息输出System.out.println("总页数:"+pages.getTotalPages());System.out.println("总条数:"+pages.getTotalElements());System.out.println("当前页码:"+(pages.getNumber()+1));System.out.println("每页条数:"+pages.getSize());System.out.println("是否为首页:"+pages.isFirst());System.out.println("是否为末页:"+pages.isLast());}

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。