后端技术学习路线之搜索引擎
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
后端技术学习路线之搜索引擎
全文搜索引擎
全文搜索引擎是目前广泛应用的主流搜索引擎。它的工作原理是计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。
结构化数据与非结构化数据
像数据库表这种的数据是结构化数据;而对于像HTML、XML、文档这样不定长度且无固定格式的数据我们称之为非结构化数据。非结构化数据也称为全文数据,对非结构化数据的搜索可以用全文检索的方式,
目前两大主流的全文搜索引擎「Solr」和「Elasticsearch」都是基于Lucene 建立。搜索引擎需要学习的内容:
•搜索引擎原理,搜索引擎利用倒排索引技术来实现对全文数据的高效检索。
•Lucene,Apache Lucene 是一个开源的全文搜索引擎工具包。
•Elasticsearch 原理与使用
•Solr 原理与使用