全文检索设计、架构介绍

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

高可用和高性能
系统采用大量的技术来实现搜索和索引写入的高性能: 采用闪存卡存储索引文件 由于普通磁盘磁头寻址时间过长,会造成搜索的延迟,所以系统索引文件采用 ssd卡进行存储,加快搜索速度。 索引文件的块压缩 系统会定时对索引文件进行压缩存储和块大小优化,使数据更聚合紧致,减少 数据块大小,加快搜索的速度。 索引文件分片 由于单个索引文件过大时,对搜索速度会有所影响,为了加快搜索的速度,系 统利用策略规则,将索引文件进行分片,分成多个小的索引文件,以加快搜索速 度。 高可用技术: 系统的索引文件采用多个副本的方式进行存储,以此来提高系统的容错性,实现 高可用。当个某个节点某个分片损坏或丢失时可以从副本中恢复。另外这样做也可以 提高系统的查询效率,系统可根据当前的搜索请求自动的进行负载均衡,访问不同机 器上的不同副本。 系统有用多种监控技术,可对系统的实时状态进行有效的反馈,并且可以产生告 警信息提示系统管理人员。
. 丰富的查询语法
支持布尔型检索(AND,OR, NOT,XOR) 和概率型检索组合; 支持多字段检索; 支持通配符检索,如:xap*; 支持别名检索,如:C#自动转换成C sharpFra Baidu bibliotek 支持拼写纠错,如:hella会纠错为hello; 支持同义词搜索;
. 丰富的结果干预
支持对搜索结果排序进行干预; 支持对搜索敏感词进行过滤; 支持对搜索结果进行人工干预,支持推荐内容;
Query String 语法分析器 postings 读取分词 Query 索引检索器 相似度计算 分词算法
打分算法 索引存储
过滤、排序
权重计算
过滤器
查询结果
筛选器
模块功能介绍—系统管理模块
运营管理系统 词典管理 数据采集管理 系统支撑系统 Web Portal
展示
服务器维护
策略设置
统计代理服务
数据入库
统计数 据库
数据上报
基础服务层
数据采集系统
全文检索系统
系统优势
多样化的数据:
系统支持不同的数据来源和种类繁多的数据格式,多样的采集方式和分析方法。 多种采集策略相结合满足用户不同的需求,适用不同的场景: 通知式异步消息队列方式; 网络爬虫方式; FTP采集; 邮件采集; 网络文件采集等多种采集策略相结合; 强大的文档解析能力 纯文本,xml文件,html文件,MS office文件,PDF文件,音频,视频文件,图片, 多媒体文件; 超强短信,彩信,邮件解析能力; 非加密的压缩文件:zip,tar,rar,tar.gz,jar,bzip等;
息队列中的消息,并从
数据源存储系统中获取 源数据,解析文档,并 提取需要建立检索索引
更新索引
的元数据;
把提取的元数据发给全 文检索系统更新索引;
全文检索系统
模块功能介绍—数据处理模块
输入文档
提取检索字段
分词器 docment
过滤器 去停词库 敏感词库
存储分词结果
索引生成器
索引存储
模块功能介绍—信息检索模块
智能化的检索服务:
系统在全文检索过程中采用相关智能技术以达到迅速、准确、全面定位目标 信息。例如采用相关度分析技术,使相关度较高的结果排在结果列表的前面,相 关度较低的结果排在后面,并屏蔽无用和错误的信息;构造强大的语义规则库, 使系统能够正确地判断与检索词相关的同义词、近似词,帮助用户判断结果的相 关度,并进行进一步的查询;支持完善的信息分类体系,对检索结果自动分类或 者信息聚类;提供智能化的概念扩展查询等。通过这些技术,能够满足大多数智 能化搜索需求。
总体架构
邮件文件 网盘文件 数据库 网站网页 其他存 储系统
分布式架构 模块化设计
数据可扩展
智能提示 拼音搜索 多字段组合搜索 词库管理 文档解析 文本数据提取 数据统计分析
服务能力可伸缩 可运营 高安全 高可用
运营管理
高亮显示
渐进式检索 模糊检索 同义词搜索 分词算法 索引压缩、合并 分布式索引存储 推荐管理 结果干预管理 系统支撑
模块功能介绍—数据采集模块
应用系统
数据更新通知消息
应用系统
数据更新通知消息
支持两种模式: 1.主动抓取模式(网络爬虫)
2.通知式异步消息队列模式
异步消息队列接受应用 层的数据更新通知消息;
数据采集服务
消息队列
获取消息 获取消息
消息处理器
更新索引
消息处理器
读取源数据
数据 源存 储系 统
消息处理器获取异步消
相关文档
最新文档