高维索引的并行化方案设计与实现

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
高维索引系统在实时性方面仍有较大改进空间,也可 能存在尚未发现的问题
本学期主要注重于稳定性方面的增强,实时性方面的优化工作 相对偏少
Hybrid Spill Tree有很大的参数调优空间,现有代码、通信机 制的优化也可进一步提高响应速度
百万级应用距离“亿”级别的应用尚有较大距离,需要更大的 数据集和更多的机器进行测试,以发现新的问题
引入监控节点用于协调索引块的更新、去重、补全等工 作,主进程与子进程间的相互监控,减少内存泄露
经测试,能对抗常规出现的异常情况,诸如各类节点宕 机、进程异常退出、索引检测出现异常等;
8
2021/3/7
查询模块方案特点
良好的可伸缩性和可扩展性
支持动态增删各类节点机器,系统内部自动维护各类节 点的信息和集群信息【包括使用提供的外部命令进行节 点变动,和异常因素导致的机器宕机等】
3
完成情况
2021/3/7
设计并完成基于Map Reduce框架的高维索引并 行创建模块
设计并完成基于MPI通信机制的高维索引并行查询 模块,并与创建模块整合成一个相对稳定、高效、 完整、独立、通用的高维索引系统
协助提供了其他小组所需的全部接口
目前数据支撑量为:1000000张图像
4
设计方案
高维索引查询模块
2021/3/7
实时性要求极高,稳定性要求也很高
方案:Map Reduce框架无法满足实时要求,采 取MPI通信机制,需自行设计方案与消息体系,工 作量大
实验情况:
5台普通PC:2G内存,奔腾E5300双核CPU 1M 图像,120维特征 未进行Hybrid Spill Tree参数优化 批量查询相比单次查询耗时增幅小
2021/3/7
高维索引的并行化 方案设计与实现
高维索引小组 组长:林梓佳 组员:文海龙
1
2
目标回顾
2021/3/7
对外提供可移植性较强、扩展方便的高维索引系统;
针对海量数据索引需求,实现分布式高维索引机制;
提供高维索引机制的调用接口,方便上层调用,并 最终集成到LaSQL引擎中;
提供索引接口的使用文档【javadoc】
9来自百度文库
2021/3/7
查询模块方案特点
接口通用,配置方便,独立性强 独立系统,不依赖于底层存储和上层应用 接口通用,可随时封装成特定应用所需 配置方便,外部xml配置文件,提供多种可调参数
10
2021/3/7
总结
基本完成本学期的全部任务,按时完成计划 成果
独立设计和实现了一套相对稳定、高效、可靠、独立、通用的高 维索引系统,拥有完整的索引创建和查询功能
7
2021/3/7
查询模块方案特点
高度并行化,查询高效,精确度较高 两层次并行化:节点间的并行化,子进程间的并行化 高效的MPI通信机制 Hybrid Spill Tree的冗余查询与结果聚合提升了精确度
系统可靠、稳定
对等结构:动态中心节点,减少瓶颈
智能调度:根据节点可用内存大小、负载能力分配索引 块,减少OutOfMemory等异常
Hybrid Spill Tree的快速查询特点,以及方案的并行化 特点导致原则上对机器数量和数据量没有过多限制
自组织性、智能管理能力较强 监控节点的引入,实时监测索引更新情况,当前索引的 分配情况与使用情况等,并提供报告 站点间的注册、注销和信息同步机制 智能调度,索引块的分配、去重与补全 平衡节点的引入,分配查询主站点,负载软均衡
系统测试仅在小组内部和小组间进行,需进一步的系统化测试
11
2021/3/7
感谢各位老师的指导!
感谢衣国垒学长在环境配置方面提 供的强大支持!
感谢其他小组的配合与支持!
谢谢大家!预祝大家新年快乐~
素材和资料部分来自 网络,如有帮助请下载!
2021/3/7
5
高维索引创建模块
2021/3/7
稳定性要求极高,实时性要求不是很高 方案:代码重构,Map Reduce框架 实验情况:
5台普通PC:2G内存,奔腾E5300双核CPU 1M 图像,120维特征 耗时:~3小时(底层伪接口:MySQL)
实现情况:成熟框架,稳定性高
6
相关文档
最新文档