基于多重索引模型的大规模词典近似匹配算法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于多重索引模型的大规模词典近似匹配算法
龚才春;黄玉兰;许洪波;白硕
【期刊名称】《计算机研究与发展》
【年(卷),期】2008(45)10
【摘要】编辑器的拼写校正、搜索引擎的查询纠正、光学字符识别的结果检查等领域都用到词典近似匹配算法.传统单索引模式很难在高性能的前提下保证高召回率.词典越大问题越严重.提出了大规模词典近似匹配的多重索引模型,首先将背景词典根据单词长度划分为若干子词典,对各子词典按照一定策略建立
unigram,bigram,trigram,quadgram中的一种或若干种索引,当查找用户模式P 的近似匹配时,根据模式P检索特定N-gram索引链,从而得到候选近似匹配集合C,对C中每一个单词W,计算P与W的编辑距离即可输出P的所有最终匹配结果R.实验表明,基于多重索引模型的词典近似匹配算法能够大幅度减少候选近似匹配结果的数量,从而提高词典近似匹配的速度.
【总页数】6页(P1776-1781)
【作者】龚才春;黄玉兰;许洪波;白硕
【作者单位】中国科学院计算技术研究所,北京,100190;北京市计算中心,北
京,100005;中国科学院计算技术研究所,北京,100190;中国科学院计算技术研究所,北京,100190;中国科学院计算技术研究所,北京,100190
【正文语种】中文
【中图分类】TP301.6
【相关文献】
1.基于词典的藏语分词系统中顺序、索引和二分查找算法的性能比较 [J], 完么才让;
2.基于多级相关图的大规模词典完美哈希函数构造算法 [J], 李海涛
3.一种基于多重索引的大规模数据快速查找算法 [J], 应俊;杨茂斌
4.基于词典的藏语分词系统中顺序、索引和二分查找算法的性能比较 [J], 完么才让
5.基于文件分时索引的大规模流量实时IoT终端识别算法 [J], 徐彭娜;彭行雄因版权原因,仅展示原文概要,查看原文内容请购买。

相关文档
最新文档