铁路物资目录全文检索技术研究
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
合 系统 ,对用 户表 现为物 资分类 、编码条 目、条 目
2 全 文检 索对 物 资管 理 工 作 的作 用
21 全 文检 索概 述 .
属 性 、编码模板 等具 体 内容 。物 资 目录的应用 范 围 主要 集 中在 铁路 企 业 的生 产 、财 务 、物 资管 理 部
全 文检索 是将文 件 中所 有文 本与 检索项 匹 配的 信 息检 索方法 。全文 检索 系统是 按照 全文检 索理 论 建 立起来 的用 于提供 全文 检索 服务 的软件 系统 , 目 前 已在 We 索 引擎 、电子 图书 馆 系 统 、企 业 级 b搜 检 索 系统 、桌面搜索 方 面有大 量成熟 的应用 ,其核 心技术 为分词 、索 引 、检 索和 检索结 果排 名 。 22 全 文检 索对 物资 目录维 护工 作的作 用 . 物资 目录全 文检 索 技术 可在 目录 申请 、审 核 、 维护 阶段 给 出重 复或 高 相似 度重 复 数 据 申请 提示 ,
・
避免重复申请 ,有效减少申请条 目总量。在物资 目 录维 护过 程 中 ,可辅 助 发现 现有 条 目的重 复 情 况 ,
处 理历 史性 的重复信 息 ,包括 比较 复杂 的常规算 法
涛 ,T 程 师
38 ・
铁 道 技 术 监 督
难 以发现 的复杂 信息 。如 “ 携计 算机 ,C U:酷 便 P 睿 25G,内存 :2G 与 “ 记 本 电 脑 ,2G 内 . ” 笔 存 ,i处 理 器 ” 5 ,检 索算 法要 给 出近乎 相 等 的相 似 度评价 。涉及 重点 物资 时 ,系统 需要 给 出 “ 笔记 本 电脑 ,T i Pd4 0 hn a 2 ”数 据与 上述 数 据 的接 近相 等 k
实施应 用 。
2 1 年 1 月 ,物资 目录初步编制完成时,总 00 2
条 目为 2 8万条 ,2 1
条 目为 4 0万条 。在发 布前 的 8 个月 中 ,申请条 目超
收 稿 日期 :2 1 - 2 2 02 0 — 8 作 者 简 介 :刘
档 。 由于物资 目录中存在 大量 专业词 汇 ,因此用类
似 词典 的定义 语言形 式予 以表 述 。为确定其 语言模
cn i= s普 i o
。
按照 管理要 求 ,物资 目录全文 检索 结果 不允许 存在遗漏 ,即从理论上讲查全率应 为 1 。在综合考虑 技术 实现 难度 、用户体 验 、响应 时间等 因素 的前提 下 ,参照 相关开 源搜 索引擎 的指标 设置 ,最终 设定 申请 用 户 的查 准率 指标 为 0 ,查 全 率指 标为 0 5 . 3 .。 7 维护用 户 的查准率指标 为 0 5 . ,查全 率指标 为 0 5 0 .。 9 将上 述指 标定义 为算法 的基 础指标 ,在 此基 础上从
据 的修正 、名词 术语 的标准 化 、分类及 模版 的归 并 调 整等大 量工作 。
l 铁 路 物 资 目录与 维 护 工 作概 述
铁路 物资 目录 ( 以下 简称 “ 物资 目录” 是将 铁 ) 路 生产 所用到 的物 资按照一 定 的规则进行 组织 ,并
对 每种物 资 的基 本屙 l 特征给 予说 明和编次 的综 生与
中图 分 类 号 :F 3 . G 5 .5 506 7: 344
文 献标 识 码 :B
文章 编 号 : 10 — 18(0 2 0 — 0 8 0 0 697 21 ) 503—4
0 引言
在铁 路物资 管理相 关信 息系统 中设计 并使用 全
过2 0万条 ,有效新 增 条 目达 到 1 2万条 ,月均 申请 超过 3万条 。虽 然物 资 目录的模板 自动 编码技 术 发
第4 0卷
Vo. 1 40
第 5期
No. 5
铁 道 技 术 监 督
IA I ' AL。 ON1/)  ̄ IgAY 0b I。 C 。 ( 1 。 Y 。 L 。 I
研 究 与 交 流
TL 1、 A 1 ) )(( M I NI 1 1 ( l¨II 、 、
需
。
() 4
图 1 物资 目录中文词汇的频率、排名关系
・
39 ・
研 究 与交 流
铁 路 物 资 目录令 文 检索 技 术 研 究
图 1 中各 中文词汇 的分 布接近齐 夫定 律 ( 图中
的斜线 ) 要求 ,可参考基于 自然语言模型的搜索算
法。
汉语词典中最大词长的确定以物资 目录的统计 数据为基础确定 。以 “ 物资名称”项为例,物资 目
择 f传播 。在铁路物资采购商务平台市场资讯信息组 生
织过程 中,结合 We b爬虫 (rw e) ca l 技术 ,在少量人 r
将索 引 文件全 部加载 入 内存 ,降低磁盘 I 销 。 O开 搜 索 引擎领 域 常用 的文 档特 异度 (pc cy 、 sei i ) i ft 详尽 性 (xasvv 、新颖 性 (oe y 等指标不适 ehuti ) it nvh )
门,应用过程包括物资的计划申请 、采购 、仓储 、 收发 、会计核算 等 环节 。物资 目录 的编码条 目是相
关 管理 过程 中物资 的唯一 l 生标识 。各铁 路企业 现使
用 的物 资 目录 (0 1 版) 21 年 ,通 过实 时 的全路 集 中
维 护机 制 ,在 各铁路 局相 关生产 环节及 信息 系统 中
录 中的物 资名 称长 度 为 14 ~ 2个汉 字 ,其 分 布 规律
见表 l 。
表 1 物 资 目录 中物 资 名称 长 度 分 布 情 况
名称长度
l 2 3
4
42 物资 目录全 文检 索算 法模型 . 物资 目录全 文检索算 法模 型包 括分词 、索 引构 建 、检索 、结果 排名 4个部 分 。分词 部分 采用基 于 词 典 的中文分词 方式 ,索 引采 用倒排 序索 引 ,结果 排 名采用 修 正 的临近度 排名 。算法 框 架部 分如 图 2
33 其他 指标 . 用 户 录入 关 键 词 时 应 同 步 看 到 前 5 O条 结 果 , 系统 响应 时 间不超 过 3 0m ,后 续 结果在 5s内显 0 s 示 完 毕 。索 引 文件 应 小 于 2 0M 字 节 ,便 于 用 户 0
化信息提取 , 实现信 息的聚类 、 分类功能 , 在信 息 传 递过程 中可实 现对专题信息 、文档的路 由 、过滤和选
分词 、同义词等方面采取系列措施改进指标 。
( 能 否自然语言模型的差异,最终判断检索算法模型 2 型与 直 接 参 考 搜 索 引 擎 模 型 , 按 照 语 言 学 家 )
G og if 出 的 齐 夫 定 律 (o (rq e c ) C 0 ereZp 提 1 f unv= 一 ・ g e
工干预的 前提下, 实现专题类信息的精确检索 , 实现 历史数据 、信 息的快照和趋势性分析。
3 物 资 目录 全 文检 索 的指 标 设 计
31 有效性 指标设 计 .
用于物资目录,在物资 目录全文检索系统中未采用, 仅在 物资管理其他 系统 的全文检索 中适度考虑 。
设计 过程 中定义 2个集 合 ,一 是检 索反馈 的条 目集 R s e ,二 是 目录 中与 该 检 索 相 关 的条 目子 集
所示 。
出现次数
20 2 4 3 9 53 7 5 7 59 0
6 8l 72
名称长度
7 8 9
l 0
现次数
4 4 370 3 5 O3 6 2 9 049
是维 护工 作强 度 很高 ,维 护人 员 必 须在 2d
内对 申请数 据进行 实质 性 响应 ;二 是 申请 数据 质量 不 高 ,涉及 错误 填写 、错误 归类 、信息 不完 整 、填 写 不规范 、字符错 用 、符号 错用 、数据 重复 等诸 多 问题 ,且很 多 问题只 能依靠 人工判 断 ,严重 影 响了 维 护T作 效率 的提升 ;三是 现行物 资 目录距 离行业 标 准还有 差距 ,需要 进行重 复数据 的清理 、错 误 数
条 目总 数 的 5% ,且 在 前 k个 条 目中 ,只允 许 有 0 2%的条 目与用户期 望无关 。 0
re l e a l 似 > % 05, 值 舳> . ( 5) ( 6) pe iin 似 ) % 08 rcs @k o 值 鲫 > .。
全文 检索技 术可 为铁路 物资相 关信息 系统 的数 据 中心构建 与信息共享提供实质性 的帮助 ,辅助构建 文档 、用户的分类模型定义 ,完成信息 的摘要 和结构
4 参 考 模 型 的 选 择
41 物资 目录全 文检 索算 法的语 言模型 .
Rl e。根 据 这 2个 集 合 ,设 置 查 全 率 (ea1 rcl )和查 准率 (rc in 个 有效性 指标 ,并定 义如 下 : peio )2 s
rcl ea = l , () 1
搜 索引擎 等技术 中有 大量 的成熟检 索模 型可 供 参 考 ,但搜索 引擎 的数据 通常 为 自然语 言 表述 的文
了适用于物资 目录应用维护需要的全文检索技术 ,定义了物资 目录特有的全文检索指标和算 法。通过对相关
技术的应用 ,有效提升了物资 目录维护工作效率 ,保 障了数据质量 ,为物资 目录在物资管理各环节的拓展 应
用 提 供 了技 术 基 础 。
关键词 :铁路物资 目录 ;信息系统 ;全文检索
挥 了巨大作用 ,但维护工作仍然存在一 些难点 。
一
文检索技术,可在物资 目录维护、组织过程资产管 理 、资讯 管理 系统 中提供 良好 的用 户体验 ,提 高_ 丁 作效 率 。其 中 ,物资 目录全 文检索 技术是 相关应 用
的基 础 。物资 目录全 文检索 技术对 查全率 、查 准率 指标 要求 十分严 格 ,是系统设 计 的关键 和难点 。
的相似 度评 价 。 2 全 文检 索在物 资管理 信息 系统 中的拓展 . 3
为了量化结果排序算法在改善用户体验中的作 用 ,尽可能将有效的信息排在检索结果的前面。依 据物资 目录的特点,在式 ( ) 式 ( ) 5、 6 中,将 k 值 定义为检索结果条 目与检索项 的相似度大于 8% 0 的数 量 ,即在排 序后 的前 k个条 目中 ,要包含 有效
0 剖 l00 崧 嚣
一
褂
10 O
1 0
r a @ :【 elk R cl
: 盘
【l lJ te
() 3
l
l
1 0
1) ( 0
lO 0 1 0 1 0 0 0 o 0 00 o 0
排名( 对数坐标 )
p i@: ri es 。
铁 路 物 资 目录全 文 检 索技 术研 究
刘 涛
( 州铁路 局 物 资管 理 处 ,河 南 郑 州 4 0 5 郑 50 2)
摘
要 :在铁路物资 目录应用维护过程 中,重复数据判断极为困难 ,制约 了物资 目录应用维 护效率 和质
量的提升 ,对物资 目录的规范性也有很大影响。为解决这些问题 ,依据物资 目录特点和维护工作需要 ,研究
lg rn )验证 物资 目录 的分词结 果 ,对物 资 目录 o ak ) 中使 用 到 的 中文词 汇 的 出现 频 率 、排 名 进 行 了 统 计 ,结 果如 图 1 示 。 所
1 0 OOH 0
一
32 排名检 索有效 性指标 设计 . 在搜 索引擎 中 ,为 了返 回有效 序列 ,避 免用户 阅读 无关 的文档 ,通 常针对 检索返 回的前 k个 文档 R s 一1 e[ k,定义 前 k个结 果 的查 全 率 ( cl )和 1 r a@k e l 查 准率 (rcs n ) peio@k 指标 ,其定 义 如下 : i
2 全 文检 索对 物 资管 理 工 作 的作 用
21 全 文检 索概 述 .
属 性 、编码模板 等具 体 内容 。物 资 目录的应用 范 围 主要 集 中在 铁路 企 业 的生 产 、财 务 、物 资管 理 部
全 文检索 是将文 件 中所 有文 本与 检索项 匹 配的 信 息检 索方法 。全文 检索 系统是 按照 全文检 索理 论 建 立起来 的用 于提供 全文 检索 服务 的软件 系统 , 目 前 已在 We 索 引擎 、电子 图书 馆 系 统 、企 业 级 b搜 检 索 系统 、桌面搜索 方 面有大 量成熟 的应用 ,其核 心技术 为分词 、索 引 、检 索和 检索结 果排 名 。 22 全 文检 索对 物资 目录维 护工 作的作 用 . 物资 目录全 文检 索 技术 可在 目录 申请 、审 核 、 维护 阶段 给 出重 复或 高 相似 度重 复 数 据 申请 提示 ,
・
避免重复申请 ,有效减少申请条 目总量。在物资 目 录维 护过 程 中 ,可辅 助 发现 现有 条 目的重 复 情 况 ,
处 理历 史性 的重复信 息 ,包括 比较 复杂 的常规算 法
涛 ,T 程 师
38 ・
铁 道 技 术 监 督
难 以发现 的复杂 信息 。如 “ 携计 算机 ,C U:酷 便 P 睿 25G,内存 :2G 与 “ 记 本 电 脑 ,2G 内 . ” 笔 存 ,i处 理 器 ” 5 ,检 索算 法要 给 出近乎 相 等 的相 似 度评价 。涉及 重点 物资 时 ,系统 需要 给 出 “ 笔记 本 电脑 ,T i Pd4 0 hn a 2 ”数 据与 上述 数 据 的接 近相 等 k
实施应 用 。
2 1 年 1 月 ,物资 目录初步编制完成时,总 00 2
条 目为 2 8万条 ,2 1
条 目为 4 0万条 。在发 布前 的 8 个月 中 ,申请条 目超
收 稿 日期 :2 1 - 2 2 02 0 — 8 作 者 简 介 :刘
档 。 由于物资 目录中存在 大量 专业词 汇 ,因此用类
似 词典 的定义 语言形 式予 以表 述 。为确定其 语言模
cn i= s普 i o
。
按照 管理要 求 ,物资 目录全文 检索 结果 不允许 存在遗漏 ,即从理论上讲查全率应 为 1 。在综合考虑 技术 实现 难度 、用户体 验 、响应 时间等 因素 的前提 下 ,参照 相关开 源搜 索引擎 的指标 设置 ,最终 设定 申请 用 户 的查 准率 指标 为 0 ,查 全 率指 标为 0 5 . 3 .。 7 维护用 户 的查准率指标 为 0 5 . ,查全 率指标 为 0 5 0 .。 9 将上 述指 标定义 为算法 的基 础指标 ,在 此基 础上从
据 的修正 、名词 术语 的标准 化 、分类及 模版 的归 并 调 整等大 量工作 。
l 铁 路 物 资 目录与 维 护 工 作概 述
铁路 物资 目录 ( 以下 简称 “ 物资 目录” 是将 铁 ) 路 生产 所用到 的物 资按照一 定 的规则进行 组织 ,并
对 每种物 资 的基 本屙 l 特征给 予说 明和编次 的综 生与
中图 分 类 号 :F 3 . G 5 .5 506 7: 344
文 献标 识 码 :B
文章 编 号 : 10 — 18(0 2 0 — 0 8 0 0 697 21 ) 503—4
0 引言
在铁 路物资 管理相 关信 息系统 中设计 并使用 全
过2 0万条 ,有效新 增 条 目达 到 1 2万条 ,月均 申请 超过 3万条 。虽 然物 资 目录的模板 自动 编码技 术 发
第4 0卷
Vo. 1 40
第 5期
No. 5
铁 道 技 术 监 督
IA I ' AL。 ON1/)  ̄ IgAY 0b I。 C 。 ( 1 。 Y 。 L 。 I
研 究 与 交 流
TL 1、 A 1 ) )(( M I NI 1 1 ( l¨II 、 、
需
。
() 4
图 1 物资 目录中文词汇的频率、排名关系
・
39 ・
研 究 与交 流
铁 路 物 资 目录令 文 检索 技 术 研 究
图 1 中各 中文词汇 的分 布接近齐 夫定 律 ( 图中
的斜线 ) 要求 ,可参考基于 自然语言模型的搜索算
法。
汉语词典中最大词长的确定以物资 目录的统计 数据为基础确定 。以 “ 物资名称”项为例,物资 目
择 f传播 。在铁路物资采购商务平台市场资讯信息组 生
织过程 中,结合 We b爬虫 (rw e) ca l 技术 ,在少量人 r
将索 引 文件全 部加载 入 内存 ,降低磁盘 I 销 。 O开 搜 索 引擎领 域 常用 的文 档特 异度 (pc cy 、 sei i ) i ft 详尽 性 (xasvv 、新颖 性 (oe y 等指标不适 ehuti ) it nvh )
门,应用过程包括物资的计划申请 、采购 、仓储 、 收发 、会计核算 等 环节 。物资 目录 的编码条 目是相
关 管理 过程 中物资 的唯一 l 生标识 。各铁 路企业 现使
用 的物 资 目录 (0 1 版) 21 年 ,通 过实 时 的全路 集 中
维 护机 制 ,在 各铁路 局相 关生产 环节及 信息 系统 中
录 中的物 资名 称长 度 为 14 ~ 2个汉 字 ,其 分 布 规律
见表 l 。
表 1 物 资 目录 中物 资 名称 长 度 分 布 情 况
名称长度
l 2 3
4
42 物资 目录全 文检 索算 法模型 . 物资 目录全 文检索算 法模 型包 括分词 、索 引构 建 、检索 、结果 排名 4个部 分 。分词 部分 采用基 于 词 典 的中文分词 方式 ,索 引采 用倒排 序索 引 ,结果 排 名采用 修 正 的临近度 排名 。算法 框 架部 分如 图 2
33 其他 指标 . 用 户 录入 关 键 词 时 应 同 步 看 到 前 5 O条 结 果 , 系统 响应 时 间不超 过 3 0m ,后 续 结果在 5s内显 0 s 示 完 毕 。索 引 文件 应 小 于 2 0M 字 节 ,便 于 用 户 0
化信息提取 , 实现信 息的聚类 、 分类功能 , 在信 息 传 递过程 中可实 现对专题信息 、文档的路 由 、过滤和选
分词 、同义词等方面采取系列措施改进指标 。
( 能 否自然语言模型的差异,最终判断检索算法模型 2 型与 直 接 参 考 搜 索 引 擎 模 型 , 按 照 语 言 学 家 )
G og if 出 的 齐 夫 定 律 (o (rq e c ) C 0 ereZp 提 1 f unv= 一 ・ g e
工干预的 前提下, 实现专题类信息的精确检索 , 实现 历史数据 、信 息的快照和趋势性分析。
3 物 资 目录 全 文检 索 的指 标 设 计
31 有效性 指标设 计 .
用于物资目录,在物资 目录全文检索系统中未采用, 仅在 物资管理其他 系统 的全文检索 中适度考虑 。
设计 过程 中定义 2个集 合 ,一 是检 索反馈 的条 目集 R s e ,二 是 目录 中与 该 检 索 相 关 的条 目子 集
所示 。
出现次数
20 2 4 3 9 53 7 5 7 59 0
6 8l 72
名称长度
7 8 9
l 0
现次数
4 4 370 3 5 O3 6 2 9 049
是维 护工 作强 度 很高 ,维 护人 员 必 须在 2d
内对 申请数 据进行 实质 性 响应 ;二 是 申请 数据 质量 不 高 ,涉及 错误 填写 、错误 归类 、信息 不完 整 、填 写 不规范 、字符错 用 、符号 错用 、数据 重复 等诸 多 问题 ,且很 多 问题只 能依靠 人工判 断 ,严重 影 响了 维 护T作 效率 的提升 ;三是 现行物 资 目录距 离行业 标 准还有 差距 ,需要 进行重 复数据 的清理 、错 误 数
条 目总 数 的 5% ,且 在 前 k个 条 目中 ,只允 许 有 0 2%的条 目与用户期 望无关 。 0
re l e a l 似 > % 05, 值 舳> . ( 5) ( 6) pe iin 似 ) % 08 rcs @k o 值 鲫 > .。
全文 检索技 术可 为铁路 物资相 关信息 系统 的数 据 中心构建 与信息共享提供实质性 的帮助 ,辅助构建 文档 、用户的分类模型定义 ,完成信息 的摘要 和结构
4 参 考 模 型 的 选 择
41 物资 目录全 文检 索算 法的语 言模型 .
Rl e。根 据 这 2个 集 合 ,设 置 查 全 率 (ea1 rcl )和查 准率 (rc in 个 有效性 指标 ,并定 义如 下 : peio )2 s
rcl ea = l , () 1
搜 索引擎 等技术 中有 大量 的成熟检 索模 型可 供 参 考 ,但搜索 引擎 的数据 通常 为 自然语 言 表述 的文
了适用于物资 目录应用维护需要的全文检索技术 ,定义了物资 目录特有的全文检索指标和算 法。通过对相关
技术的应用 ,有效提升了物资 目录维护工作效率 ,保 障了数据质量 ,为物资 目录在物资管理各环节的拓展 应
用 提 供 了技 术 基 础 。
关键词 :铁路物资 目录 ;信息系统 ;全文检索
挥 了巨大作用 ,但维护工作仍然存在一 些难点 。
一
文检索技术,可在物资 目录维护、组织过程资产管 理 、资讯 管理 系统 中提供 良好 的用 户体验 ,提 高_ 丁 作效 率 。其 中 ,物资 目录全 文检索 技术是 相关应 用
的基 础 。物资 目录全 文检索 技术对 查全率 、查 准率 指标 要求 十分严 格 ,是系统设 计 的关键 和难点 。
的相似 度评 价 。 2 全 文检 索在物 资管理 信息 系统 中的拓展 . 3
为了量化结果排序算法在改善用户体验中的作 用 ,尽可能将有效的信息排在检索结果的前面。依 据物资 目录的特点,在式 ( ) 式 ( ) 5、 6 中,将 k 值 定义为检索结果条 目与检索项 的相似度大于 8% 0 的数 量 ,即在排 序后 的前 k个条 目中 ,要包含 有效
0 剖 l00 崧 嚣
一
褂
10 O
1 0
r a @ :【 elk R cl
: 盘
【l lJ te
() 3
l
l
1 0
1) ( 0
lO 0 1 0 1 0 0 0 o 0 00 o 0
排名( 对数坐标 )
p i@: ri es 。
铁 路 物 资 目录全 文 检 索技 术研 究
刘 涛
( 州铁路 局 物 资管 理 处 ,河 南 郑 州 4 0 5 郑 50 2)
摘
要 :在铁路物资 目录应用维护过程 中,重复数据判断极为困难 ,制约 了物资 目录应用维 护效率 和质
量的提升 ,对物资 目录的规范性也有很大影响。为解决这些问题 ,依据物资 目录特点和维护工作需要 ,研究
lg rn )验证 物资 目录 的分词结 果 ,对物 资 目录 o ak ) 中使 用 到 的 中文词 汇 的 出现 频 率 、排 名 进 行 了 统 计 ,结 果如 图 1 示 。 所
1 0 OOH 0
一
32 排名检 索有效 性指标 设计 . 在搜 索引擎 中 ,为 了返 回有效 序列 ,避 免用户 阅读 无关 的文档 ,通 常针对 检索返 回的前 k个 文档 R s 一1 e[ k,定义 前 k个结 果 的查 全 率 ( cl )和 1 r a@k e l 查 准率 (rcs n ) peio@k 指标 ,其定 义 如下 : i