专利信息检索技术

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

不 同部分制定相应 的特征选择策略。同时 , 对基 于概念 的专 利信息检索技 术中的两个关键 问题 即查询扩展和专利文献相似度计算方法进行 了阐述。
关键词 : 专利 ; 信息检索 ; 查询扩展 ; 相似度计算
中图 分 类 号 :P 9 . T 3 11
d i1 . 9 9 j i n 10 o :0 3 6 /.s . 0 7—1 8 . 0 0 0 . 1 s 35 2 1 . 0 2 4
率 的 目的。
仅考 虑到词语 的 外在 字 符表 现 形式 , 没 有 涉及 而
其表 达的关 键概 念 信 息 。也 就 是说 , 在 一个 文 仅 档 含有 与 查 询 完 全 相 同 的词 汇 时 , 们 才 相 关 。 它 关键词 匹配检 索模 型 往往 基 于上 述 基 本假 设 , 这
B sdMa hn ) 。然 而 , 人 们 使 用 的 自然 ae t ig c 在
语言中, 随着时 间 、 地域 、 领域等 因素 的改变 , 同一
概 念可 以用 不 同的语 言表 现形式来 表达 。 因此 即
使对 于 同一 概念 的检索 , 同的用 户 可 能使 用不 不 同的关 键词来 查询 。 由于客观存在 的对检 索需求

要 : 利信息检索作 为快速获取专 利信息 的主要 手段 , 专 在专利信 息应用过程 中发 挥重要作
用。本文在分析当前专利信息检索涉及 的关键技术 的基础上 , 进一步 阐述了基于概念 的专利信
息检索技术。本 文以对专利文献的内wk.baidu.com分析为基础 , 按照文献 中各部分 的功能进行组 织表示 , 对
种相关 性匹 配实 际 上是 基 于表 层 的 匹配 ( ufc Sr e a

本文在 分析 当前专利 信息检 索涉及 的关键 技
术 的基 础上 , 进一 步 阐述 了基 于概 念 的专 利 信息 检索技 术思 想 。包括 专 利 文本 的信 息抽 取技 术 ,
关键词 扩展技 术和基 于概念 的专利 文献相 似度计 算等。
作者简介 : 白宇 (9 2一 , , 18 ) 男 内蒙古 赤峰人 , 助教 , 主要研 究方
向: 息检索 、 管理 , 信 知识 E—ma :lxabi ao.O 。 i npioa@yho CI l N
此 , 汇不匹 配将 导 致 系统 的查 全率 降 低 。词 语 词 是 概念 的外 在 表现 形式 , 一个 概 念 可 以使用 不 同 的词 语来 表达 , 因此 , 概念作 为语言处 理 的基 本 把
单位 将有利 于解决 当前检 索系 统 中由于词不 匹配 导致 的查全 率 低 问题 。另 一方 面 , 以关键 字 或 关
键字 的组合作 为检 索人 口的方式 使使用 者难 以准
确全 面地表 达 检 索 意 图 J 。为 此 一 些 学 者 提 出
存在查全率和查准率低的问题。其原 因在于, 大
多 数的专利 检索 系统在全 文检索 功能上仍 采用基
于词 匹配 的方 法 。这种关键 词机 械式匹 配的方式
了基 于概念 的专利信 息检索技 术 , 键在 于 , 其关 通 过计 算用 户查 询与专 利文献库 中的专 利文献 之间 概 念距离 , 实现 专利 文 献 与用 户 查 询 的相似 相 关 性排 序 , 而达 到提 高 检 索结 果 的查 全 率 和查 准 从
21年8 0 0 月 第2 卷第4 7 期
沈 阳 航 空工 业 学 院 学 报 Ju a o hnagIst eo A r at a E g er g or l f eyn tu f eo u cl ni e n n S n it n i n i
A g2 1 u .0 0 V 12 N . o.7 o4
收 稿 日期 :0 0— 5—0 21 0 3
1 专 利信 息 检 索 系统 现 状
专利信 息 的计算 机 检 索起 始 的年 代 比较 晚 。 2 0世纪 7 代 ,ewn 公 司将 专利 信 息做 成 了 0年 Dret 可在计算机上读取 的数据 , 这就是专 利信息计算 机
检索 的雏形 。但 由于数据量 的庞大 , 的速度 检索
文 章 编 号 :0 7 3 5 2 1 )4— 0 0— 10 —18 (0 0 0 0 5 0 4
专利 信 息检 索技 术
白 字 王 裴岩 蔡 东风 董燕举
( . 阳航空航 天大学 知识工程研究中心 , 1沈 辽宁 沈 阳 10 3 2 沈阳航空航天大学 计算机学 院, 1 16;. 辽宁 沈 阳 10 3 ) 1 16
的表 达差异 , 文本 检 索过 程 中使 用 的 关键 词 匹 在
配方 法 , 常 因匹 配失 败 而 得不 到 检索 结 果 。例 经 如 当用 户查 询 “ 算 机” “ 计 和 电脑 ” 个 词 的时候 两 其实是 在查询 同一件 事情 。而基 于表层 的匹配不 可能检 索 到 同一 概 念 的多 种 语 言 表 达 形 式 。 因
文献 标 识 码 : A
专利 文献 是集 技 术情 报 、 律情 报 和 经 济情 法 报于一体 的实用 知 识 载体 , 极 为重 要 的科 技 信 是
息来源 , 长期 以来 一 直 受 到研 发 者或 企 业 经 营者 的重视 … 。为加快 专 利信 息化 建 设 , 进专 利 信 促
息 的传播 和有效 利 用 , 国家 知 识产 权 局制 定 全 国 专利 工作计 划 。其 目标之 一在 于面 向全社 会对 专 利信 息 资源 的需 求 , 提供 为经 济 、 科技 、 业 部 门 产 制定产 业政策 和科 技 发 展 战略 、 为企 事 业 单位 技 术创新 、 为行政 和 司法 部 门执 法 进行 专 利 信 息检 索 的专利 信息检 索 系统 。 目前 , 全文 检索 系 统越 来 越广 泛 地 应用 于 专 利信息检 索领域 , 然而 , 现有 的专 利检索 系统普遍
相关文档
最新文档