基于Web挖掘的化学物质信息提取应用研究
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
导航系统 ] 3 ,虽然 已有 了 以上诸 多 的的 Itre 化学 导航 nen t 系统 ,但其 目前 主要靠 人工来 搜集 资源[ 。如果 单纯 地采 1 ] 用人工方式 去 查找 和处 理信 息 ,会 对人 力 资源 大大 浪 费。
收 稿 日期 :2 1—90 ;修 订 日期 :2 1 —11 0 10 —5 0 11—6
21 0 2年 8月
计 算机 工程 与设计
COM P UTE ENGI R NEERI NG AND DES GN I
A ug 01 .2 2
第3卷 3
第 8期
Vo 3 No 8 L3 .
基于 We b挖掘的化学物质信息提取应用研 究
冯 硕 , 书琴+ 李 ,杨会君
( 西北农林 科技 大 学 信 息工程 学 院 ,陕西 杨 凌 7 2 0 ) 1 10
摘 要 :针对 多信息源 网站 中化学物质信息的获取与数据库的更新查询问题 ,运用 网络爬 虫技 术和 包装器方 法实现数据 的 抽取 ;采用 自定义 X ML文件 的方式,提 出了任务分割 、动 态更新检 查 、失败 重试机制 方法 ,实现 了动 态信 息 源网站 中化 学物质信 息的持 续、实时抽取 ,并进行异常处理和监控 。将抽取 的数 据运用正则表达 式和排序算 法进 行预 处理 并构建全 面
r t a a a e o n i n n a s f t f h m i l ,f a l o u d tn n u r i g t eo ii a a a a e A e t i e r e o e a e d t b s fe v r me t l a e y o e c s i l t p a i g a dq e yn h rgn l tb s . o c a n y d c r an d g e f — r
而准确 的化 学品环境安全数据库 ,最终 实现 了对原有数据 的更 新查询 ,在 一定程度 上保证 了可靠性 、可用性 、可扩展 性 、
可 维护 性 。
关 键 词 :W e 信 息抽 取 ;任 务 分割 ;重 试 机 制 ;持 续 抽 取 ;数 据 预 处 理 b 中 图 法 分 类 号 : P 1 . 2 文 献 标 识 号 : 文章 编 号 :1 0—0 4 ( 0 2 0 0 00 T 3 1 5 A 0 072 2 1 ) 834 —7
m e tc n i u u n e l i ee t a t n x e t n h n l g a d mo i rn fCh mi l n o ma in i h n o ma i n s u c n o t o s a d r a- m x r ci ,e c p i a d i n n t ig o e c f r t n t e if r t o r e n t o o n o a i o o we st .M o e v r x r c e a a i p e r a e y r g lre p e so n o t g a g r h n u l a c m p e e sv n C U bi e r o e ,e ta td d t s r te t d b e u a x r s in a d s ri l o i ma d b i o r h n i e a d a C — n t t
0 引 言
Itre 作为世界上最大的信息资料当信息源 站点数 据更新 后 ,靠人 工发现 非常 困难 ,而 且更容易出错 。为此 ,希望 能有一套 计算 机软 件系统 自动 地持续地获取 国内外一 些权威 的 网站 中化 学物 质的相 关数
工作者快速获取信息 的主要途 径。然而 we b信息 的急速膨
F N S u ,L h — i+,Y E G h o I uqn S ANG Hu- n i j u
( l g fI f r a i n En i e rn Co l e o n o m t g n e i g,No t we tAg iu t r n r sr i e st ,Ya g i g 7 2 0 ,Ch n ) e o rh s rc l e a d Fo e t y Un v r i u y n l 1 1 0 n ia Ab ta t To s l e t e p o lms o h mia u s a c n o ma i n a q ii o r m u t s u c b i ,d t b s p a e a d sr c : ov h r b e fc e c ls b t n e i f r t c u st n fo M li o r e we st o i - e a a a e u d t n d t b s u r ,t e tc n lg fwe r wlra d t eme h d o h a p ra eu e o e ta td t ,a d me h d f a k p r aa a e q e y h e h o o y o b c a e n h t o ft ewr p e r s d t x r c a a n t o s o s a — t
mak pl g a e r u n u g ,HTML a )结构 、基于 We b查询等 信息抽
取方法 ,但无论是 自然语 言处 理还是 包装器 技术 ,只是针
对一个特定 的信息 源 ,一个特 定主题 和领 域[ ,目前 在很 6 ]
多行业和领域都可 以看 到垂直搜 索 引擎 的应 用研究 ,然 而
组 织 分 3个 层 次 ,即 业 务 层 、 数 据 访 问层 、交 互 层 ,本 文
首先介绍数据获 取与 预处 理 ,它属 于业务 层 ,是 系统 的核 心 ;然后 介绍数据查 询和 更新 ,它 包括数 据访 问层 和交 互 层 :数据访 问层 主要是 操作 数据库和一些 可复用 的工具类 , 交互 层主要是系统与用户的交互界面 。
l b l y,a al b l y x e d b l y a d man an b y i u r n e d i it a i v i i t ,e t n i i t n i t i a mt sg a a t e . a i i Ke r s y wo d :we n o ma i n e ta t n;t s i iin;r t y s r t g ;c n i u u x r c in;d t r t e t e t b i f r t x r ci o o a k d v so e r ta e y o tn o s e t a t o aap eram n
载。对于具体 网址 只会 重新下 载 3次 ,如果 3次都 不 能下 载 ,则不再 下载该网页 。具体流程如 图 2所示 。
数据 的统一 。主要模 块包 括 网页获取 、信 息抽 取 、数 据预
处理和任务调度 。
11 数据 的动 态 获 取 .
网页 获取 与信息抽 取是 数据 获取 的两个 核心模 块 ,为
基金项 目:公益性行业 ( 环保)科研专项基金项 目 (0 9 9 8 ) 2 0 0 0 6
作者简介 :冯硕 ( 9 7 ) 18 一 ,女 ,陕西西安人 ,硕士研究生 ,研究方 向为智 能信 息系统 ;+通讯作者 :李 书琴 ( 9 5 ) 女 ,陕西渭南人 16 一 , 硕士 ,教授 , 研究 方向智能信息系统 ;杨会君 ( 9 4 ) 1 7 一 ,女 ,山西万荣人 ,硕士 ,讲师 ,研究方向为计算机 图形 图像 、智能信息处理。
基于包装器 、基于 Onoo y方式 、基于 HT tlg ML (y etx hpr t e
tre 上 的化学资源方面提 出了一个 巨大 的挑战 。解决这 ent ]
一
问题 的基本 思路是 建立 网络资 源与 其 网址 的索 引Ⅲ 。 目 2 ]
前在化学领域 已经建 立起 了几个 比较有 代表性 的化学 资源
t inn ,d n mi p aig is e t na dfi r er c a im rp s db nr d cn h s rd f e m l i Oi pe io ig y a cu d t n p ci n al ertyme h ns i p o o e y ito u igt eu e-ei dx l t l— t n o u s n fe m
胀 ,对化学工作者如何大规模 的获取和有效 利用分布在 I— n
据 ,从而提高信息 获取 的效率 和数据 的准 确性 。在计 算 机 领域 ,基于 We 信息挖掘技术 日益 成为人们 研究 的热点 问 b 题_ 。现有的 We 息 提取方 法包 括 基于 自然语 言方 式 、 5 ] b信
立 ht t p会话 ,进而读取 相关 的页面 ,最 后将抓 取到 的页 面 存储 到本地磁盘 。为 了避 免耗 费不必要 的时间无 限制 地等 待响应缓慢的服务 器或 者规模 庞大 的 网页 ,因 此设 置了超
时 机 制 。如 果 一 个 网 页 在 1 s内不 能 下 载 ,则 需 要 重 试 下 5
定网站 中化学信息并 集成 到数 据库 ,以解决 人工 手动 获取
信息效率低下和准 确率低 等 问题 。主要 研究 如何 对多信 息
源 网站 中化学物质 信息 的获 取与集 成 、构 建信 息全 面准确 的化学物质信息数 据库 ,为建立 新化 学物 质生态 危害 影响 模型与预测评价体 系准备 基础 数据 。本 文将 根据 系统结 构
图 1 静 态 网 页获 取 流 程
1 数 据获 取与预 处 理
数据 获取 与预 处理 的 目标 是从 国 内外 一些 权威 的 网站 中抽取化学物质 的基本 信 息及其 相关 属性 如熔沸 点 、降解 性 、B F ( i o cnrt n{cos ( )等 结构 化 数 据 , C bo n etai atr,B c o 这些结构化数据存 储在 统一 的数据 结构 中 ,从 而实 现异构
动态获取 网站 中的化学 物质信 息 ,本 文提 出任务 分割 、重 试机制 、动态更新检查等一些相关技 术。 1 1 1 网页获取 .. 通过对所选信 息源 网站进 行分 析 ,发 现大部 分 网站 的 网页属于动态 网页 ,个别属 于静态 网页 ,静 态页 面的 URL (nv ra rsuc ct n u iesl eo rel ai ,URL o o )直接 以 HT ML超链 接 形式嵌在客户端 网页的 HTML文件 中l 。 7 ] 针对静态 网页 ,根据聚焦爬 虫[ 8 技术 ,分析要 抓取页 面的特点 ,在描述 和定义 抓取 目标 的基础 上 ,根 据 网页 内
E mal fn s u @ n u L e u c ~ i: e g h o ws a d . n
第 3卷 第8 3 期
冯硕 ,李书琴 ,杨 会君 : 于 w e 掘 的化 学物 质信 息提取 应 用研 究 基 b挖
在化学领域应用较少 。
本文在研究现有 抽取 程序 的基 础上 ,实 现 自动抽 取指
A p l a in r s a c n c e ia n o m a i n e t a to a e n p i t e e r h o h m c li f r to x r c i n b s d o c o we a am i i g b d t n n
收 稿 日期 :2 1—90 ;修 订 日期 :2 1 —11 0 10 —5 0 11—6
21 0 2年 8月
计 算机 工程 与设计
COM P UTE ENGI R NEERI NG AND DES GN I
A ug 01 .2 2
第3卷 3
第 8期
Vo 3 No 8 L3 .
基于 We b挖掘的化学物质信息提取应用研 究
冯 硕 , 书琴+ 李 ,杨会君
( 西北农林 科技 大 学 信 息工程 学 院 ,陕西 杨 凌 7 2 0 ) 1 10
摘 要 :针对 多信息源 网站 中化学物质信息的获取与数据库的更新查询问题 ,运用 网络爬 虫技 术和 包装器方 法实现数据 的 抽取 ;采用 自定义 X ML文件 的方式,提 出了任务分割 、动 态更新检 查 、失败 重试机制 方法 ,实现 了动 态信 息 源网站 中化 学物质信 息的持 续、实时抽取 ,并进行异常处理和监控 。将抽取 的数 据运用正则表达 式和排序算 法进 行预 处理 并构建全 面
r t a a a e o n i n n a s f t f h m i l ,f a l o u d tn n u r i g t eo ii a a a a e A e t i e r e o e a e d t b s fe v r me t l a e y o e c s i l t p a i g a dq e yn h rgn l tb s . o c a n y d c r an d g e f — r
而准确 的化 学品环境安全数据库 ,最终 实现 了对原有数据 的更 新查询 ,在 一定程度 上保证 了可靠性 、可用性 、可扩展 性 、
可 维护 性 。
关 键 词 :W e 信 息抽 取 ;任 务 分割 ;重 试 机 制 ;持 续 抽 取 ;数 据 预 处 理 b 中 图 法 分 类 号 : P 1 . 2 文 献 标 识 号 : 文章 编 号 :1 0—0 4 ( 0 2 0 0 00 T 3 1 5 A 0 072 2 1 ) 834 —7
m e tc n i u u n e l i ee t a t n x e t n h n l g a d mo i rn fCh mi l n o ma in i h n o ma i n s u c n o t o s a d r a- m x r ci ,e c p i a d i n n t ig o e c f r t n t e if r t o r e n t o o n o a i o o we st .M o e v r x r c e a a i p e r a e y r g lre p e so n o t g a g r h n u l a c m p e e sv n C U bi e r o e ,e ta td d t s r te t d b e u a x r s in a d s ri l o i ma d b i o r h n i e a d a C — n t t
0 引 言
Itre 作为世界上最大的信息资料当信息源 站点数 据更新 后 ,靠人 工发现 非常 困难 ,而 且更容易出错 。为此 ,希望 能有一套 计算 机软 件系统 自动 地持续地获取 国内外一 些权威 的 网站 中化 学物 质的相 关数
工作者快速获取信息 的主要途 径。然而 we b信息 的急速膨
F N S u ,L h — i+,Y E G h o I uqn S ANG Hu- n i j u
( l g fI f r a i n En i e rn Co l e o n o m t g n e i g,No t we tAg iu t r n r sr i e st ,Ya g i g 7 2 0 ,Ch n ) e o rh s rc l e a d Fo e t y Un v r i u y n l 1 1 0 n ia Ab ta t To s l e t e p o lms o h mia u s a c n o ma i n a q ii o r m u t s u c b i ,d t b s p a e a d sr c : ov h r b e fc e c ls b t n e i f r t c u st n fo M li o r e we st o i - e a a a e u d t n d t b s u r ,t e tc n lg fwe r wlra d t eme h d o h a p ra eu e o e ta td t ,a d me h d f a k p r aa a e q e y h e h o o y o b c a e n h t o ft ewr p e r s d t x r c a a n t o s o s a — t
mak pl g a e r u n u g ,HTML a )结构 、基于 We b查询等 信息抽
取方法 ,但无论是 自然语 言处 理还是 包装器 技术 ,只是针
对一个特定 的信息 源 ,一个特 定主题 和领 域[ ,目前 在很 6 ]
多行业和领域都可 以看 到垂直搜 索 引擎 的应 用研究 ,然 而
组 织 分 3个 层 次 ,即 业 务 层 、 数 据 访 问层 、交 互 层 ,本 文
首先介绍数据获 取与 预处 理 ,它属 于业务 层 ,是 系统 的核 心 ;然后 介绍数据查 询和 更新 ,它 包括数 据访 问层 和交 互 层 :数据访 问层 主要是 操作 数据库和一些 可复用 的工具类 , 交互 层主要是系统与用户的交互界面 。
l b l y,a al b l y x e d b l y a d man an b y i u r n e d i it a i v i i t ,e t n i i t n i t i a mt sg a a t e . a i i Ke r s y wo d :we n o ma i n e ta t n;t s i iin;r t y s r t g ;c n i u u x r c in;d t r t e t e t b i f r t x r ci o o a k d v so e r ta e y o tn o s e t a t o aap eram n
载。对于具体 网址 只会 重新下 载 3次 ,如果 3次都 不 能下 载 ,则不再 下载该网页 。具体流程如 图 2所示 。
数据 的统一 。主要模 块包 括 网页获取 、信 息抽 取 、数 据预
处理和任务调度 。
11 数据 的动 态 获 取 .
网页 获取 与信息抽 取是 数据 获取 的两个 核心模 块 ,为
基金项 目:公益性行业 ( 环保)科研专项基金项 目 (0 9 9 8 ) 2 0 0 0 6
作者简介 :冯硕 ( 9 7 ) 18 一 ,女 ,陕西西安人 ,硕士研究生 ,研究方 向为智 能信 息系统 ;+通讯作者 :李 书琴 ( 9 5 ) 女 ,陕西渭南人 16 一 , 硕士 ,教授 , 研究 方向智能信息系统 ;杨会君 ( 9 4 ) 1 7 一 ,女 ,山西万荣人 ,硕士 ,讲师 ,研究方向为计算机 图形 图像 、智能信息处理。
基于包装器 、基于 Onoo y方式 、基于 HT tlg ML (y etx hpr t e
tre 上 的化学资源方面提 出了一个 巨大 的挑战 。解决这 ent ]
一
问题 的基本 思路是 建立 网络资 源与 其 网址 的索 引Ⅲ 。 目 2 ]
前在化学领域 已经建 立起 了几个 比较有 代表性 的化学 资源
t inn ,d n mi p aig is e t na dfi r er c a im rp s db nr d cn h s rd f e m l i Oi pe io ig y a cu d t n p ci n al ertyme h ns i p o o e y ito u igt eu e-ei dx l t l— t n o u s n fe m
胀 ,对化学工作者如何大规模 的获取和有效 利用分布在 I— n
据 ,从而提高信息 获取 的效率 和数据 的准 确性 。在计 算 机 领域 ,基于 We 信息挖掘技术 日益 成为人们 研究 的热点 问 b 题_ 。现有的 We 息 提取方 法包 括 基于 自然语 言方 式 、 5 ] b信
立 ht t p会话 ,进而读取 相关 的页面 ,最 后将抓 取到 的页 面 存储 到本地磁盘 。为 了避 免耗 费不必要 的时间无 限制 地等 待响应缓慢的服务 器或 者规模 庞大 的 网页 ,因 此设 置了超
时 机 制 。如 果 一 个 网 页 在 1 s内不 能 下 载 ,则 需 要 重 试 下 5
定网站 中化学信息并 集成 到数 据库 ,以解决 人工 手动 获取
信息效率低下和准 确率低 等 问题 。主要 研究 如何 对多信 息
源 网站 中化学物质 信息 的获 取与集 成 、构 建信 息全 面准确 的化学物质信息数 据库 ,为建立 新化 学物 质生态 危害 影响 模型与预测评价体 系准备 基础 数据 。本 文将 根据 系统结 构
图 1 静 态 网 页获 取 流 程
1 数 据获 取与预 处 理
数据 获取 与预 处理 的 目标 是从 国 内外 一些 权威 的 网站 中抽取化学物质 的基本 信 息及其 相关 属性 如熔沸 点 、降解 性 、B F ( i o cnrt n{cos ( )等 结构 化 数 据 , C bo n etai atr,B c o 这些结构化数据存 储在 统一 的数据 结构 中 ,从 而实 现异构
动态获取 网站 中的化学 物质信 息 ,本 文提 出任务 分割 、重 试机制 、动态更新检查等一些相关技 术。 1 1 1 网页获取 .. 通过对所选信 息源 网站进 行分 析 ,发 现大部 分 网站 的 网页属于动态 网页 ,个别属 于静态 网页 ,静 态页 面的 URL (nv ra rsuc ct n u iesl eo rel ai ,URL o o )直接 以 HT ML超链 接 形式嵌在客户端 网页的 HTML文件 中l 。 7 ] 针对静态 网页 ,根据聚焦爬 虫[ 8 技术 ,分析要 抓取页 面的特点 ,在描述 和定义 抓取 目标 的基础 上 ,根 据 网页 内
E mal fn s u @ n u L e u c ~ i: e g h o ws a d . n
第 3卷 第8 3 期
冯硕 ,李书琴 ,杨 会君 : 于 w e 掘 的化 学物 质信 息提取 应 用研 究 基 b挖
在化学领域应用较少 。
本文在研究现有 抽取 程序 的基 础上 ,实 现 自动抽 取指
A p l a in r s a c n c e ia n o m a i n e t a to a e n p i t e e r h o h m c li f r to x r c i n b s d o c o we a am i i g b d t n n