基于Web挖掘的化学物质信息提取应用研究

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

导航系统］３，虽然已有了以上诸多的的Ｉｔｒｅ化学导航ｎｅｎｔ系统，但其目前主要靠人工来搜集资源［。如果单纯地采１］用人工方式去查找和处理信息，会对人力资源大大浪费。
收稿日期：２１—９０；修订日期：２１ —１１０１０ —５０１１—６
２１０２年８月
计算机工程与设计
ＣＯＭＰＵＴＥＥＮＧＩＲＮＥＥＲＩＮＧＡＮＤＤＥＳＧＮＩ
Ａｕｇ０１．２２
第３卷３
第８期
Ｖｏ３Ｎｏ８Ｌ３．
基于Ｗｅｂ挖掘的化学物质信息提取应用研究
冯硕，书琴＋李，杨会君
（西北农林科技大学信息工程学院，陕西杨凌７２０）１１０
摘要：针对多信息源网站中化学物质信息的获取与数据库的更新查询问题，运用网络爬虫技术和包装器方法实现数据的抽取；采用自定义ＸＭＬ文件的方式，提出了任务分割、动态更新检查、失败重试机制方法，实现了动态信息源网站中化学物质信息的持续、实时抽取，并进行异常处理和监控。将抽取的数据运用正则表达式和排序算法进行预处理并构建全面
ｒｔａａａｅｏｎｉｎｎａｓｆｔｆｈｍｉｌ，ｆａｌｏｕｄｔｎｎｕｒｉｇｔｅｏｉｉａａａａｅＡｅｔｉｅｒｅｏｅａｅｄｔｂｓｆｅｖｒｍｅｔｌａｅｙｏｅｃｓｉｌｔｐａｉｇａｄｑｅｙｎｈｒｇｎｌｔｂｓ．ｏｃａｎｙｄｃｒａｎｄｇｅｆ — ｒ
而准确的化学品环境安全数据库，最终实现了对原有数据的更新查询，在一定程度上保证了可靠性、可用性、可扩展性、
可维护性。
关键词：Ｗｅ信息抽取；任务分割；重试机制；持续抽取；数据预处理ｂ中图法分类号：Ｐ１．２文献标识号：文章编号：１０—０４（０２００００Ｔ３１５Ａ００７２２１）８３４ —７
ｍｅｔｃｎｉｕｕｎｅｌｉｅｅｔａｔｎｘｅｔｎｈｎｌｇａｄｍｏｉｒｎｆＣｈｍｉｌｎｏｍａｉｎｉｈｎｏｍａｉｎｓｕｃｎｏｔｏｓａｄｒａ－ｍｘｒｃｉ，ｅｃｐｉａｄｉｎｎｔｉｇｏｅｃｆｒｔｎｔｅｉｆｒｔｏｒｅｎｔｏｏｎｏａｉｏｏｗｅｓｔ．ＭｏｅｖｒｘｒｃｅａａｉｐｅｒａｅｙｒｇｌｒｅｐｅｓｏｎｏｔｇａｇｒｈｎｕｌａｃｍｐｅｅｓｖｎＣＵｂｉｅｒｏｅ，ｅｔａｔｄｄｔｓｒｔｅｔｄｂｅｕａｘｒｓｉｎａｄｓｒｉｌｏｉｍａｄｂｉｏｒｈｎｉｅａｄａＣ — ｎｔｔ
０引言
Ｉｔｒｅ作为世界上最大的信息资料当信息源站点数据更新后，靠人工发现非常困难，而且更容易出错。为此，希望能有一套计算机软件系统自动地持续地获取国内外一些权威的网站中化学物质的相关数
工作者快速获取信息的主要途径。然而ｗｅｂ信息的急速膨
ＦＮＳｕ，Ｌｈ — ｉ＋，ＹＥＧｈｏＩｕｑｎＳＡＮＧＨｕ－ｎｉｊｕ
（ｌｇｆＩｆｒａｉｎＥｎｉｅｒｎＣｏｌｅｏｎｏｍｔｇｎｅｉｇ，ＮｏｔｗｅｔＡｇｉｕｔｒｎｒｓｒｉｅｓｔ，Ｙａｇｉｇ７２０，Ｃｈｎ）ｅｏｒｈｓｒｃｌｅａｄＦｏｅｔｙＵｎｖｒｉｕｙｎｌ１１０ｎｉａＡｂｔａｔＴｏｓｌｅｔｅｐｏｌｍｓｏｈｍｉａｕｓａｃｎｏｍａｉｎａｑｉｉｏｒｍｕｔｓｕｃｂｉ，ｄｔｂｓｐａｅａｄｓｒｃ：ｏｖｈｒｂｅｆｃｅｃｌｓｂｔｎｅｉｆｒｔｃｕｓｔｎｆｏＭｌｉｏｒｅｗｅｓｔｏｉ－ｅａａａｅｕｄｔｎｄｔｂｓｕｒ，ｔｅｔｃｎｌｇｆｗｅｒｗｌｒａｄｔｅｍｅｈｄｏｈａｐｒａｅｕｅｏｅｔａｔｄｔ，ａｄｍｅｈｄｆａｋｐｒａａａｅｑｅｙｈｅｈｏｏｙｏｂｃａｅｎｈｔｏｆｔｅｗｒｐｅｒｓｄｔｘｒｃａａｎｔｏｓｏｓａ — ｔ
ｍａｋｐｌｇａｅｒｕｎｕｇ，ＨＴＭＬａ）结构、基于Ｗｅｂ查询等信息抽
取方法，但无论是自然语言处理还是包装器技术，只是针
对一个特定的信息源，一个特定主题和领域［，目前在很６］
多行业和领域都可以看到垂直搜索引擎的应用研究，然而
组织分３个层次，即业务层、数据访问层、交互层，本文
首先介绍数据获取与预处理，它属于业务层，是系统的核心；然后介绍数据查询和更新，它包括数据访问层和交互层：数据访问层主要是操作数据库和一些可复用的工具类，交互层主要是系统与用户的交互界面。
ｌｂｌｙ，ａａｌｂｌｙｘｅｄｂｌｙａｄｍａｎａｎｂｙｉｕｒｎｅｄｉｉｔａｉｖｉｉｔ，ｅｔｎｉｉｔｎｉｔｉａｍｔｓｇａａｔｅ．ａｉｉＫｅｒｓｙｗｏｄ：ｗｅｎｏｍａｉｎｅｔａｔｎ；ｔｓｉｉｉｎ；ｒｔｙｓｒｔｇ；ｃｎｉｕｕｘｒｃｉｎ；ｄｔｒｔｅｔｅｔｂｉｆｒｔｘｒｃｉｏｏａｋｄｖｓｏｅｒｔａｅｙｏｔｎｏｓｅｔａｔｏａａｐｅｒａｍｎ
载。对于具体网址只会重新下载３次，如果３次都不能下载，则不再下载该网页。具体流程如图２所示。
数据的统一。主要模块包括网页获取、信息抽取、数据预
处理和任务调度。
１１数据的动态获取．
网页获取与信息抽取是数据获取的两个核心模块，为
基金项目：公益性行业（环保）科研专项基金项目（０９９８）２０００６
作者简介：冯硕（９７）１８一，女，陕西西安人，硕士研究生，研究方向为智能信息系统；＋通讯作者：李书琴（９５）女，陕西渭南人１６一，硕士，教授，研究方向智能信息系统；杨会君（９４）１７一，女，山西万荣人，硕士，讲师，研究方向为计算机图形图像、智能信息处理。
基于包装器、基于Ｏｎｏｏｙ方式、基于ＨＴｔｌｇＭＬ（ｙｅｔｘｈｐｒｔｅ
ｔｒｅ上的化学资源方面提出了一个巨大的挑战。解决这ｅｎｔ］
一
问题的基本思路是建立网络资源与其网址的索引Ⅲ 。目２］
前在化学领域已经建立起了几个比较有代表性的化学资源
ｔｉｎｎ，ｄｎｍｉｐａｉｇｉｓｅｔｎａｄｆｉｒｅｒｃａｉｍｒｐｓｄｂｎｒｄｃｎｈｓｒｄｆｅｍｌｉＯｉｐｅｉｏｉｇｙａｃｕｄｔｎｐｃｉｎａｌｅｒｔｙｍｅｈｎｓｉｐｏｏｅｙｉｔｏｕｉｇｔｅｕｅ－ｅｉｄｘｌｔｌ— ｔｎｏｕｓｎｆｅｍ
胀，对化学工作者如何大规模的获取和有效利用分布在Ｉ— ｎ
据，从而提高信息获取的效率和数据的准确性。在计算机领域，基于Ｗｅ信息挖掘技术日益成为人们研究的热点问ｂ题＿。现有的Ｗｅ息提取方法包括基于自然语言方式、５］ｂ信
立ｈｔｔｐ会话，进而读取相关的页面，最后将抓取到的页面存储到本地磁盘。为了避免耗费不必要的时间无限制地等待响应缓慢的服务器或者规模庞大的网页，因此设置了超
时机制。如果一个网页在１ｓ内不能下载，则需要重试下５
定网站中化学信息并集成到数据库，以解决人工手动获取
信息效率低下和准确率低等问题。主要研究如何对多信息
源网站中化学物质信息的获取与集成、构建信息全面准确的化学物质信息数据库，为建立新化学物质生态危害影响模型与预测评价体系准备基础数据。本文将根据系统结构
图１静态网页获取流程
１数据获取与预处理
数据获取与预处理的目标是从国内外一些权威的网站中抽取化学物质的基本信息及其相关属性如熔沸点、降解性、ＢＦ（ｉｏｃｎｒｔｎ｛ｃｏｓ（）等结构化数据，Ｃｂｏｎｅｔａｉａｔｒ，Ｂｃｏ这些结构化数据存储在统一的数据结构中，从而实现异构
动态获取网站中的化学物质信息，本文提出任务分割、重试机制、动态更新检查等一些相关技术。１１１网页获取．．通过对所选信息源网站进行分析，发现大部分网站的网页属于动态网页，个别属于静态网页，静态页面的ＵＲＬ（ｎｖｒａｒｓｕｃｃｔｎｕｉｅｓｌｅｏｒｅｌａｉ，ＵＲＬｏｏ）直接以ＨＴＭＬ超链接形式嵌在客户端网页的ＨＴＭＬ文件中ｌ。７］针对静态网页，根据聚焦爬虫［８技术，分析要抓取页面的特点，在描述和定义抓取目标的基础上，根据网页内
Ｅｍａｌｆｎｓｕ＠ｎｕＬｅｕｃ～ｉ：ｅｇｈｏｗｓａｄ．ｎ
第３卷第８３期
冯硕，李书琴，杨会君：于ｗｅ掘的化学物质信息提取应用研究基ｂ挖
在化学领域应用较少。
本文在研究现有抽取程序的基础上，实现自动抽取指
Ａｐｌａｉｎｒｓａｃｎｃｅｉａｎｏｍａｉｎｅｔａｔｏａｅｎｐｉｔｅｅｒｈｏｈｍｃｌｉｆｒｔｏｘｒｃｉｎｂｓｄｏｃｏｗｅａａｍｉｉｇｂｄｔｎｎ