数据抽取及语义分析在Web数据挖掘中的应用（精品）

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1引言
随着Internet 的发展，如何从大量的Web 数据中发现有用的潜在信息，成为当前数据挖掘技术的一个最重要的应用。

数据挖掘就是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程，这些模型和关系可以用来做出预测。

其中，数据挖掘成功的关键就是挖掘工具能准确地在数据仓库上进行数据挖掘。

因此，能把Web 数据准确地从Internet 提取到数据仓库，并准确地提取到数据集市是Web 数据挖掘的关键所在。

2
系统实现
2.1
体系结构设计
这里的Web 数据挖掘是一个二次数据挖掘，第1次是通
过信息搜索机器人从Internet 上获取原始信息，然后通过信息的特征将信息分别缓存到cache 中，再通过抽取及语义分析获取与原始数据接近且适合进一步挖掘的数据，将经过处理的结构性强的数据存取到数据仓库，在这个数据仓库上，我们可以运行当今比较成熟的挖掘技术进行挖掘，并通过OLAP （On-line Analytical Processing ）进行挖掘结果的验证，
最后将结果展现给最终用户。

图1中描述的是整体实现Web 数据挖掘的体系结构。

2.2信息获取
通过信息搜索机器人在网络上查找站点，并通过HTTP 访
问获取信息。

对于动态的站点，我们可以采用预设用户等信
收稿日期：2004-05-28。

基金项目：甘肃省科技攻关基金项目(GS021-A52-54)。

作者简介：袁占亭（1961-），男，博士生导师，研究方向为计算机体系结构；张秋余（1966-），男，副研究员，研究方向为信息系统软件工程；李威（1979-），女，硕士，研究方向为计算语言学。

数据抽取及语义分析在Web 数据挖掘中的应用
袁占亭，张秋余，李
威
(兰州理工大学计算机与通信学院，甘肃兰州730050)
摘
要：把复杂的网络站点作为多个业务数据源，采用数据仓库及数据挖掘技术，从中抽取并净化数据到挖掘数据库，从而将数据抽取及语义分析应用于Web 数据挖掘中。

在此基础上又提出了运用数据抽取进行数据结构转换并把语义分析技术应用到数据抽取的过程中的思想，使数据提取更加准确。

关键词：Web ；数据挖掘；数据抽取；语义分析；数据结构中图法分类号：TP393
文献标识码：A
文章编号：1000-7024(2005)06-1425-03
Application of data extraction and semantic analysis in Web mining
YUAN Zhan-ting,
ZHANG Qiu-yu,
LI Wei
(College of Computer and Communication,Lanzhou University of Technology,Lanzhou 730050,China )
Abstract ：A method is presented that applies data extraction and semantic analysis to Web mining,which regards complicated network website as a lot of business data sources and extracts and purifies these data to store them into a database with the aid of data warehouse and data mining technology.By using the method that business application adopts to carry on data mining to realize Web mining,the key technology is the conversion of data structure.This method uses data extraction and semantic analysis on the conversion of data structure,which makes data extraction more accurate.
Key words ：web;data mining;data extraction;semantic analysis;data structure
图1体系结构图
报表等数据
表述
息和登录的过程等信息，由此辅助我们获取一定的信息。

网络中大量的信息都是用URL 定位的，机器人从获取的信息中自动分离出URL 是发现更多信息的简洁方法。

2.3信息分类
信息搜索机器人获取信息之后，对获取的信息的HTTP 头
信息进行分析，同时也对获取的URL 进行分析。

对文件头信息进行分析是确认是否为HTML 、Word 文档等。

目前信息的存取70%是以文件的方式存取的，对于各种文件的特征可以建立一个特征库。

2.4数据抽取
互联网的迅速发展，出现了大量的半结构化文本信息资
料，典型的是网页资源。

对这些信息的抽取需要有从这种半结构化网页抽取有关信息的挖掘方法。

在挖掘方法中，当系统从半结构化的网页内容中抽取具有层次结构的信息内容时，如果信息为英文或数字，则容易得多。

研究理论已经很成熟了，但是如果信息为中文，则复杂得多，本文把语义分析技术应用到该信息抽取过程中，进一步增加了信息抽取的准确度。

HTML 的信息可以根据标签来处理，
如表格<table>，如果其中的信息是文字的可以处理成结构性信息；对于HTML 标签可以根据上下文进行解释，如<title>可以理解为信息的标题，对于<script>可以过滤掉等；对于一般的大段的文字，可以进行抽取，提取其主要意义，抽取的过程如图2所示。

在网络信息中，非结构性的信息常以文件的形式出现。

获取这些文件然后提取其中的意义是抽取的过程，如文字性的Word 文档，通过相关接口获取文字并对文字进行抽取；如果是音频、视频、动画、图形、图像等文件则需要获取其文字描述，否则无法处理，则忽略。

对于结构性信息，除了从HTML 中转换获得，像Excel 文件，可以通过相关接口把它作为数据库来处理。

网络中大量信息的表示通常还是以文章的形式出现，如何压缩文章很关键，我们可以采用抽取摘要的办法来完成。

2.4.1分词处理
现有的各种WWW 查询服务器多数都是基于英文的，或
者是按单词在文章中出现的位置和次数打分(如WAIS )，或者是通过对英文文章或句子的语法和语义分析来提取出该文章的主要意思(知识的提取)。

但这些方法都是基于英文本身就有明显的词间分隔这个事实上的，对于汉语等无明显词间间隔的语言来说则必须先对原文进行分词，然后才可以提到其它。

汉语分词的方法有很多，但归纳起来不外乎两类：一类是理解式切词法；另一类是机械式分词法。

相比而言，第1类分词方案的算法复杂度高，这种分词方法仅是处于研究阶段。

第2类分词方法比起第1类来较具体实用，而且也可以达到较高的准确度。

因此，采用基于词典的正向最大词组匹配和逆向最大词组匹配法相结合的分词方案，既可以保证分词的效率和速度，又可以消除一部分交集性歧义，保证较高的分词准确度。

本文对正向最大匹配算法进行了改进，增加对汉字夹杂
图2算法总流程
开始
按字节划分两字节内容合并
形成字序列取下一汉字
是
最后汉字
否
从库中查询字头
设置步长
步长增1
是
步长到达字段尾
是
否
设置位置、开关变量
从关联数组中取词
位置＝词长＋位置是
是
否
否
是否成功
到字段尾
结束
保存结果
删除重复位置且被分词
重置开关变量
开关变量K
K=0
K=1
英文的句子进行处理，改进后的算法流程如图2所示；其中，切分过程流程图如图3所示。

逆向最大匹配法的基本原理和正向最大匹配算法相同，不同的是分词切分的方向相反，并且使用的分词词典也不同。

由于最大匹配法是一种基于分词词典的机械分词法，不能根据文档上下文的语义特征来切分词语，对词典的依赖性较大，所以在实际应用时，难免会造成一些分词错误。

为了提高系统分词的准确度，本文采用了正向最大匹配法和逆向最大匹配法相结合的分词方案。

先根据标点对文档进行粗切分，把文档分解成若干个句子，然后在对这些句子用正向最大匹配法和逆向最大匹配法进行扫描切分。

如果两种分词方法得到的匹配结果相同，则认为分词正确，否则，按最小集处理。

我们实现的算法流程与正向最大匹配分词法不同之处在于：在切分之前对每一个字段进行逆向处理，而库中的词头是词的最后一个汉字，匹配时的词是逆向的。

切分后，再将字段进行逆向处理，最终得到正常语序的字段。

2.4.2文章处理
许多格式的文件都有自己的格式定义等与内容无关的标签字符，对于这些文件，我们首先根据其特征库进行过滤，如HTML格式的文档由两个部分组成：文件头和文件体。

文件头中包含文档的标题以及其它相关属性，这些内容不显示在浏览器的页面内。

文件体是HTML文档的主要部分，描述的是在浏览器中显示的内容。

2.4.3提取摘要
提取过程：
（1）词频统计：在分词（提取特征词）的基础上进行出现频率的统计。

（2）
词权计算：
＊
=,
,是段落信息（综述段、分述段），句子位置（句中特征词词频、回指词）的函数；
句子权值计算是摘要抽取的核心部分，文章中每一个句子都有一个权值，按照字数限制从最大权值到最小权值进行句子选择，直到字数不大于且接近规定字数为止。

句子权值计算函数：
a 段落信息的识别、量化：每一个意义段都有一个特征词，首先让每一个自然段的值为1，如果某段为N个意义段共享（综述段），则该段的值为1+N。

b 句子位置
1=0^2*00>=0
2=1^21+400)/200,为句子在段落中的位置，
１＋
的量化：替代回指词后，句子的
/log /。

（5）句间指代识别
需要识别句间的指代关系，以确保一个文摘句满足以下3种情况之一：
a句中没有广义代词（零型代词，即省略代词、限定性名词短语）；
b句中广义代词的先行词在该句中；
c句中广义代词的先行词不在该句中，该代词的先行词所在句也进入文摘。

2.5语义分析
上述提取摘要的办法主要是依靠句法来完成的，在此基础上可以采用语义分析对句法分析的结果进行择优将语义关系存取在数据仓库中，由此完成非结构性和半结构性的信息到结构性信息的转变。

具体做法如图5所示。

在句法分析的过程中分成3个层次，即短语子树层、谓词框架之内层以及谓词框架之间层。

与句法分析的这3个层次相适应，每次句法分析后都相应地产生一个语义分析结果。

因此，语义分析的过程也相应地分成3个层次，即短语子树的语义子树内的语义关系、谓词框架形成的子树内的语义关系以及各个谓词框架之间形成的子树间的语义关系。

语义分析的过程是：抽取的摘要（已分成词语）-〉短语-〉短语子树-〉语义树。

图4数据抽取过程
原文（经过文章处理）
已分词文本
词
权
计
算
意
义
段
划
分
句
间
指
代
识
别
句
子
位
置
分
析
计算结果划分结果识别结果计算结果
于在业务伙伴之间交换认证和授权信息，能够在多个企业运营的站点之间实现单点登录等基于网络的安全相互连接功能。

5结论
J2EE 使得企业系统的开发变得更加快速和方便，非常适合于构建大型的电子商务平台。

J2EE 为保障电子商务应用系统的安全提供了相应的机制。

J2EE 使用基于角色的认证来执行其安全策略，简化并统一了分布式系统的信息安全模型，业务逻辑的开发人员根据角色来限制对特定功能的访问，能够很方便地满足基于J2EE 的分布式应用系统的安全需求。

在构建大型电子商务系统时，除了采用传统的防火墙、加密认证的技术外，开发人员应该尽可能地使用J2EE 提供的安全服务，使得基于J2EE 的分布式应用系统具有良好的安全性、可移植性和可扩展性。

参考文献:
[1]李宫.Java 2平台安全技术——结构、API 设计和实现[M ].北京:机械工业出版社,2000.
[2]王妍.J2EE 中的安全第一部分——J2EE 安全介绍[EB/OL ].http://www-900.ibm/developworks/cn/.
[3]Ed Roman.精通EJB [M ].北京:电子工业出版社,2002.[4]Rich Helton,Johennie Helton.Java 安全解决方案[M ].北京:清华大学出版社,2003.
[5]
Sang Shin.Advanced features of J2EE&Sun one app server:Se-curity,transaction and persistence [EB/OL ]./j2ee.[6]
肖菁.WebSphere 环境下的SSO 实现技术准备[EB/OL ]./developworks/cn/.
2.6数据存取
数据的存储是指将XML 表示的语义存储到数据仓库中。

如句子“他拿了十支钢笔”，可以分析成如下描述：
(1)句法树：
他(Np )---拿了(Vm )---十支钢笔(Np )十(M )支(Q )---钢笔(N )十---支(2)语义树:
他拿了十支钢笔(叙述性事件,Ａｓｐ=已然)
(Ｋｅｒ)→拿了(拿)(受事)→钢笔(笔)(数量)→支(物量)(限制)→十(数值)(施事)→他(人)(3)形成的XML ：<Sample>
<Ker obj="拿了">
<施事>他</施事>
<受事数量限制="十支">钢笔</受事></Ker></Sample>
转为结构性数据（部分表结构见表1~表3）：
3结论
数据挖掘不是用于验证某个假定的模式（模型）的正确性，而是在数据库中自己寻找模型。

它本质上是一个归纳的过程。

本文将非结构性及半结构性信息转换为结构性数据存储到数据仓库中，为数据挖掘做好准备，并在转换过程中使用了数据的抽取及语义分析进行数据的简化，从而将语义分析、数据抽取应用到Web 数据挖掘过程中，实现了更加准确的数据抽取，从而建立一个更加准确的挖掘结论。

参考文献:
[1]
姚天顺,朱靖波,张俐,等.自然语言理解——一种让机器懂得
人类语言的研究[M ].北京:清华大学出版,2002.369-397.[2]
姜明强,顾君忠.基于DOM 的结构化搜索引擎[J ].计算机应用研究,2000,(6):52-55.
[3]吴闽泉,刘俊平,刘方早,等.基于Web 页面的动态模糊查询方法[J ].计算机应用研究,2000,(10):28-29.
(上接第1427页)
图5语义分析及存取
抽取的句子集。