基于SVM的Web信息抽取研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 We b信 息抽 取技 术
通常用于 We b信 息抽 取的软件 又称 作包装器( Wr a p p e r ) 。主要 有三大类 : 基 于认 知模型 的包装器 、 基 于统计 的包装器 和基 于规则 的包装器。 自 1 9 9 4年起 , 经历 了从 手工编写包装器脚本 , 到利用机 器学习的半 自动化生成 , 再到 自动化生成 的三个 阶段 。 目前 比较好 的包装器算法是 不需要人 工标注 的无 监督学 习方 图 1 网页抽取流程 法。 We b中富含数据 的网页 主要有两种 : 列表页和详情页 。 无论哪一 务队列 , 对于已经采集过的页面或是相似 网页 , 不再重复采集。 试采 种网页 , R o a d R u n e r 算法往往需要多张 网页才能学习完抽 取规则 , 算 取U R L 哈希表登记方式在放 入任务队列之前进行是 否已经判断 。 法对于输入字符串长度是 指数级的 , 需要 引入一组启发 式规则限制 对于相似 网页试 采取“ 语 义指纹 ” 排重 , 利用向量余 弦夹 角大于 0 . 9 搜索空间和 回溯降低其利导度。基于简单子树匹配算法 , 类似与字 的两篇文档算作相似文档 。 符 串编辑距 离求解 , 可 以很容 易识 别 网页 中的重 复条 目模 式 , 例如 ( 2 ) 中文文本 分类 的特征选 取方法 ( 文 档频率 、 信 息增益 、 C H I 表格或列表布局的多行标题 , 单张列表页 即可发现其 中存在的重复 统计 、 互信息 ) 比较研究 , 以S V M分类算法对抽 到结果进行对 比, 选 模式。两种算法都有共同缺点 : 完全基 于网页结构 中隐含的重复模 出最佳特征选取方法特征抽取作为分类 的前处理过程 , 其有效性可 式来挖掘抽取规则的 , 这使得它们容 易抽取 出大量 用户不需 要的数 以通 过分类 的效果来测试 。为评价分类效果 , 采用最通用的性能评 据, 因为 系统不知道用户对什么感兴趣。 价方 法 : 召 回率 、 准确率 。对于某一特定 的类别 , 召回率定义为被正 2 X ML应 用 确分类 的文档数和被测试文档总数 的比率 , 即该类样本被分类器正 X ML ( e X t e n s i b l e Ma r k u p L a n g u a g e , 可扩 展标记语 言) 是 由 w3 C 确识 别的概率 。 准确率定义为正确分类的文档数 与被分类器识别为 于1 9 9 8 年 2月发布 的一种标准 , 它以一种开放 的、 自描述的方式定 该类 的文档数 的比率 , 即分类器做出的决策是正确的概率。通常还 义了数据结构 。在描述数据内容的同时能突出对结构 的描述 , 从而 将召 回率 和准确率用某种方式组合成单一的度量 , 以便 于进行 比较 体现出数据之间的关系。 这样所组织 的数据对 于应用程序和用户都 ( 3 ) 数 据抽取简单树 匹配算法时间复杂度控制 是友好的 、 可操作 的。 简单树 匹配算法类 似于求解字符 串编辑距 离来 比较两棵 子树 自动抽取用户感兴趣 的网络数据 。 用 户仅在前期人工标注一些 是否匹配或相似 , 对于较大的页面性能较差 。尝试采用领域特征对 网页用作 “ 兴趣” 机 器学习训 练 , 作 为将来 We b数据抽 取的主题 , 此 经过中文分词后 的树形结构 中叶子结点进行裁剪 , 以降低算法搜索 后给 出几个网址作为网络爬虫爬取种子 , 系统将 自动抽取相关网站 空间。 用户感兴 趣的数据 ,不 同网站 的抽取规则 不需要人 工干预 自动生 结束语 成。 We b数据抽取技术 目前还处在不 断发展之 中, 是 We b数据挖掘 We b信息抽取就是从 We b页面 中抽取 目标信息的问题 ,从 网 研究领域 中的难题 和热 点。本文论述 了基于 X ML技术利用重复模 页 中所包含 的无结构 或半结 构的信息 中识别用 户感 兴趣 的数据 , 并 式查找网页中的数据 区域方法 , 它避免了大量的人工手动标注网页 将其转 化为结 构和语义 更为清 晰的格式(XM L 、 关 系数据 、 面向对 样品以供 机器 学习 , 能够处理大量站点情况 , 并且维护开销小 , 具有 象的数据等) 。基于 X ML技术抽取的流程 为 : 第一步 , 使用 网络爬虫 很强的实用价值。值得 注意 的是还存在着改进 的地方 , 比如抽取了 获取 HT ML 文档 。 每二 步 , 对原始的 H T ML文件加工清洗 , 经过使用 部分用户不感兴趣 的数据 , 这可 以尝试使用领域分词过滤掉不需 工具 T i t y 对网页语法检查及纠错 , 将H T M L文档转换为结构完整 的 要的信息加以完善 。 X H T ML 。 第三步 , 使用 H T ML P a r s e r 等工具解析 X ML文档生成 D O M 参 考 文 献 树模式 ; 第 四步 , 利 用信息抽取规则 提取有价值 的信息存储 到数据 『 1 ] B i n g L i u We b数据挖掘『 M1 . 北京 : 清华大学 出版社, 2 0 0 9 . 库 中以便使用 。 『 2 1 王震 江. X ML程序设计『 M 1 . 北京 : 中国铁道 出版社, 2 0 0 6 . 针对 目前 全 自动 We b文 本抽 取算 法查 准率 低 的特点 ,引入 『 3 1 胡立辉 , 张健 , 陈曦 . 基 于正则式的 C N K I网 页全 自动 包装 器【 J 】 . 长 S V M( 支持 向量机 ) 文本分类算法 , 通 过一定量 的样例学 习 , 选取领 沙理工大 学学报f 自然科学版) , 2 0 0 6 , 6 . 域相关 的关键词 的特 征 向量 , 作二元分类 , 过滤抽 取文本 中无用信 『 4 1 杨桢 , 赵 燕平 , 朱 东华. 基 于正则表 达式的信 息抽 取 系统在 国防技 息, 精化抽取规则 。 术监测 中的应用Ⅱ 】 . 北京理工大学学报 , 2 0 0 6 , 6 . 包括学习阶段的网页抽取 流程如 图 1 所示 。 【 5 】 张绍 华 , 徐林 吴. 基 于样 本 实例 的 We b信 息抽 取[ J 】 . 河北 大学学 3算法的主要 内容 报, 自然科 学版 , 2 0 0 1 , 4 . ( 1 )向面领域 的多线程 爬取 R L队列 的设计 , 解决 “ 去 重” 问 题在系统 网页采集功能模块 中 ,主要 问题为维护待爬取 的 U R L任
信 息产 业
・ 1 5 3 ・
ห้องสมุดไป่ตู้基于 S V M 的 We b信 息抽取研究
郭东峰 ( 新 乡学院 计算机 与信 息工程 学院 , 河南 新 乡 4 5 3 0 0 0 )
摘 要: 阐述 了针对 中小型企业供 需信息 自 动化 We b信息抽取技术的研 究。 自动化是指 不需要人工标 注网页抽取规 则学 习样本 , 系统 能够从不 同的求购信息网站的 网页里 自动获取相应的信 息抽取规则 , 通过引入领域特征来净化抽取到文本 字段 而获得较 高的查准率。 关键词 : 信息抽取 ; X ML数据 ; 支持 向量机
中小 型企 业借助于搜 索引擎从 网络中获取产 品供求信 息作为 促进销售 的重要手段 。 如何从庞大的信息海洋中快 速准确地获取需 要的供求信息 , 成 为企业一个非 常重要的问题 。目前虽然搜索引擎 为企业查找产品供求信息提供了简便的方法 , 但它 只是 提高了 We b 文档 的检 索效率 , 只能根据用 户提交 的关键 词返 回一组 U R L , 用户 必须逐一浏览 U R L对应 的 We b页 , 采用人工的方式定位最终 信息 , 现有 的搜索引擎本身不能直接定位到所需 的数据 , 更谈不上为数据 增加语义。这使得存在于网页上的信息不能被直接利用 , 仍然需要 并花费大量时间进行人工阅读分析 。
相关文档
最新文档