基于WEB的智能信息采集及处理

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
词汇 、 法 、 义分 语 语 析等 自然语言处理技 术 , 文章的文本 内容进 对 行深入分析 ;再根据线性加权 融合两种分析得 到 的结果 ,生成摘要 ; 最后采 用指 代消解技术 (npoaR s uo eho g) 行平 滑使 A ahr eo tnTcnl y 进 li o 生成的摘要更连 贯流畅 。在 七 述摘要生成 的算 法 中 , 分元数 据如对标 题 的分 析 、 部 作者 、 主题 词 的提取 , 中间结果 也将被输 出和保存 , 作为 形 成完整 的符合基本文献规范 的元数据体系。 4结束语 基于 We b的信 息采集 和处 理技术 , 在互联 网飞速 发展的时代 ,将扮演者越来越重要 的角 色。 本文 十 和实施 的系统 , 继承和发展了现有 的偏 平化 的信息采集 策略 , 信息采 集 、 织 以“ 组 处理和发布 ” 三项并 重为理念 , 使面向We 的信 b 息采集 系统向垂直和智能 的方 向推进 , 同时 也 预示着该 系统有广泛 的市场 和应用前景 。
二级 目录名 , 三、 第 四个字 符组 合作为文件名存 放在二级 目录下 ,每个文件 的大小 固定为 4 , K 最后 还剩下 三个字符 一共是 1bt 共 有 4 9 2i , 06 个二进制数 ,与 4 K的文件大小 刚好 一一对应。 这种机制 能够容纳的总页面数 为 2 2 3 ,大约 4 3 亿个 , 几乎包括 目前互联网 E 所有 U L R 链接 。 3 T  ̄ . H ML 2 为 了提高下载页面 的有效性 , 需要过 滤掉 些无用 的噪声信息 。 传统 匕 有两种解决方案 , 是 页面学 习的方式提取熵值最大 的页面分块 ; 二是通过定义访 问路径来提 取需要访 问的感 兴趣 的内容。无论是哪一种方案都 必须有 对页 面的H M T L的解析能力 ,即构 造合适 的数 据结 构来解析 H ML T 的标 签。解析 的难 点在于 目前 的网络 we b页面 的 H M 非 常不 规范 、不 严 T L 格 , 之间即使有错误或 者不严格 的匹配 , 标签 I E 也 能完美 的呈现 。 是为了信息 的精确提取 , 但 必 须要构造严 密的访 问结构 。 3 自动摘要与元数据分析 3 摘要是指通过对文档 内容处理 ,从中提取 图 3 出满 足用户需求 的重要信息 ,经过 重组修 饰后 传 统上 的 We 信 息采集 不具 备对 下载 信 生 成比原文更精炼 的文摘过 程。 目 主要 自动 b 前
一 一
图 1
息 的深层次加 工能力 ,而本系统不仅 实现 机器 文摘技术有三类 : 基于浅层分 析的方法 、 于实 基 基于 话语结构 白方法 。 g 的自 动分类 、 摘要 和元数 据分析 , 还提供人 机交 体分 析的方 法、 本 系 统采用 一种 新 的使 用 自然语 言处 理 互 的机制 , 将处 理的结果以便捷预览 的方 式呈 N P- I  ̄ 动摘要 系统 , 通过融合基于 内容 现, 用户可 以进行修 改 、 删除以及确认后入 库存 ( L ) * 的 自 的方法[ae n C n n 和基 于主题(ae n B sdo o t t e] B do s 储等操作 , 发布信息的正确性 和有效性。 确保 Tp) oi的方法 , 主题 与 内容 相结 合 , 具有 c 将 生成 2 . 4信息发布子系统 近年 来信息 的发布形式 越来 越备受关 注 , 良好连贯性和流 畅性 的摘要。基本思想是首先 作为对外信 息服务的平 台,该子系统 主要 特点 对主题词进行分析, 动态地处理具有抽象标题和
弊端是显而易见 的 , 中文网页有 4 如 亿左右 , 假 设每一个 U L的平均长度 为 2 个 字符 , 么 R 5 那 参 考 文献 存储这些网页的 U L R 地址需要 的空间为 8 左 G 1 1 戴新 陈 ne 上 me 动 右, 很显然面对如此 大的文件 , 这种机制无法快 『尹存 燕. 宇. 家骏Jt t 文本的 自 程如 图 2所示。 计算机 工程 - L2 0 e 2 o V 3 N 3 h 06 o R 因此不能保证 陕速 的下载 摘要技 术. 有别于通用 的 We 信息采 集器 , b 该子系统 速的进行 U L查找 ,
信 息 技 术
CnNw e noea o c ha e T h li nP d: i c ogs d rus t
基于 WE B的智能 信 息采 集及处理
吴 艳
( 阳 电 业局 信 息 中 心 , 南 益 阳 4 3 0 ) 益 湖 10 0
摘 要 : 文研 究 的基 于 We 智 能信 息采 集及 处理 系统 , 方 面采 用 高 效的 U L去 重 和基 于模 版 的 下栽 机 制 , 大提 高 了采 集 本 b的 一 R 极 We b资源 的性 能 ; 一方 面应 用成熟 、 另 先进 的 自然语 言处 理技 术 , 对采 集信 息做 智 能分 类和 摘要 。 关键词 : b 集 , R We 采 U L去 重 , 能信 息处理 , 智 个性 化发 布
1引 言
www 从诞生 以来 至今 , We 信息 的搜 对 b 索 正在从 “ 平 ” 向“ 直”从 “ 偏 走 垂 , 通用 ” 发展 到 “ 陛和智能 ” 个 。但是据调查 目 前市 场上绝 大部 分搜索 工具或者产品都存在 “ 重采集 、 忽视信 息 的处理和服务”即对采集 的信息缺乏深层次 的 , 加工 、 , 处理 并且提供 主动的信息发布服务 的机 制。 经过十余年 的市场培育 , b we 用户最需要的 是能提供面向一定的领域 ,有较好智 能程 度的 信息采集 、 加工和发布的产品, 本文将 构建 和实 现这样 的系统 。
中国新技术新产品
一4l一
图2
z b 2we 信息采集子系统 We 采集器 一般 都是 从称 为种 子 的 U L b R 出发 ,通过协 议 向 We 上其 它所 需 页面作 扩 b 展 。经研究表 明 We 上 3%的页面是重复 的, b 0 当面 向特定 的主题 时 , %以上 的 U L 接是 8 0 R 链 我们不 的 , 因此在采集 中如何进行 U L R 去 重 和分 析适合 主题特 征 的 U L 提高采 集子 R 是 系统 效率 的重要 因素 。同时 如何 获取 有 效 的 We 页 面信 息 , 广告 、 b 过滤 导航栏 等噪声 , 将直 接影 响后续 的智能处 理的性能 。该子系统 的流
有: 多视角 、 多层次发 布采集 信息 , 即从来 源 、 原 始栏 目、 分类体 系多个视角交叉进行展 示 , 可以 灵 活的进 行信息集合 的交 、 并运算 ; 个性化 信息 发布, 用户登 录后 利用个 『化信息 定制界面 , 生 选 择 自己感兴趣 的信息视角 , 再次登 录后 , 推送给 用 户的就是完全个性化 的信 息内容 ;强大 的信 息 检索能力 , 不仅提供针对独立字 段的检索 , 还 提供 陕速检索 、 高 3若干关 键技术
和去重 。在本系统 中采 用了文件 目录寻址机制 来 实 现 U L的快速 去重 。基本 思想是 首先将 R U L R 地址做 C C 2 R 3 转换 , 生成—个唯一 的 4 字 节 3 位 的编 码 , :8 A B F 将 4 字节组 2 如 EC O 3, 个 成两级 目录和一 级文件 ,即第—个字节 的首字 符作为第一级 目录名 , 二 、 第 三个字符组合作 为
最大 的特点在 于任何用户的主题采集 都是在相 应 的模版 的支撑 下完成 。所谓模版 就是关于要 采集 的 We 对 象的特征描 述 , b 为了提 高下 载 的 有 效性 和效 率 ,将 某 一个 具体 的网站 所有 的 we 页面划分为 H b页和 T p 页 ,表示为一 b u oi c 个三元组< ,f f。 中 M刻画 We 页共性特 MH,> 其 T b 征, : 如 网站名称 、 网站 U L R 地址 、 言种类等 ; 语 H 刻画该 we 资源 中的 H b f b u 页面特 征 ,即此 类 We b中哪些 U L R 地址特 征是下载 时需 要解 析 的;而 T 则是刻 画某一类具 体的 Tpc f oi页特 征 ,主要 是描述用户最感兴趣 的内容的访 问路 径, : 如 正文标题 、 者、 源等 。为 了实现对下 作 来 载的 We 资源 的监控 , 最新 的信 息及时地推 b 将 送 给用户 ,触发器可 以为用户 指定 适合需要 的 采 集策略 ,通过设定一定 的间隔时间来激活 下 载机器人 , “ 巡视” 是否存在最新的信息。 2 3信息智能处理子系统 该 系统预先通过 机器学 习建立用户感兴 趣 的 内容分类器 , 当用户某一 次下载任务完成后 , 发送消息激活处理子 系统 ,系统将会 自动地 处 理下载 的内容 , 主要包括 自动分 类 、 自动摘要 和 元数据 分析 , 如创 建正文 标题 、 键字 、 关 分析 作 者等。系统流程如图 3 所示 。
2系统架构
系统由三个子系统组成 , We 信 息采集 即 b 子系统 、信息智能处理子系统 和信 息发布子系 统。 三个 子系统 可以单独部署 和运行 , 以通 也可 过接 口文件实现整个过 程的 自动化采集 、智能 化处理和主动式发布 , 整体架构如 图 1 所示。 1系统整体架构 该系统架 构不仅适 合较 大用户的分布式部 署采集 、 加工 的需要 , 也可 以适应单 用户集 中部 署 的需要 。 当用户只需 要某个子系统 时 , 只需对 接 口文件 稍作 配置 就可 以满 足不 同 的用 户需
3 R 去重 .U L 1 常规的 U L 重有 两种解决思路 , R 去 一是将 所有的 U L R 地址 存人数据库 , 好索引后 , 做 利 用数据 库的查 找来判 断该 U L 否被重 复下 R 是 载; 二是利用文件存储 , U L 过一定转换 , 将 R 通 也是建立基于文件 的查 找索引。这两种方式 的
相关文档
最新文档