网络信息采集现状及技术研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
化 的信 息从 大量 的网 页 中抽 取 出来 , 后 保 存 到结 然
构 化 的数 据 库 中 的过 程 。信 息 采 集 系统 ( n r a If m . o t nC l c o yt 是 以 网络 信息 挖 掘 引擎 为 基 i o et nSs m) o l i e 础 构建 而成 , 它可 以在 最短 的时 间内 , 帮助 网 络用 户
1 网络信 息及 采 集 技 术 概 述
网络 信 息 资源 具 有极 为 丰 富 , 况 起 来有 以下 概
几个 特点 J一是 数 字化 、 络化 、 拟 化 。网 络 资 : 网 虚 源 以存 储方 式数 字化 、 传播 方式 网络化 、 形态结 构 虚 拟化 的方式 在 网上 表 现 出来 。二是 内容 多样性 。 网
第2 7卷 第 1 期 21 年 1 01 月
甘肃 科技
G n u S in e a d T c n l a s ce c n e h o
I 2 , c 7
Ⅳo .1
J n 2 1 a. 0 1
网 络 信 息 采 集 现 状 及 技 术 研 究
何 瑛‘刘 琦 宋 军 , , , 张树祥
目前 , 网络信 息 采集 技术 主要 可 以分 为 基 于人 工 系统 的信息 采集技 术 和基 于计算 机系统 的信 息采
集技术。基于人工系统的信息采集技术方法主要分 为 直接观 察法 、 会调 查法 和查 资料 法 , 中社会 调 社 其
查 法又可 以分 为普遍调 查法 、 型调 查法 、 典 抽样调 查
容, 在这 一过 程 中信 息被反 复利用 , 不但 不会导 致 网 上 信息 资源损 耗 , 而 可使 信息 增 值 。八是 内容 的 反 复 杂性 。信息 资源 的网络化使 人们具 备 了获取 丰富 信 息 的能力 , 而信息 能 力 的膨 胀 同 时也 使人 们制 造
信 息垃圾 的能力 膨胀 。
服 务 。用 户在 网上 利用 各种 手段查 找所 需 的信 息 内
和个 别访谈 。平 时所说 的信息 采集技术 基本 上都是 指基 于计算 机系 统 的信息 采集技 术 。 传 统 的基于计 算机 系统 的信 息采集 技 术主要有
把最 新 的信 息 从 不 同 Itre 站 点 上 采 集 下Βιβλιοθήκη Baidu来 , nent 并 在进 行分类 和统 一格 式 后 , 一 时 间之 内把 信 息 及 第 时发 布到 自己的站 点上 去 , 从而 提高信 息及 时性 、 节
省或 减少工 作量 。
络资源包罗万象 , 具有大数量 、 多类型、 非规范、 跨时 空、 内容 良莠 不齐 、 质量 高低 不等 的特点 。三是 资源
(. 1西安航空 职业技术学 院, 陕西 西安 7 0 8 ;. 84 部 队 , 10 92 6 2 3 甘肃 嘉峪关 75 0 ; 3 00 3631 队 , . 83 部 陕西 华阴 74 0 4 西安陆军学院 , 120;. 陕西 西安 7 0 0 ) 118
摘 要 : 国 内 网络 发 展 的现 状 人 手 , 从 主要 介 绍 了 网 络 信 息 及 采 集 技 术 概 述 、 术 方 法 和 发展 中 面 临 的 主 要 问 题 和 技
困难 , 通过这些使用户更好 的掌握获取网络信息的方法 , 方便 1常工作 、 活和学 习。 3 生 关键 词 : 通信与信息系统 ; 信息采集 ; R ; S ; A U L R SO I
中 图分 类 号 : N 1 T g5
根 据 中 国互 联 网 络 信 息 中心 ( N I 发 布 的 C NC)
《 2 第 6次 中国互联 网络发展状 况统计报告 》 显 … 示 , 至 21 截 0 0年 6月底 , 国网 民规 模达 4 2亿人 , 我 .
互联 网普 及 率 持 续 上 升 增 至 3 . % 。手 机 网 民 成 18
为拉 动 中国总体 网 民规模 攀 升 的主要 动 力 , 年 内 半 新增 4 3 3 4万 , 到 2 7 达 .7亿 人 , 幅 为 1 . %。我 国 增 86 目前 的网站数 量 为 2 9万个 , 国每万人拥 有 2 个 7 全 1 网站 , 每万 名 网民拥 有 6 6个 网站 。然 而 , 面对 如 此 众 多 的网站 , 如何 了解 、 知 , 熟 并最 终 从 这 些 网站 得 到对 你有 用 的信息 成 为 亟 需解 决 的问题 , 网络 信 息
分布无序 性 。 网络资 源 的构 成 和分 布 杂 乱无 章 , 缺 乏 统一 的结构 和组织 , 分散无 序状 态 , 以超 文本 呈 它
方 式构成 一个 立体 网 。四是 资源开放 性 。网上 资源 是 开放 的、 相关 联 的 , 用户 只要 将计算 机连 接在 网络
2 网络信息采集 的技术方法
上, 就可 以任意 浏览 并 下载 这 些 网 络 资源 。五 是 动 态性 。 网上 资源跨 地 区分 布 , 速传播 , 高 更新 淘 汰周 期短 , 变化 快 、 不稳 定 , 高度 动 态 性 和很 强 的 时效 呈
性 。六 是 互 动 性 。在 网 上 可 以形 成 广 泛 的论 坛 氛 围 , 家可 以就某 一专 题开设 电子论坛 , 网上 直 接 专 在 交流讨论 、 馈用 户信 息 , 有很 强 的互 动功 能 。七 反 具 是 增值性 。网上信 息资 源开 发与建 设 的最终 目的是
采集 技术 就解 决 了这 个 问题 。
信息采 集 (n r tnC lco ) Ifmao ol tn 是指 生产 在 o i ei 信息 资源方 面做 准备 的工作 , 括 对 信息 的 收集 和 包
处 理 , 选题 策划 的直 接基 础 和 重要 依 据 。 网络信 是 息 采集 ( ew r n r t n G teig 是 将 非 结 构 N tok I oma o a r ) f i h n