网络舆情监测技术研究综述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
重视。
信 息 处理 的一 个分 支 .也 是人 工智 能 ( rf i Itl. At ca nel i l i i
根据 《 2 第 6次 中 国互 联 网络 发展 状 况调 查 统计 报 g n e 的 核 心课 题 之一 。在 网络 舆情 监 测 的 各不 同处 ec) 告》 ,截至 2 1 0 0年 6月 3 日,中 国网 民规模 达 到 42 理 阶段 中 。 L 0 . N P技 术都 起 到 了关 键作 用 。 在 网络舆 情 监 测处 理 过程 中 .一 般 包 含 如下 基 本 亿人 。 稳居 世界 第一 。 普及 率 达 到 3 .%【 18 ” 。面对 如此庞 大 的 网 民数 量 .网络舆 情 已经 引起 政 府部 门和企 业单 步 骤 : 网络舆 情采 集 , 舆情 自动 分类 , 题 识别 与 跟踪 , 话
2 1 年第 8期 01
福
建 电
脑
3 9
网络舆情监测技 术研 究综述
潘文富 .郭友 实
(厦 门市人 才服 务 中心 福 建 厦 门 3 1 1 60 2)
【 摘
要】 :本文将对 网络舆情监测技术所涉及的各关键技术包括信 息获取技 术、 文本分析技术、 文本
分 类技 术 、 文本 聚 类技 术 、 自动 文 摘技 术 、 题 识 别 与跟 踪技 术 以及 文 本倾 向性 分 析技 术等 的研 究现 状进 主
表 性 的 网络舆情 监 测 系统 有方 正智 思 互联 网信 息 监控 三类 : 用爬 虫 ( e eaP roe b rwe ) 面 向主题 通 G n r up sWe C a lr 。 l
分 析 系 统圆 T S互 联 网舆 情 管 理 系统【 G o i 络 爬 虫 ( ou C a l T pelrw e) 面 向 D eWe 、R 4 】 o ne网 和 F c s rw e o i C a l . mr a r ep b爬 虫 ( e p b rwe ) D e We C a lr 。考虑 到 网络舆 情 监 测 一般 是 面 舆 情监 控 分析 系统[ 。这 些 系统 在 “ .2汶川 地 震 ” s l 等 51 、 “ 制 家乐 福 ” “ 玉娇 事 件 ”等 事件 中发 挥 了重 要 的 向行 业监 测 。 向于使 用 面 向主题 爬虫 。“ 向主题 爬 抵 、邓 倾 面
文本 情感 分 析等 。下 面我 们将 以这 五 个 步骤 为线 索 分 位 高度 的关 注圆 。 各级 党 政 机关 、企 事业 单 位 和学 术 机构 纷 纷 成立 别 介 绍 网络 舆情监 测 中各关 键技 术 的研究 现 状 。 . 了网络 舆情 研究 部 门或 机构 。 京交 通 大学 、 北 中国人 民 31网络舆 情 采集 大 学 、 京 大 学 、 国传 媒 大学 、 国科 学 院研 究 院等 南 中 中 在 信 息 采集 步 骤 中 .主要 包括 网络 爬 虫 ( . We
知 名 高 校 成立 了专 门 的 研究 机 构 , 引 了 工 、 、 、 b rw e) 网页清 洗 ( b ae la ig 等 技 术 。 吸 管 经 Ca l 和 r We P gCe nn ) 网络 爬虫 是 一 个按 照 一定 规 则 自动 抓 取 网络 信 息 理、 、 、 文 法 哲等 领域 的专 家 进行研 究 。 内外 软件 厂商 国 也 纷纷 开 发 出 自己的舆情 监 控 软件 。 国内 。 在 比较 有代 的程 序 , 称 为 网络蜘 蛛 ( bpdr。 网络爬 虫 分 为 又 WeSie)
行 了综述 . 结合人 才信 息 网的特 点提 出了两点 应 用设 想。 并
【 关键词】 网络舆情监测 ; : 人才信息网
1 引 言 、
供 有效 分 析依 据 。
、 随着 信 息传 播 技术 的发 展 和普 及 ,网络 作 为信 息 3 网络 舆情 监 测关键 技 术和研 究现 状 从 技术 角 度 来讲 .网络舆 情监 测 系 统 是众 多 技 术 交 流 和 知识 共 享 的 最 好平 台 。被 公认 为是 继 报 纸 、 广
பைடு நூலகம்
播、 电视之 后 的“ 四媒 体 ” 成 为反 映 社会 舆情 的主要 结 合 的成 果 。其 中最核 心 的是 自然 语 言处 理 ( a r . 第 , Nt a u1 a g ae rc si , I 技 n 自然 语 言 处 理 是 语 言 载 体之 一 。对 网络舆 情 的研 究 逐渐 得 到学 者 的关 注 和 L nu g Po es g N P) 术 ,
才 信息 网中 的构 想 : 第五 节 是小 结 。
题 相 似 性 .实 现 了基 于 开 源 L ri 主题 网 络爬 虫 abn的
2 网络舆 情监 测 的概 念 、 Tabn l i。应 用 广 泛 开 源 软件 有 L ri 、 rr [和 r abn嘲 Heii 1 tx o l 网络 舆 情监 控 系 统是 近 年来 人 工 智 能技 术 的重 大 Nuc [ 。 th ” 应用 , 它整合 互联 网搜 索 技术 及 信息 智 能处 理 技术 . 通 网 页清洗 就是 从 网页 中过 滤掉 “ 噪声 ” 据 . 取 出 数 提
作用。 虫” 这一 概念 由 SC a rb r 在 1 9 .h ka a i t 9 9年 WWW 大会 上 本 文 将 对 网 络 舆 情 监 测 技 术 的研 究 现 状 进 行 综 首 次提 出[ 与 通 用 的 网络 爬 虫不 同 , 题 网络 爬 虫 是 6 1 . 主
述 . 结合 人才 信息 网的特 点提 出 了若 干应用 设想 。 并 文 面 向主题 的 、 有选 择地 爬行 。 主题 网络爬 虫 主要 有两 种 章 的余 下部 分按 如 下方 式 安排 :第 二 节介 绍 网络 舆情 技 术 : 于 We 基 b链接 分 析 的搜 索 、 于 We 基 b内容 分 析 监 测 的概念 :第 三 节介 绍 网络 舆情 监 测 的关键 技 术及 的搜 索 。 通 过 改进 的 S ak Sac 网 hr— erh搜索 策 略算 法对 网 其 研究 现状 :第 四节提 出 网络 舆情 监 测技 术应 用 到人 页 中提 取 的 U L进 行预 测 . 通过 计算 网页 内容 及 主 R 圈
信 息 处理 的一 个分 支 .也 是人 工智 能 ( rf i Itl. At ca nel i l i i
根据 《 2 第 6次 中 国互 联 网络 发展 状 况调 查 统计 报 g n e 的 核 心课 题 之一 。在 网络 舆情 监 测 的 各不 同处 ec) 告》 ,截至 2 1 0 0年 6月 3 日,中 国网 民规模 达 到 42 理 阶段 中 。 L 0 . N P技 术都 起 到 了关 键作 用 。 在 网络舆 情 监 测处 理 过程 中 .一 般 包 含 如下 基 本 亿人 。 稳居 世界 第一 。 普及 率 达 到 3 .%【 18 ” 。面对 如此庞 大 的 网 民数 量 .网络舆 情 已经 引起 政 府部 门和企 业单 步 骤 : 网络舆 情采 集 , 舆情 自动 分类 , 题 识别 与 跟踪 , 话
2 1 年第 8期 01
福
建 电
脑
3 9
网络舆情监测技 术研 究综述
潘文富 .郭友 实
(厦 门市人 才服 务 中心 福 建 厦 门 3 1 1 60 2)
【 摘
要】 :本文将对 网络舆情监测技术所涉及的各关键技术包括信 息获取技 术、 文本分析技术、 文本
分 类技 术 、 文本 聚 类技 术 、 自动 文 摘技 术 、 题 识 别 与跟 踪技 术 以及 文 本倾 向性 分 析技 术等 的研 究现 状进 主
表 性 的 网络舆情 监 测 系统 有方 正智 思 互联 网信 息 监控 三类 : 用爬 虫 ( e eaP roe b rwe ) 面 向主题 通 G n r up sWe C a lr 。 l
分 析 系 统圆 T S互 联 网舆 情 管 理 系统【 G o i 络 爬 虫 ( ou C a l T pelrw e) 面 向 D eWe 、R 4 】 o ne网 和 F c s rw e o i C a l . mr a r ep b爬 虫 ( e p b rwe ) D e We C a lr 。考虑 到 网络舆 情 监 测 一般 是 面 舆 情监 控 分析 系统[ 。这 些 系统 在 “ .2汶川 地 震 ” s l 等 51 、 “ 制 家乐 福 ” “ 玉娇 事 件 ”等 事件 中发 挥 了重 要 的 向行 业监 测 。 向于使 用 面 向主题 爬虫 。“ 向主题 爬 抵 、邓 倾 面
文本 情感 分 析等 。下 面我 们将 以这 五 个 步骤 为线 索 分 位 高度 的关 注圆 。 各级 党 政 机关 、企 事业 单 位 和学 术 机构 纷 纷 成立 别 介 绍 网络 舆情监 测 中各关 键技 术 的研究 现 状 。 . 了网络 舆情 研究 部 门或 机构 。 京交 通 大学 、 北 中国人 民 31网络舆 情 采集 大 学 、 京 大 学 、 国传 媒 大学 、 国科 学 院研 究 院等 南 中 中 在 信 息 采集 步 骤 中 .主要 包括 网络 爬 虫 ( . We
知 名 高 校 成立 了专 门 的 研究 机 构 , 引 了 工 、 、 、 b rw e) 网页清 洗 ( b ae la ig 等 技 术 。 吸 管 经 Ca l 和 r We P gCe nn ) 网络 爬虫 是 一 个按 照 一定 规 则 自动 抓 取 网络 信 息 理、 、 、 文 法 哲等 领域 的专 家 进行研 究 。 内外 软件 厂商 国 也 纷纷 开 发 出 自己的舆情 监 控 软件 。 国内 。 在 比较 有代 的程 序 , 称 为 网络蜘 蛛 ( bpdr。 网络爬 虫 分 为 又 WeSie)
行 了综述 . 结合人 才信 息 网的特 点提 出了两点 应 用设 想。 并
【 关键词】 网络舆情监测 ; : 人才信息网
1 引 言 、
供 有效 分 析依 据 。
、 随着 信 息传 播 技术 的发 展 和普 及 ,网络 作 为信 息 3 网络 舆情 监 测关键 技 术和研 究现 状 从 技术 角 度 来讲 .网络舆 情监 测 系 统 是众 多 技 术 交 流 和 知识 共 享 的 最 好平 台 。被 公认 为是 继 报 纸 、 广
பைடு நூலகம்
播、 电视之 后 的“ 四媒 体 ” 成 为反 映 社会 舆情 的主要 结 合 的成 果 。其 中最核 心 的是 自然 语 言处 理 ( a r . 第 , Nt a u1 a g ae rc si , I 技 n 自然 语 言 处 理 是 语 言 载 体之 一 。对 网络舆 情 的研 究 逐渐 得 到学 者 的关 注 和 L nu g Po es g N P) 术 ,
才 信息 网中 的构 想 : 第五 节 是小 结 。
题 相 似 性 .实 现 了基 于 开 源 L ri 主题 网 络爬 虫 abn的
2 网络舆 情监 测 的概 念 、 Tabn l i。应 用 广 泛 开 源 软件 有 L ri 、 rr [和 r abn嘲 Heii 1 tx o l 网络 舆 情监 控 系 统是 近 年来 人 工 智 能技 术 的重 大 Nuc [ 。 th ” 应用 , 它整合 互联 网搜 索 技术 及 信息 智 能处 理 技术 . 通 网 页清洗 就是 从 网页 中过 滤掉 “ 噪声 ” 据 . 取 出 数 提
作用。 虫” 这一 概念 由 SC a rb r 在 1 9 .h ka a i t 9 9年 WWW 大会 上 本 文 将 对 网 络 舆 情 监 测 技 术 的研 究 现 状 进 行 综 首 次提 出[ 与 通 用 的 网络 爬 虫不 同 , 题 网络 爬 虫 是 6 1 . 主
述 . 结合 人才 信息 网的特 点提 出 了若 干应用 设想 。 并 文 面 向主题 的 、 有选 择地 爬行 。 主题 网络爬 虫 主要 有两 种 章 的余 下部 分按 如 下方 式 安排 :第 二 节介 绍 网络 舆情 技 术 : 于 We 基 b链接 分 析 的搜 索 、 于 We 基 b内容 分 析 监 测 的概念 :第 三 节介 绍 网络 舆情 监 测 的关键 技 术及 的搜 索 。 通 过 改进 的 S ak Sac 网 hr— erh搜索 策 略算 法对 网 其 研究 现状 :第 四节提 出 网络 舆情 监 测技 术应 用 到人 页 中提 取 的 U L进 行预 测 . 通过 计算 网页 内容 及 主 R 圈