大学生网络舆情分析系统
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
说 明 系 统 有 哪 些 可 用 的 插 件
插件配置文件
技术分析
Libcurl使用:
爬取逻辑
• 采取状态识别的方式抓取具体信息
爬取逻辑
• 状态说明:
下载器 T S:1 T S:3 T S:1 T S:3 T S:3 T S:3 列表页解析
2 T S:0
T S:3 S:1
1 T S:2
3 T S:4
了不良舆论的传播。
研究意义
大学生作为社会的特殊群体既是网络的 重要使用人群,也因社会阅历浅显极易受到 网络信息的煽动和迷惑,更需关注。因此网 络舆情突发事件的监测与分析特别是对于大 学生人群,具有重要的理论意义与实际应用
价值。
项目完成情况
自本项目成立以来,我组成员经过将近 一年的时间的不懈努力,目前,本系统基本 功能已得以实现。 本舆情分析系统由信息获取子系统、信 息处理子系统、信息展示子系统以及相应的 数据库和文件管理子系统组成。
项目完成情况
信息展示模块及相应的数据库和文件管
理子系统的工作方面,该部分由于提前开始
因此进度进行较快,九月初完成了信息展示
模块基本界面,此后经过进一步的美化工作
的努力,信息展示子系统基本功能已完成。
技术分析
研究方法:系统模块化设计 1)信息获取模块,该部分由网络爬虫组 成,获取指定的站点集信息,并进行过滤处理, 将有效内容整理入库。 2)信息处理模块,该部分实现信息过滤 筛选以及匹配结果的投放实现;同时还有索引 的建立以及查询服务。 3)信息展示模块,该部分用于整个系统 的UI实现,以特定事件分析的形式呈现直观分 析结果。整个系统采用低耦合方式联接,各模 块独立工作。
技术分析
界面展示&任务配置 任务配置 规则配置 系统配置 结果展示
数据库&文件系统
爬虫
信息获取模块 数据入库 信息 提取
配置读取
信息读取
信息处理模块 分词索引 检索投放
配置读取
任务调度控制
任务调度控制
模块化系统设计图
技术分析
天眼舆论监控系统技术分布图 信息采集子系统
通道管理模块
多任务管理模块
爬虫通信模块
辅助模块
信息去噪入库
论坛(Discuz、phpwind 等)
任务下发
IPV6 扩展支持
模板生成
HtmlParser 技术
微博(twiiter、新浪等)
任务分片
Biblioteka Baidu
RESS
种子管理
基于 DOM 树和模板 提取技术
博客(wordpress 等)
分布式爬虫管理
Libcurl 网络编程
SNS(facebook、人人等)
other
T S:3
4 T S:0
内容页解析
DB
技术分析
天眼舆论监控系统技术分布图 信息采集子系统
通道管理模块
多任务管理模块
爬虫通信模块
辅助模块
信息去噪入库
论坛(Discuz、phpwind 等)
任务下发
IPV6 扩展支持
模板生成
HtmlParser 技术
微博(twiiter、新浪等)
任务分片
RESS
大学生网络舆情分析系统
小组成员:王煦祥 、 宫名 、 周鑫鹏 报告人: 周鑫鹏 时间: 2013年5月5日
大学生网络舆情分析系统
报告内容:
1、背景分析 2、研究意义 3、项目完成情况 4、技术分析 5、存在的问题及不足之处 6、成果展示
背景分析
互联网已经发展成为当今世界上最大的信 息库,是网民最新最快获取与发布信息的渠 道,越来越多的重大事件最初都是通过互联 网批露或诱发的,其动员力、煽动力和影响 力不可小视。特别是微博、SNS、论坛等网络 服务的出现,在方便人们交流的同时也加速
技术分析
信息展示模块图
技术分析
信息展示模块: 该模块功能主要有:任务配置、规则配 置、系统配置、结果展示等四大功能。拥有敏 感事件、特定事件、网络人物分析等分析策略, 能够提供这些方面的基本服务;提供内容列表、 分布图、时间曲线等呈现分析结果,提供了直 观的显示。报警设置接口提供多种事件报警机 制。网络人物关系分析图谱,生动的呈现人物 关系。
技术分析
主 初 始 化 配 置 信 息 爬 虫
种子 模板 插件
下载器 处理器
组 合
子爬虫 数据库
爬虫架构图
垂 直 爬 虫
技术分析
主 要 配 置 , 设 置 访 问 板 块
种子
URL
技术分析
模板
• 一个页面当中有很多信息,用户通常只需 要其中的一部分信息,如最新发布的动漫 资源,广告则是不必要的信息。 • 模板就是用来配置需要提取的信息。 • 使用的XPATH路径提取方式。
种子管理
基于 DOM 树和模板 提取技术
博客(wordpress 等)
分布式爬虫管理
Libcurl 网络编程
SNS(facebook、人人等)
新闻站点(新华网等)
信息处理模块图
技术分析
信息处理模块: 该部分实现信息过滤筛选以及匹配结果 的投放实现,同时还有索引的建立以及查询服 务。 提供正则匹配、SVN两种不同的信息处 理方式,采用FirteX高效信息检索平台建立增 量索引,提高搜索性能。
存在的问题及不足
1、关于数据的去重问题。URL去重有很 多种方式:数据库去重、文件去重、哈希映射 去重等。 目前采用的最简单的数据库去重。效率 偏低,实现简单。 文件去重是在本地磁盘建立以URL字符 为基准的多层目录结构,一个URL对应一个文 件夹。哈希映射法一般采用三个不同的哈希函 数映射到一个空间中,避免冲突。对于数据去 重方面还需进一步的研究和实践。
项目完成情况
信息获取模块,完成了对指定站点信息的 检索和对数据的过滤处理的工作,并实现将 有效数据入库。在后来的工作中通过对程序 进行细节的检查及改善,信息获取子系统基 本功能已实现。
项目完成情况
信息处理模块,在规定的日程内完成了 对信息过滤筛选以及匹配结果的投放实现, 同时还有索引的建立以及查询服务的工作。 信息处理模块开发工作已完成
XPATH简单介绍
• 计算机存储的文本文件分为结构性和非结 构性两种。 • 非结构性,就像我们平时码在记事本里的 字一样。 • 结构性文件,比如XML文件,由标签和内 容组成,便于程序处理。
技术分析
XPATH事例:
//cclawer/module/enable/text() =>
”true”
技术分析
新闻站点(新华网等)
信息检索模块图
技术分析
信息获取模块: 网络爬虫程序的设计大规模使用了OPP 方法,支持多线程分布式数据并行采集。 信息提取方面通过种子、模板及插件的 使用生成不同类型的子爬虫。子爬虫主要执行 的过程包括:设置种子;编译种子/模板;设置 初始任务;开始运行。 使用libcurl及TIDY相关方法实现网页下载 及xml文档的标准化的转化 使用XPATH模板方法提取特定位置的数 据,完成数据提取和入库工作。
插件配置文件
技术分析
Libcurl使用:
爬取逻辑
• 采取状态识别的方式抓取具体信息
爬取逻辑
• 状态说明:
下载器 T S:1 T S:3 T S:1 T S:3 T S:3 T S:3 列表页解析
2 T S:0
T S:3 S:1
1 T S:2
3 T S:4
了不良舆论的传播。
研究意义
大学生作为社会的特殊群体既是网络的 重要使用人群,也因社会阅历浅显极易受到 网络信息的煽动和迷惑,更需关注。因此网 络舆情突发事件的监测与分析特别是对于大 学生人群,具有重要的理论意义与实际应用
价值。
项目完成情况
自本项目成立以来,我组成员经过将近 一年的时间的不懈努力,目前,本系统基本 功能已得以实现。 本舆情分析系统由信息获取子系统、信 息处理子系统、信息展示子系统以及相应的 数据库和文件管理子系统组成。
项目完成情况
信息展示模块及相应的数据库和文件管
理子系统的工作方面,该部分由于提前开始
因此进度进行较快,九月初完成了信息展示
模块基本界面,此后经过进一步的美化工作
的努力,信息展示子系统基本功能已完成。
技术分析
研究方法:系统模块化设计 1)信息获取模块,该部分由网络爬虫组 成,获取指定的站点集信息,并进行过滤处理, 将有效内容整理入库。 2)信息处理模块,该部分实现信息过滤 筛选以及匹配结果的投放实现;同时还有索引 的建立以及查询服务。 3)信息展示模块,该部分用于整个系统 的UI实现,以特定事件分析的形式呈现直观分 析结果。整个系统采用低耦合方式联接,各模 块独立工作。
技术分析
界面展示&任务配置 任务配置 规则配置 系统配置 结果展示
数据库&文件系统
爬虫
信息获取模块 数据入库 信息 提取
配置读取
信息读取
信息处理模块 分词索引 检索投放
配置读取
任务调度控制
任务调度控制
模块化系统设计图
技术分析
天眼舆论监控系统技术分布图 信息采集子系统
通道管理模块
多任务管理模块
爬虫通信模块
辅助模块
信息去噪入库
论坛(Discuz、phpwind 等)
任务下发
IPV6 扩展支持
模板生成
HtmlParser 技术
微博(twiiter、新浪等)
任务分片
Biblioteka Baidu
RESS
种子管理
基于 DOM 树和模板 提取技术
博客(wordpress 等)
分布式爬虫管理
Libcurl 网络编程
SNS(facebook、人人等)
other
T S:3
4 T S:0
内容页解析
DB
技术分析
天眼舆论监控系统技术分布图 信息采集子系统
通道管理模块
多任务管理模块
爬虫通信模块
辅助模块
信息去噪入库
论坛(Discuz、phpwind 等)
任务下发
IPV6 扩展支持
模板生成
HtmlParser 技术
微博(twiiter、新浪等)
任务分片
RESS
大学生网络舆情分析系统
小组成员:王煦祥 、 宫名 、 周鑫鹏 报告人: 周鑫鹏 时间: 2013年5月5日
大学生网络舆情分析系统
报告内容:
1、背景分析 2、研究意义 3、项目完成情况 4、技术分析 5、存在的问题及不足之处 6、成果展示
背景分析
互联网已经发展成为当今世界上最大的信 息库,是网民最新最快获取与发布信息的渠 道,越来越多的重大事件最初都是通过互联 网批露或诱发的,其动员力、煽动力和影响 力不可小视。特别是微博、SNS、论坛等网络 服务的出现,在方便人们交流的同时也加速
技术分析
信息展示模块图
技术分析
信息展示模块: 该模块功能主要有:任务配置、规则配 置、系统配置、结果展示等四大功能。拥有敏 感事件、特定事件、网络人物分析等分析策略, 能够提供这些方面的基本服务;提供内容列表、 分布图、时间曲线等呈现分析结果,提供了直 观的显示。报警设置接口提供多种事件报警机 制。网络人物关系分析图谱,生动的呈现人物 关系。
技术分析
主 初 始 化 配 置 信 息 爬 虫
种子 模板 插件
下载器 处理器
组 合
子爬虫 数据库
爬虫架构图
垂 直 爬 虫
技术分析
主 要 配 置 , 设 置 访 问 板 块
种子
URL
技术分析
模板
• 一个页面当中有很多信息,用户通常只需 要其中的一部分信息,如最新发布的动漫 资源,广告则是不必要的信息。 • 模板就是用来配置需要提取的信息。 • 使用的XPATH路径提取方式。
种子管理
基于 DOM 树和模板 提取技术
博客(wordpress 等)
分布式爬虫管理
Libcurl 网络编程
SNS(facebook、人人等)
新闻站点(新华网等)
信息处理模块图
技术分析
信息处理模块: 该部分实现信息过滤筛选以及匹配结果 的投放实现,同时还有索引的建立以及查询服 务。 提供正则匹配、SVN两种不同的信息处 理方式,采用FirteX高效信息检索平台建立增 量索引,提高搜索性能。
存在的问题及不足
1、关于数据的去重问题。URL去重有很 多种方式:数据库去重、文件去重、哈希映射 去重等。 目前采用的最简单的数据库去重。效率 偏低,实现简单。 文件去重是在本地磁盘建立以URL字符 为基准的多层目录结构,一个URL对应一个文 件夹。哈希映射法一般采用三个不同的哈希函 数映射到一个空间中,避免冲突。对于数据去 重方面还需进一步的研究和实践。
项目完成情况
信息获取模块,完成了对指定站点信息的 检索和对数据的过滤处理的工作,并实现将 有效数据入库。在后来的工作中通过对程序 进行细节的检查及改善,信息获取子系统基 本功能已实现。
项目完成情况
信息处理模块,在规定的日程内完成了 对信息过滤筛选以及匹配结果的投放实现, 同时还有索引的建立以及查询服务的工作。 信息处理模块开发工作已完成
XPATH简单介绍
• 计算机存储的文本文件分为结构性和非结 构性两种。 • 非结构性,就像我们平时码在记事本里的 字一样。 • 结构性文件,比如XML文件,由标签和内 容组成,便于程序处理。
技术分析
XPATH事例:
//cclawer/module/enable/text() =>
”true”
技术分析
新闻站点(新华网等)
信息检索模块图
技术分析
信息获取模块: 网络爬虫程序的设计大规模使用了OPP 方法,支持多线程分布式数据并行采集。 信息提取方面通过种子、模板及插件的 使用生成不同类型的子爬虫。子爬虫主要执行 的过程包括:设置种子;编译种子/模板;设置 初始任务;开始运行。 使用libcurl及TIDY相关方法实现网页下载 及xml文档的标准化的转化 使用XPATH模板方法提取特定位置的数 据,完成数据提取和入库工作。