大学生网络舆情分析系统

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

说明系统有哪些可用的插件
插件配置文件
技术分析
Libcurl使用：
爬取逻辑
• 采取状态识别的方式抓取具体信息
爬取逻辑
• 状态说明：
下载器 T S:1 T S:3 T S:1 T S:3 T S:3 T S:3 列表页解析
2 T S:0
T S:3 S:1
1 T S:2
3 T S:4
了不良舆论的传播。
研究意义
大学生作为社会的特殊群体既是网络的重要使用人群，也因社会阅历浅显极易受到网络信息的煽动和迷惑，更需关注。因此网络舆情突发事件的监测与分析特别是对于大学生人群，具有重要的理论意义与实际应用
价值。
项目完成情况
自本项目成立以来，我组成员经过将近一年的时间的不懈努力，目前，本系统基本功能已得以实现。本舆情分析系统由信息获取子系统、信息处理子系统、信息展示子系统以及相应的数据库和文件管理子系统组成。
项目完成情况
信息展示模块及相应的数据库和文件管
理子系统的工作方面，该部分由于提前开始
因此进度进行较快，九月初完成了信息展示
模块基本界面，此后经过进一步的美化工作
的努力，信息展示子系统基本功能已完成。
技术分析
研究方法：系统模块化设计 1）信息获取模块，该部分由网络爬虫组成，获取指定的站点集信息，并进行过滤处理，将有效内容整理入库。 2）信息处理模块，该部分实现信息过滤筛选以及匹配结果的投放实现；同时还有索引的建立以及查询服务。 3）信息展示模块，该部分用于整个系统的UI实现，以特定事件分析的形式呈现直观分析结果。整个系统采用低耦合方式联接，各模块独立工作。
技术分析
界面展示&任务配置任务配置规则配置系统配置结果展示
数据库&文件系统
爬虫
信息获取模块数据入库信息提取
配置读取
信息读取
信息处理模块分词索引检索投放
配置读取
任务调度控制
任务调度控制
模块化系统设计图
技术分析
天眼舆论监控系统技术分布图信息采集子系统
通道管理模块
多任务管理模块
爬虫通信模块
辅助模块
信息去噪入库
论坛（Discuz、phpwind 等）
任务下发
IPV6 扩展支持
模板生成
HtmlParser 技术
微博（twiiter、新浪等）
任务分片
Biblioteka Baidu
RESS
种子管理
基于 DOM 树和模板提取技术
博客（wordpress 等）
分布式爬虫管理
Libcurl 网络编程
SNS（facebook、人人等）
other
T S:3
4 T S:0
内容页解析
DB
技术分析
天眼舆论监控系统技术分布图信息采集子系统
通道管理模块
多任务管理模块
爬虫通信模块
辅助模块
信息去噪入库
论坛（Discuz、phpwind 等）
任务下发
IPV6 扩展支持
模板生成
HtmlParser 技术
微博（twiiter、新浪等）
任务分片
RESS
大学生网络舆情分析系统
小组成员：王煦祥、宫名、周鑫鹏报告人：周鑫鹏时间： 2013年5月5日
大学生网络舆情分析系统
报告内容：
1、背景分析 2、研究意义 3、项目完成情况 4、技术分析 5、存在的问题及不足之处 6、成果展示
背景分析
互联网已经发展成为当今世界上最大的信息库，是网民最新最快获取与发布信息的渠道，越来越多的重大事件最初都是通过互联网批露或诱发的，其动员力、煽动力和影响力不可小视。特别是微博、SNS、论坛等网络服务的出现，在方便人们交流的同时也加速
技术分析
信息展示模块图
技术分析
信息展示模块：该模块功能主要有：任务配置、规则配置、系统配置、结果展示等四大功能。拥有敏感事件、特定事件、网络人物分析等分析策略，能够提供这些方面的基本服务；提供内容列表、分布图、时间曲线等呈现分析结果，提供了直观的显示。报警设置接口提供多种事件报警机制。网络人物关系分析图谱，生动的呈现人物关系。
技术分析
主初始化配置信息爬虫
种子模板插件
下载器处理器
组合
子爬虫数据库
爬虫架构图
垂直爬虫
技术分析
主要配置，设置访问板块
种子
URL
技术分析
模板
• 一个页面当中有很多信息，用户通常只需要其中的一部分信息，如最新发布的动漫资源，广告则是不必要的信息。 • 模板就是用来配置需要提取的信息。 • 使用的XPATH路径提取方式。
种子管理
基于 DOM 树和模板提取技术
博客（wordpress 等）
分布式爬虫管理
Libcurl 网络编程
SNS（facebook、人人等）
新闻站点（新华网等）
信息处理模块图
技术分析
信息处理模块：该部分实现信息过滤筛选以及匹配结果的投放实现，同时还有索引的建立以及查询服务。提供正则匹配、SVN两种不同的信息处理方式，采用FirteX高效信息检索平台建立增量索引，提高搜索性能。
存在的问题及不足
1、关于数据的去重问题。URL去重有很多种方式：数据库去重、文件去重、哈希映射去重等。目前采用的最简单的数据库去重。效率偏低，实现简单。文件去重是在本地磁盘建立以URL字符为基准的多层目录结构，一个URL对应一个文件夹。哈希映射法一般采用三个不同的哈希函数映射到一个空间中，避免冲突。对于数据去重方面还需进一步的研究和实践。
项目完成情况
信息获取模块，完成了对指定站点信息的检索和对数据的过滤处理的工作，并实现将有效数据入库。在后来的工作中通过对程序进行细节的检查及改善，信息获取子系统基本功能已实现。
项目完成情况
信息处理模块，在规定的日程内完成了对信息过滤筛选以及匹配结果的投放实现，同时还有索引的建立以及查询服务的工作。信息处理模块开发工作已完成
XPATH简单介绍
• 计算机存储的文本文件分为结构性和非结构性两种。 • 非结构性，就像我们平时码在记事本里的字一样。 • 结构性文件，比如XML文件，由标签和内容组成，便于程序处理。
技术分析
XPATH事例：
//cclawer/module/enable/text() =>
”true”
技术分析
新闻站点（新华网等）
信息检索模块图
技术分析
信息获取模块：网络爬虫程序的设计大规模使用了OPP 方法，支持多线程分布式数据并行采集。信息提取方面通过种子、模板及插件的使用生成不同类型的子爬虫。子爬虫主要执行的过程包括:设置种子；编译种子/模板；设置初始任务；开始运行。使用libcurl及TIDY相关方法实现网页下载及xml文档的标准化的转化使用XPATH模板方法提取特定位置的数据，完成数据提取和入库工作。