互联网视频及舆情模板
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1现状分析
(1)信息技术突飞猛进,新媒体监管愈加复杂困难
当前,互联网应用创新加速,云计算、大数据等新一代信息技术动员力和影响力,已成为传媒领域重要的新生力量,深刻改变了媒体格局和舆论生态;三网融合及媒体融合进程不断加速,新闻出版广播影视领域技术IP化、IT化和云化趋势愈发明显,内容、业务与互联网融合越来越多。这些都带来了安全隐患,易被攻击的问题随之而来,尽管目前我省已经针对单个业务构建了监管系统,但系统比较单一,投资也少,技术、范围、效率等都跟不上形势发展,监管技术手段远跟不上形势发展的需要,给监管工作带来了极大的挑战。
(2)业务数据庞杂分散,无法统一管理和共享
数据是信息化的基础支撑之一,经过多年建设,xx省新闻出版广播影视工作初步构建了传输快捷、覆盖全省的广播影视传播体系、监测监管体系、公共服务和政务服务体系,但这些体系缺乏有效的统一规划,相关数据分布在省、市、县以及各相关部门,数据标准不一、接口不同,无法进行有效管理和分析使用,影响了信息资源的互通共享、开发利用和集中管理,特别是跨部门信息共享和业务协同困难。
(3)新兴技术应用滞后,政务智能化水平不高
当前,互联网已成为人们获取信息等主要工具平台,我们在政务服务方面虽然做了大量的工作,初步建设了综合性信息发布门户网站,但系统功能单一、业务之间互不关联,离政务全电子化目标差距较大,与省委省政府的要求仍有距离。
(4)数据智能分析能力落后,无法有效支撑科学决策
当前,新闻出版广播影视行业信息数据呈爆炸式增长趋势,行业主管部门的信息处理与智能分析能力面临严峻挑战,然而目前xx省新闻出版广播影视行业尚未建立智能高效的数据分析及决策支撑平台,现有业务信息系统处理及分析能力远远无法应对海量信息的冲击,无法有效支撑行业科学决策。
2系统整体架构
2.1逻辑架构图
本项目将建设对xx省内视听网站和持证重点视听网站的监测监管,对省内主流APP、apk应用服务进行监测监管,对我省播出的网络剧、微电影等网络视听节目进行审查。
根据互联网视听节目监管业务系统的实际监管需要,同时针对各个监管业务子系统存在的共性,形成了视听节目数据发现与采集、网页元数据分析、码流采集与监测、视听内容分析等通用的基础监管业务模块,在基础监管业务模块基础上根据网络舆情监测的业务需要,形成各自独立的监管系统用于满足某一方面独特的监测需求。
互联网视听节目监测系统的软件架构采用模块化设计原则,每个模块保持一定的功能独立性,在协同工作时,通过相互之间的接口完成实际的任务,模块化设计将各个功能模块有机地结合起来,在保证正确性和健壮性的基础上,提高了软件的可扩充性和可复用性。系统软件模块流程图如下:
网络视听节目监管系统的软件系统主要包括三层:节目及网站数据采集层、数据分析处理层、业务功能模块与数据接口层。
1、分布式数据采集层
数据采集层通过采集控制中心,统一管理数据采集功能。
根据系统的监测目标和技术手段,数据采集包括互联网视听节目及网站搜索引擎、元搜索引擎。各个搜索引擎从功能和业务上相互独立,从相应的网络/网
站中全面获取视听网站及节目信息。
搜索引擎具备采集控制中心,对搜索引擎的工作进行配置管理。采集控制中心支持网站发现、种子分配、地址解析、文本解析、性能监控等功能,同时支持应用平台下发的配置指令,例如节目下载、取证、快照等等:
2、数据分析处理层
数据分析处理层包括数据处理分析模块和数据存储模块。
数据处理分析模块接收数据采集层上传的视听节目信息,采用先进的全文自然语言分析技术和分词技术进行数据清洗,获取数据的元信息,并对视听节目进行节目归类、排重、关联分析,根据上层应用配置的规则,对节目进行规则匹配、关键帧抽取等操作,结合上层应用的数据业务处理后,对数据进行深度分析、汇总和统计,并存入数据库和磁盘阵列上。
3、功能模块与接口层
功能模块与接口层采用目前流行的B/S架构,以web网页形式将各个功能进行展示。用户通过WEB浏览器对系统进行登录和访问,根据权限调用不同功能模块,实时开展网上监管工作,掌握系统运行数据。
3各子系统详细介绍
3.1互联网视听监管功能
对我省互联网视听节目网站中的视音频节目进行扫描采集、分类罗列,并识别节目中是否存在政治有害、淫秽色情等违规行为,一旦发现及时预警。
3.1.1网站管理
3.1.1.1网站发现
系统可根据网站IP地域分布特征和网站内容地区服务特征对xx省新闻出版广电局辖区内的视听节目网站进行扫描,对系统监控的重点网站搜索周期为每4小时扫描一周,爬取深度不低于5层。并对扫描到的符合条件的网站根据网站
标题、网站内容、网站内部链接等特征进行网站音视频属性判断,初判其是否属于视听节目网站。
3.1.1.2未批站点
系统可以对管辖范围内未审批的站点进行相应的监控。可以从站点类别的角度(待审批、未审批和未申报等类别)对相关的站点的基本信息进行分类和查询。同时可以按照不同的分类标准对相关站点进行分类。对获得的站点信息进行排重,而且可以采用信息检索技术,检索相应的站点文本信息和视频内容。
3.1.1.3已批站点
系统可以对已经审批通过的站点进行搜索信息的比对,对已审批的站点进行分类、站点的人工信息录入、站点内容的自动监控跟踪,而且可以采用信息检索技术对其文本信息和视频内容进行检索。
3.1.1.4重点网站
系统能够对重点监控的网站进行内容比对、网站分类、站点信息同步、人工核实、网站内容的自动跟踪,及时发现其中传播的违法违规内容及视听节目的具体情况,同时通过针对音视频节目的抓取引擎,对含有违规、热点内容及音视频节目的网页主动发现、采集和保存。并为实现各种查询功能建立相应的索引。
系统对重点网站进行重点监控,可对该网站节目的节目名称、节目URL、节目详细信息、点击数、回复数进行抓取。并且可对系统初判为疑似违规的节目进行自动下载和分析。
3.1.1.5节目采集
对监控范围内的音视频网站进行爬虫模块定制,轮循采集网站中的音视频节目(视频、音频(含听书)及网络直播),对系统监控的重点网站搜索周期为每4小时扫描一周,爬取深度不低于5层,抓取过程中实时比对违规关键字库,