数据采集和数据预处理
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据采集和数据预处理
3.2.1 数据采集
数据采集功能主要用于实现对DSM分析研究中所需的电力供需、相关政策法规等原始数据、信息的多种途径采集。数据采集为使用者提供定时数据采集、随机采集、终端主动上报数据等多种数据采集模式,支持手工输入、电子表格自动导入等多种导入方式,且能够对所采集的数据进行维护,包括添加、修改、删除等,并能进行自动定期备份。在需求侧管理专业化采集中,`
采集的数据根据结构特点,可以分为结构化数据和非结构化数据,其中,结构化数据包括生产报表、经营报表等具有关系特征的数据;非结构化数据,主要包括互联网网页( HTML)、格式文档( Word、PDF)、文本文件(Text)等文字性资料。这些数据目前可以通过关系数据库和专用的数据挖掘软件进行挖掘采集。特别是非结构化数据,如DSM相关的经济动态、政策法规、行业动态、企业动态等信息对DSM分析研究十分重要,综合运用定点采集、元搜索、主题搜索等搜索技术,对互联网和企业内网等数据源中符合要求的信息资料进行搜集,保证有价值信息发现和提供的及时性和有效性。DSM信息数据采集系统中数据采集类型如图2所示。在数据采集模块中,针对不同的数据源,设计针对性的采集模块,分别进行采集工作,主要有网络信息采集模块、关系数据库信息采集模块、文件系统资源采集模块和其他信息源数据的采集模块。
(1)网络信息采集模块。网络信息采集模块的主要功能是实时监控和采集目标网站的内容,对采集到的信息进行过滤和自动分类处理,对目标网站的信息进行实时监控,并把最新的网页及时采集到本地,形成目标站点网页的全部信息集合,完整记录每个网页的详细信息,包括网页名称、大小、日期、标题、文字内容及网页中的图片和表格信息等。
(2)关系数据库采集模块。该模块可以实现搜索引擎数据库与关系型数据库(包括Oracle、Sybase、DB2、SQL Server、MySQL等)之间的数据迁移、数据共享以及两者之间的双向数据迁移。可按照预设任务进行自动化的信息采集处理。
( 3)文件系统资源采集模块。该模块可以实现对文件系统中各种文件资源(包括网页、XML文件、电子邮件、Office文件、PDF文件、图片、音视频多媒体文件、图表、公文、研究报告等)进行批量处理和信息抽取。
( 4)其他信息源数据的采集。根据数据源接入方式,利用相应的采集工具进行信息获取、过滤等。
3.2.2 数据预处理
数据预处理的本质属于数据的“深度采集”,是信息数据的智能分析处理。利用网页内容分析、自动分类、自动聚类、自动排重、自动摘要/主题词抽取等智能化处理技术,对采集到的海量数据信息进行挖掘整合,最终按照统一规范的组织形式存储到DSM数据仓库,供图1 系统体系结构分析研究使用。数据预处理的工作质量很大程度上决定最终服务数据的质量,是DSM类项目(如,DSM项目全过程管理、有序用电方案评价等)深度分析的重要基础。在数据智能分析处理中,主要包括:1)自动分类,用于对采集内容的自动分类;2)自动摘要,用于对采集内容的自动摘要;3)自动排重,用于对采集内容的重复性判定。
**************************************
电力数据采集与传输是电力系统分析和处理的一个重要环节。从采集被测点的各种信息,如母线电压,线路电压、电流、有功、无功,变压器的分接头位置,线路上的断路器、隔离开关及其它设备状态、报警、总有功功率、事件顺序等,对电力系统运行管理具有重要作用[ 1]。**********************************
电力信息的数据采集与集成
电力作为传统[业,其下属分系统众多,因而数据的种类也相当繁杂。数据类型包括工程
数据、设备运行数据、电网调度实时数据、物料数据、用户数据、等等。我们在物理网络整合的基础上,下一步进行数据集成了。电力数据集成主要解决两个方面的问题,一是解决数据分散性问题,另外一个是解决数据结构异构不匹配的问题。
由于电力系统涵盖地域广泛,发电、输电、用电的信息系统都分散在不同区域,从组织管理来看,省电力公司与下属电力企业地域分散性也非常高,电力数据信息的分布也散步在不同地方。为了这个问题,建立数据集成平台,逐渐引入网络存储、建立数据集中存储中心,把企业现有的大量的数据库进行物理合并;整合到一起的数据可被多台服务器存取。数据整合从逻辑上讲是在服务器集中和物理整合、网路互连之后进行的。数据整合可以通过更集中的方式管理和控制数据,从而创造更大的规模效应。
另一方面,电力系统由于其分系统功能特异,数据的存储方式各不相同,有实时海量的系统实时监控数据,有用于系统管理的管理数据,还有来自于外部互连的众多信息,同时由于系统建设的遗留问题,拥有众多不同种类的数据源如其中包括来自Oracle、Sybase、SOL Server、DB2等商用关系数据以及XML格式文档、实时库数据、ODBC、SOAP协议管理数据和格式文档等。
********************************************8
在目前的数据采集系统中较多的是采用固定网络或者电力载波线来实现集
中器与电表之间的通信,但是它们存在维护困难,安装麻烦等问题,而无线技术
的快速发展为解决这些困难和缺陷提供了很好的方案,因此采用无线技术来实现
电力数据采集系统是一个十分合适的选择。
电力数据采集现状和无线采集技术实现的意义
电力数据的采集是一个国内外很热门的话题,但是目前以无线射频传输的方
式来进行数据采集还并不是很多,所以设计一个基于无线传输技术的电力数据采
集系统是非常有意义的。
2.2.1电力数据采集现状
在国外,远程电力数据采集系统己经成为了一个非常时尚的话题,很多电力
系统和TI业的巨头正在联合开发相关的系统,以求更加稳定、低成本、实时性更
强。
远程数据采集的各个系统实现虽然并不完全相同[‘0][”],但是都有相同点,
是以一定形式的无线方式进行数据通信和传输,最后把这些数据发送到远程电脑
主站上,整个过程可以用图2一9表示:
浙江大学硕士研究生论文
图2一9远程数据采集系统参考模型
目前己经开发成功并且投入使用的相关系统也较多:
>单片Modem远程抄表系统是基于MSM7512B设计的对电表实现自动
化管理的系统。该系统以电话网为交换媒介,可以对各个表进行远程采
集,对收到数据进行一系列处理和存储。运用该系统,能够很好的实现
抄表功能,性能也非常稳定,在需要传输数据量不是很大的情况下,应
用非常方便。
>华立仪表集团有限公司也开发出一款新的无线自动抄表系统。通过
这个系统可以免除派人到用户楼房读取仪表,更可改善客户服务质量,
同样利用该系统也能够实现自组网络,具有一定的自适应性,把仪表放
置在大楼内,就可以实现自动抄表,监控操作,具有实时性和远程控制
性。
而采用远程电力数据采集技术的居民用户也不断增多,图2一10为某城市2000