工业大数据概念、架构、分析模型
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一工业大数据的发展背景
当前,以大数据、云计算、移动物联网等为代表的新一轮科技革命席卷全球,正在构筑信息互通、资源共享、能力协同、开放合作的制造业新体系,极大扩展了制造业创新与发展空间。
新一代信息通信技术的发展驱动制造业迈向转型升级的新阶段——工业大数据驱动的新阶段,这是在新技术条件下制造业生产全流程、全产业链、产品全生命周期数据可获取、可分析、可执行的必然结果。
大数据(Big Data)指的是大容量的、复杂的、不断增长的、具有多个自主来源的数据集。
工业大数据是工业互联网的核心要素。
《中国制造2025》规划中明确指出,工业大数据是我国制造业转型升级的重要战略资源,需要针对我国工业自己的特点有效利用工业大数据推动工业升级。
一方面,我国是世界工厂,实体制造比重大,但技术含量低、劳动密集、高资源消耗制造的比重也大,实体工厂和实体制造升级迫在眉睫;另一方面,我国互联网产业发展具有领先优势,过去十多年消费互联网的高速发展使互联网技术得到长足发展,互联网思维深入人心,需要充分发挥这一优势,并将其与制造业紧密结合,促进制造业升级和生产性服务业的发展。
二工业大数据的内涵
工业大数据即工业数据的总和,其来源主要包括企业信息化数据、工业物联网数据、“跨界”数据。
企业信息系统存储了高价值密度的核心业务数据,积累的产品研发数据、生产制造数据、供应链数据以及客户服务数据存在于企业或产业链内部,是工业领域传统数据资产。
近年来,物联网技术快速发展,工业物联网成为工业大数据新的、增长最快的来源之一,它能实时自动采集设备和装备运行状态数据,并对它们实施远程实时监控。
互联网也促进了工业与经济社会各个领域的深度融合,人们开始关注气候变化、生态约束、政治事件、自然灾害、市场变化等因素对企业经营产生的影响,因此外部跨界数据已成为工业大数据不可忽视的来源。
人和机器是产生工业大数据的主体。
人产生的数据是指由人输入计算机中的数据,例如设计数据、业务数据等;机器数据是指由传感器、仪器仪表和智能终端等采集的数据。
近年来,由人产生的数据规模的比重正逐步降低,企业信息化和工业物联网中机器产生的海量时序数据是工业数据规模变大的主要来源,机器
数据所占据的比重将越来越大。
三工业大数据的特征
工业大数据作为对工业相关要素的数字化描述和在赛博空间的映像,首先符合大数据的4V特征,即大规模(volume)、速度快(velocity)、类型杂(variety)、低质量(veracity)。
相对于其他类型大数据,工业大数据还具有反映工业逻辑的多模态、强关联、高通量等新特征。
多模态是指工业大数据必须反映工业系统的系统化特征及其各方面要素,包括工业领域中“光、机、电、液、气”等多学科、多专业信息化软件产生的不同种类的非结构化数据。
比如三维产品模型文件不仅包含几何造型信息,还包含尺寸、工差、定位、物性等其他信息;同时,飞机、风机、机车等复杂产品的数据又涉及机械、电磁、流体、声学、热学等多学科、多专业。
强关联反映的是工业的系统性及其复杂动态关系,不是数据字段的关联,本质是指物理对象之间和过程的语义关联。
包括产品部件之间的关联关系,生产过程的数据关联,产品生命周期设计、制造、服务等不同环节数据之间的关联以及在产品生命周期的统一阶段涉及的不同学科不同专业的数据关联。
四工业大数据软件架构
工业大数据软件架构涉及物联网、数据库、数据处理、流处理、数据分析、批处理和机器学习等技术。
关系数据库存放的是结构化的关系数据,是企业信息化支撑技术,数据库是先有模式后有数据,即先定义数据库表,然后才能插入数据;与数据库不同,互联网、物联网等产生的大多是非结构化数据,这些数据往往是设备产生的,先有数据,后有模式。
工业大数据生命周期包括采集、管理、处理、分析和应用5个环节。
工业大数据处理是一个数据集到另一个数据集的“物理”过程。
工业大数据分析就是要利用机器学习、深度网络等人工智能算法,从训练数据集里学习未知的模型,这个模型就是一个基于数据集(X,Y),求Y=F(X)计算式中F函数的过程。
简而言之,工业大数据分析是从训练数据集到模型的“化学”过程。
工业大数据应用在工业互联网中的应用可分为4个层次:监视、控制、优化、自主。
监视就是要能远程实时监测装备的运行状态;控制就是要实现操作者对机器的远程遥控,让机器能够执行操作者远程下达的操作指令;优化就是要基
于海量工业大数据发现知识,提供在线运行调度、健康检测、故障诊断预警等装备在线运维服务;自主就是要实现装备的自主决策和装备集群的自主协同,通过“机器换人”实现生产运维的少人化和无人化。
五大数据分析模型在工业中的应用
大数据分析模型按照输入输出的形式,主要有关联规则分析、分类分析、回归分析和聚类分析,这些分析模型以及它们的组合被应用于多种实际工业场景的分析任务中,如工艺参数优化、产量预测、故障检测和诊断、客户需求分析和服务类型识别等。
5.1 关联规则分析模型
关联规则挖掘是针对购物篮分析的问题提出的,其最初的目的是挖掘交易数据库中不同商品间存在的关联关系,以此得到顾客购买模式的一般性规则,并用这些规则指导商家进行合理的货架设计。
在实际工业过程中,许多场景可以用类似的关联关系建模,用频繁项集挖掘的方法来获取隐含规则,用数据和知识驱动的方式来代替传统的大量依靠经验的决策方式。
5.2 分类模型和回归模型
分类模型和回归模型在基于大数据的分析、判断和预测领域具有广泛应用。
其中,分类模型主要针对离散属性值的判断和预测,如故障检测和诊断、客户细分;而回归模型主要针对连续属性值,如产品的产量、销量。
决策树模型和神经网络模型是基于工业大数据的分类和回归分析中的主要模型。
5.3 聚类分析模型
聚类分析模型能够将具有相似模式的对象归纳为一簇,是一种典型的无监督学习模型。
聚类分析模型擅于从看似关系复杂、未知的对象中提取出内在联系。
因此,在工业大数据分析中,聚类分析模型被用于分析复杂参数间的关系、细分客户群等。