基于容器云技术的人工智能平台建设

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于容器云技术的人工智

能平台建设

申报部门(单位):XXXX(盖章)

申报时间:年月

目录

1 概述 (1)

1.1 系统建设现状 (1)

1.2 必要性分析 (1)

1.3 建设目标 (3)

2 业务需求 (3)

2.1 人工智能平台 (3)

2.1.1 业务需求描述 (3)

2.1.2 业务流程 (6)

2.1.3 业务数据 (6)

3 集成需求 (7)

4 实施范围 (7)

5 其他需求 (7)

5.4 可靠性 (7)

5.5 信息安全 (7)

5.6 可维护性 (7)

5.6.1 易修改 (7)

5.6.2 易测试 (7)

5.7 系统灾备设计 (8)

1概述

1.1系统建设现状

单位率先建成融合企业云计算大数据一体化服务平台和全业务统一数据中心的“云”平台。目前已有303台服务器规模,部署了24个技术组件,并完成38套企业核心业务系统全业务数据的汇集,合计数据表39330张,总的数据存储量达700TB。初步构建企业数据统一汇集共享机制,已累计为公司50多个项目的80多个“互联网+”创新应用提供数据服务支持,形成了“互联网+”智能运检、“互联网+”营销服务、“互联网+”规划、“互联网+”电力物资、运监大数据和财务精益化等新型业务形态雏形。建成用电客户标签库、大数据运营监测系统、智能运检管控平台、供电服务指挥系统、配电网规划辅助决策等创新业务应用。企业数据统一汇集共享机制及业务创新运营机制的初步建成,为人工智能在国网浙江电力的试点应用落地及铺开打下了较为坚实的基础。

1.2必要性分析

人工智能在电力能源有很广泛的应用技术场景,可以对如下技术场景进行储备:(1)多功能场景分析系统,包括摄像机自动标定、人员检测、人员跟踪、姿势分类、行为分析、三维重建等模块。

(2)利用无人机,巡线机器人和遥感卫星等对输电设备本体和输电通道环境进行立体巡检和风险评测,基于人工智能图片识别技术有效的处理图片以及视频技术,准确识别出输变电设备本体的缺陷和输电线路的潜在风险。

(3)基于导航图像的知识积累和人工智能,通过对空间导航和智能巡检规划,优化巡检路径和重点排查区域。

(4)通过人工智能图像识别技术,识别用电现场危险行为,增强用电现场作业的安全性和效率。

(5)基于深度学习技术对云观测图像中的云层和云系进行识别和辨识,并对其演化进行预测,实现对云层遮挡条件下光伏功率的快速波动的预测,提供新能源跨省、跨区域高效消纳能力。

随着新能源持续高比例运行、电力电子装置大量应用、电力市场化水平不断提高,电力系统的动态非线性、多时间尺度、不确定性和难预测性表现得更加突出,以人工智能为核心的数据驱动方法相对于基于物理模型的分析方法,更加精准地刻画电

力系统特征。同时,为了应对上述变化,电力系统部署了众多用于监测、控制、管理的信息通信系统,产生着大量的数据,在电网安全与控制领域、输变电领域、配用电领域、新能源领域等应用场景下表现出大维度、小样本、非结构化的数据特性,目前常规的统计分析、数据挖掘、机器学习,难以满足需求。

机器学习应用的运行需要进行复杂的环境设置,工程师通常会在测试单个模型之前,花费大量时间在手动调整部署和升级上。更糟的是,这些人工智能应用的运行与他们部署的集群紧密相关,以至于这些人工智能应用不便迁移。如果没有重构,将模型从训练环境到高可扩展的生产云集群环境几乎是不可能的。以上的问题造成了大量人力和物力的浪费,并为每次人工智能应用的迁移造成了引入 bug 的机会。通过使用kubernetes容器云的一键配置集群规模和设备,更方便地使用 CPU 和 GPU 资源。在运行人工智能训练任务时可配置为使用 CPU 或 GPU资源,并通过单一设置调整训练资源配额。同时也支持人工智能训练任务插队以及任务训练加速功能。

1.3效益分析

建设人工智能平台,对物理资源的细粒度进行合理的规划管理,提升资源利用率,实现资源成本的节约,帮助工程师摆脱繁琐的环境搭建和资源配置工作,更聚焦于数据和模型提高效率。通过端到端人工智能解决方案,从公司需求、产品设计、数据收集、数据处理、模型训练、模型服务到产品验证,提高工作效率。最后在人工智能平台层,沉淀工程经验,加快模型训练,快速助力企业实现产业智能化升级。

1.4建设目标

(1)搭建人工智能平台,包括图像标注系统,模型开发和训练平台,模型服务托管平台。打通数据、模块、服务流程,为算法开发人员提供一站式开发体验。

(2)开发人工智能算法库:包括图像类型(人体监测、人脸监测、行为分析)、文本类型(对话机器人基础算法、文本分析、知识图谱构建基础算法、文本分类、语义分析)、语音类型(声纹识别、语音识别、异音检测、语音质量检测、语音合成)、机器学习(推荐系统、时序预测、无监督算法)。将通用算法进行开发,通过人工智能平台进行统一管理,提升开发效率。

(3)打造安全高效的数据存储管理平台,将内部和外部数据集统一存储在数据存储管理平台上。并支持通过对象存储或分布式文件存储实现数据的快速访问和更新。

2业务需求

2.1人工智能平台硬件配置2.1.1业务需求描述(1)平台硬件配置

规模说明:

2.1.2业务流程

2.1.3业务数据

2.2人工智能平台建设

2.2.1业务需求描述

(1)基于kubernetes容器云针对一体化企业云平台应用运行中产生的海量数据搭建人工智能平台训练的实验域和调用人工智能平台模型服务的生产域,生产域紧密结合企业云平台以及运行应用。其中包括三大组件:训练数据管理组件,AI模型训练组件,模型托管组件。

在不同的基础设施上轻松可重复、便携的部署和管理松散耦合的微服务应用,根据需求进行缩放,利用kubernetes为使用者提供简单的清单,以便可以轻松地在任何位置使用机器学习堆栈在kubernetes上运行。此外,容器云技术可以基于部署集群进行自我配置,最大化使用资源。

平台综合管理功能主要针对平台管理员角色,其中功能包含:账号管理、多租户管理、计算存储网络资源管理、告警管理、日志管理、监控管理、插件扩展中心功能。

(2)训练数据管理组件

对接和管理底层存储,将存储资源分配给平台用户,平台用户基于管理员已分配存储空间来存储训练数据集。已存储的数据集可以在平台上进行数据标记操作。存储数据中包含训练代码文件,可以通过jupyter notebook进行在线修改训练代码以及调试。训练结束后对训练产生的事件、日志、模型文件进行存储。

(3)AI模型训练组件

模型训练包含前期训练的项目参数配置、资源分配、任务提交、任务提交后的资源调度以及资源紧张时任务插队系统,以及在训练过程中资源监控、训练日志、训练可视化展示,模型评估以及模型导出的全生命周期管理。

(4)模型托管组件

模型托管组件包括模型运行环境定义,模型发布实例数定义,模型运行后的弹性伸缩策略定义,客户端调用示例代码段生成,模型运行后GPU等资源监控告警,模型实例运行日志收集与展示。

2.2.2业务流程

相关文档
最新文档