郑州市“智汇郑州·1125聚才计划”项目可行性研究报告
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
附件2
郑州市“智汇郑州•1125聚才计划”项目可行性研究报告
编制提纲
一、概述
1、项目提出的背景、研究开发状况、现有产业规模和市场形势;
2、国家、本省、本地区产业技术政策;
3、项目产品的主要用途、性能;
4、项目实施的目的意义,项目主要研发内容和技术难点;
5、本项目解决方案的特点及预期达到的效果。
二、技术可行性分析
1、项目的技术路线、工艺的科学性、合理性,关键技术的先进性论述。
1.1项目的技术路线
1)经过充分的跟踪分析研究,消化和掌握了目前国内外市场上AI平台相关
的先进技术,将它们用于本项目的系统开发上;
2)把集成与关键技术突破相结合,既要解决一批关键技术的突破,又要使
这些技术能够很好的集成起来为本项目服务;
3)制定系统的核心关键技术实现的多种技术方案,在实验论证基础上,优
化设计技术,进行系统分析,综合择优;
4)以规范和标准驱动单位协作与应用开发。尽量采用目前成熟与通用的标
准。对相关的技术,模型,数据制定规范与标准。并以这些规范与标准
为先导,确定应用系统的设计与开发;
5)充分利用现有技术基础,目前公司已经做了大量工作的相关研究,这些
研究作为本项目的基础;
6)采用面向对象技术,组件技术,分布式技术构建模型等技术设计系统;
7)按照软件工程规范,实施质量控制;
8)尽量使用开源技术软件,方便后期软件的维护和升级;
9)公司多位该领域权威性,高级别技术专家保证能够解决各种技术问题,
及其实施中碰到的问题;
1.2具体技术方案
1.2.1系统架构
图1 交互式机器学习平台
交互式机器学习由主动式数据标注系统、拖拽式机器学习系统以及敏捷式服务发布系统构成。
图2 主动式数据标注系统
主动式数据标注系统工作流程:
1) 原始数据经过初始化模型进行数据预筛并打上标签 2) 预标注标签会下发给标注人员进行人工审核或重新标注
3) 人工标注的样本质量需要进行技术管控,质量管理这块可采用两种方式
进行:方案一,将已有标注正确的样本随机打乱混入原始数据中,在收集到人工标注这部分样本时,可以通过人工标注结果与实际结果间的差异评估标注质量;方案二:每一条原始数据需要至少两人以上同时进行标注,如果多人标注结果不一致,需要第三方进行“仲裁”,以“仲裁”结果作为最终样本标注。
4) 待人工审核标注样本量增加到一定量时,扩充样本集,重新训练模型,
可以有效提升模型预标注效果
5) 利用升级后的模型对另一批原始数据进行预筛并预标注,如此往复,直
至所有原始数据被人工标注并审核为止。
原始数据 模型
数据预筛
人工审核 质量管理
小批量数据
模型预标注
样本扩充升级模型
图3 拖拽式机器学习系统
拖拽式机器学习系统架构:
1)机器学习平台以Hadoop HDFS分布式文件系统作为数据存储平台,支持
文本文件、图像、视频等的存储;
2)计算平台包括Spark MLlib、TensorFlow、Scikit-learn等机器学习和深度
学习基础算法库,支持单机和分布式算法实现;
3)模型平台作为用户的工作坊,在计算平台所提供的基础算法库之上,根
据实际的业务需求,建立工作流模型,常见的模型包括分类、聚类、回
归等,当然也包括基础自然语言处理过程;
4)此外,为了支撑整个机器学习平台的正常运转,平台需要提供文件上传
功能、模型运行调试功能、多模型间任务调度以及运行日志和模型结果
查看下载等功能。
1.2.2交互式机器学习平台技术实现方案
1)Docker容器虚拟化技术
传统的虚拟机基于对硬件的模拟和仿真,所有的对硬件资源的调用都需要经过再转发一层才能获取或者说运行,这导致存在巨大性能损耗。交互式机器学习平台底层运行在Docker容器里,可以做到快速化发布服务;
2)开放式的对外接口
采用开放式程序设计,提供了通用的程序接口,能与其他平台业务系统对接;
3)对接多种数据源
可以使用Java,Scala等语言自定义开发数据源对接程序,很方便实现多种数据源的对接;
4)通用的数据流系统
节点的数据流文件存储在HDFS上,通过统一的读取数据流接口获取数据作为下一个输入;
5)易于操作的拖拽式图形化界面
通过拖拽快速构建一个工作流任务。在该系统中一个算法任务被构造为一个有向非循环图,其中每个节点表征一步操作,每一条边表征从一个节点到后一个节点的数据流。把任务提交以后,每个节点自动执行。用户可以再图形界面中以拖拉的方式创建,配置,提交和监督一项任务;
6)无缝整合单机和分布式算法
在一个任务中,不需要关心算法模型运行环境限制,可以混合使用单机和分布式的算法模型。解决了实际复杂的应用场景问题;
7)良好的算法模型扩展能力
支持用户上传自定义的算法模型,支持Python,R,Java,C++,scala,等语言开发的算法模型。集成了TensorFlow,PyTorch等深度学习框架。可以满足用户大部分应用场景需求;
8)多任务运行监督和管理
使用Hadoop平台的开源工作流调度引擎Oozie;满足多用户多任务操作的要求;
9)模块流程的自动化和智能化
任务运行状态自动实时监控和提示,且运行状态日志都保存入库,方便用户查询历史日志。
1.3工艺的合理性和成熟性
1.3.1合理性
1)该系统采用B/S模式,部署和维护方便,能随时随地使用;
2)数据的重复使用,减少对磁盘空间资源的使用;
3)算法任务的可重复性使用,对同一类型的任务需求,提高了工作效率;
4)数据处理和算法模型的自定义扩展,对于复杂和针对性的任务能方便用
户使用自己的算法模型。满足解决复杂的应用场景;
5)支持多任务并发执行,满足多用户使用场景;
6)支持单机和分布式算法,解决各种业务场景数据问题,诸如海量数据应
用场景;
7)支持深度学习TensorFlow框架,深度学习是当前机器学习研究和应用新
热点;
8)数据的可视化,便于用户随时查看数据和运行结果。