某大学(高校)大数据分析应用功能分析20170922V1.5
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
某大学大数据分析应用
功能分析
目录
1 项目整体目标 (4)
2 项目总体建设内容 (4)
2.1源数据采集 (4)
2.2大数据管理平台系统 (4)
2.3大数据业务分析模块 (4)
3 项目建设清单 (5)
3.1数据采集与清洗 (5)
3.2大数据管理平台 (5)
3.2.1 智能数据采集 (5)
3.2.2 智能数据治理 (5)
3.2.3 智能存储检索 (5)
3.2.4 智能挖掘算法 (6)
3.2.5 智能实时计算 (6)
3.2.6 智能数据运维 (6)
3.2.7 智能科研实践 (6)
3.2.8 智能统一API (7)
3.2.9 智能数据安全 (7)
3.3教师个人数据中心 (7)
3.4学生个人数据中心 (7)
3.4.1 学生个人信息 (7)
3.4.2 学生成绩 (7)
3.4.3 奖助学金情况 (8)
3.5学生画像应用 (8)
3.6综合预警分析 (8)
3.6.1 关爱周报 (8)
3.6.2 关爱月报 (8)
3.6.3 低消学生分析 (8)
3.6.4 预警推送 (8)
3.6.5 成绩预警 (9)
3.7行为轨迹分析 (9)
3.8校园综合分析 (9)
3.8.1 学生成绩报告 (9)
3.8.2 学生消费报告 (9)
3.8.3 学生借阅报告 (9)
3.8.4 老师借阅报告 (9)
3.9学生个人大数据报告 (10)
4 技术规格要求 (10)
4.1数据采集与清洗技术要求 (10)
4.2大数据管理平台技术要求 (11)
4.2.1 智能数据采集: (11)
4.2.2 智能数据治理: (11)
4.2.3 智能存储检索: (12)
4.2.4 智能挖掘算法: (12)
4.2.5 智能实时计算: (13)
4.2.6 智能数据运维: (13)
4.2.7 智能科研实践: (14)
4.2.8 智能统一API (14)
4.2.9 智能数据安全: (15)
4.3教师个人数据中心技术要求 (15)
4.4学生个人数据中心技术要求 (16)
4.5学生画像应用技术要求 (17)
4.6综合预警分析技术要求 (19)
4.7行为轨迹分析技术要求 (20)
4.8校园综合分析技术要求 (21)
4.9学生个人大数据报告技术要求 (21)
5 项目预算 (22)
1项目整体目标
随着采购人信息化的建设与发展,学校各部门的信息化系统已逐步建设并投入使用,并且已经积累了大量的可用数据。
本项目通过某大学校园大数据分析的建设,将现有各业务系统产生的数据进行全校范畴内的有效整合,并通过数据关联分析,挖掘数据的核心价值,对全校师生提供深层次的信息增值服务,为学校领导及师生分析与决策提供数据支持,最终实现将数据转变为学校效益,提升管理效率,促进教学与服务质量,增强学校的综合竞争力。
2项目总体建设内容
本项目具体建设内容包括如下:
2.1源数据采集
本项目需要的数据源,包括校内业务系统、硬件设备等,包括各类型的结构化数据和非结构化数据进行采集和集成、数据清洗等工作,并按照统一标准格式进行数据采集入库,建立合适的数据模型。
2.2大数据管理平台系统
搭建与开发某大学大数据平台系统,用于管理和存储本项目建设需要的各类源数据,并进行周期性的数据自动预处理,包括对各类源数据进行采集、清洗、转换、质量处理等操作构建大数据数据仓库;同时提供标准的内外数据读取接口和图形化的数据管理运维系统。
2.3大数据业务分析模块
对存储在数据仓库的数据进行处理,按周期时间进行汇集,根据业务需求和
用户要求进行多维关联分析及挖掘处理,制作针对不同场景的数据分析业务。根据数据现状,结合学校大数据建设目标需求,针对性开发与提供7个(清单中第3到第9项)大数据业务分析系统。
3项目建设清单
3.1数据采集与清洗
系统数据采集与清冼服务:包含接口调研,接口调测,数据采集,数据清洗,数据治理,数据质量监控、数据导入等;
数据源范围:一卡通、教务系统、上网认证系统、上网审计系统、门禁系统、图书馆管理系统、校园WiFi、人事系统、科研系统等系统。
3.2大数据管理平台
3.2.1智能数据采集
支持不同的数据爬虫工具,实现将不同的数据爬取过来。如:http接口、FTP 接口、webservice接口、oracle数据库、SQLserver数据库等。支持可视化图形化采集功能,通过可视化采集工具,可以看到不同的业务系统的数据抽取情况,形成采集报告,做整体的可视化监控;
3.2.2智能数据治理
对数据进行治理,如数据缺失、数据重复、数据错误、数据不可用等,同时支持对不可用数据提供按规则适配、关键字匹配、枚举转换等治理方法;
3.2.3智能存储检索
采用Hadoop分布式存储方式,采用HIVE、HBASE、HDFS三种分布式存储技术对大数据仓库平台中的数据分类存储,提供原始库、标准库、主题库这三个数
据库。支持对整体数据仓储的管理和检索,平台对单条记录查询响应小于3ms,在10亿以上的日志库中检索响应时间可实现小于5ms;
3.2.4智能挖掘算法
提供包含特征工程、统计算法、分类算法、回归算法、时序分析、主成分分析、关联推荐、深度机器学习、信念网络、决策方法等优化的常用数据挖掘算法库,同时提供包含spark机器学习算法库、python算法库。提供针对于教育行业关于学习、教学、管理、日志、互联网数据等数据的特定算法及模型库,用户可通过图形界面自主选择使用算法,含成绩标准换算、成绩预测分析算法,协同过滤推荐等算法。商业BI工具采用商业BI,提供>=10个Lisecne授权;
3.2.5智能实时计算
针对实时性要求比较高的数据,提供实时采集、实时计算、实时展示功能。利用flume做日志管理、利用kafka做实时流处理,形成消息队列处理机制;
3.2.6智能数据运维
提供运维管理功能,包括集群节点和系统服务的可视化配置与管理、性能和运行状况监控、异常告警、权限的管理与配置等相关功能。提供用户的账号、类型、权限、邮箱等基础信息提供全方位的管理,并以角色权限的控制方式控制用户对数据平台的访问,粒度可达数据库的每个字段;
3.2.7智能科研实践
提供标准封装接口,支持科研构建应用,方便用户构建科研分析平台。应用端呈现端与数据挖掘平台相互独立,采用解耦合架构,可适合多语言开发人员,并支持多前端应用框架;