基于校园大数据构建大学生画像的技术实现
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
分析结构化数据的构成,我们做了如下 清洗工作:通过使用常量替换、均值填充、回 归预测等方法处理如考试成绩、三餐消费等缺 失值、异常值问题;筛选并删除重复数据;利 用分箱技术的箱体均值法处理图书借阅的噪音 数据问题;通过格式转换处理数据编码和日期 表示不一致问题;最后对清洗结果中同一维度 的数据进行归一化和正则化处理,如家庭收入、 学习成绩均处理成 [0,1] 之间的数字。
• 数据库技术 Data Base Technique
基于校园大数据构建大学生画像的技术实现
文/张海华1 郭田友2 张非3
摘
随着高校信息化工作大力推
进, 智 慧 校 园 系 统 和 智 能 终 端 产 要 生了海量数据,如何从这些海量
数据中抽取具有决策价值的信息,
成 为 高 校 值 得 研 究 的 课 题。 本 文
本文将大学生画像描述成“基于以学生 为中心的理念和校园大数据,根据其人口学特 征、学习行为、社交活动、消费行为、思想动 态、兴趣爱好等信息抽象出来并标签化的一系 列学生模型集合。”
1.2 大学生画像之意义
大学生画像对于高校的教学、管理和服 务等方面均有着重要的指导意义和现实价值。
在课程设置方面,分析学生学业画像,
根据大学生在校期间各项活动和数据, 我们可以构建学生基础画像、学业画像、消费 画像、心理画像、思想政治画像、职业画像、 人格画像、评优助困画像、健康画像等一系列 大学生画像集合。
2.2 构建方法
构建大学生画像主要包括数据采集、数 据清洗、用户建模、标签挖掘、画像聚类、可 视化等工作。
数据采集按实时性分为在线采集和离线 采集,其中在线采集包含个人基础数据和使用 智慧校园系统发生的行为数据(如学习、消费、 交流、上网等)。离线采集包括对各类系统交 互日志和网络爬虫数据按照一定的算法规则进 行挖掘收集。
而阐述了智能化学习分析的面向
目 标, 之 后 介 绍 了 基 于 大 数 据 技
术 的 学 习 分 析 系 统, 以 促 进 大 数
据与学习分析当中的融合。
【关键词】大数据 学习分析 系统
近年来,随着社会快速发展,使得数据 数量呈爆炸性增加,从而进入到大数据时代。 由于大数据具有数量庞大、内容多样,传递速 度较快等特点,使其得到了广泛的应用,其中 当然也包括教育行业。教育行业通过对大数据 的应用,开发出了智能化学习分析系统,通过 该系统的应用,可以提升各方面人员的学习效 率。因此,对基于大数据的学习分析及其系统
77. [5] 刘柏岩 . 精准画像在高校学生事务精细化
管理方面的运用 [J]. 教育教法探讨与实 践 ,2017,12:263-265. [6]/html/2018/ xxgg_0521/17575.html 海南师范大学校园 大数据应用平台 . [7] 刘友超 , 张曦煌 . 基于自然最近邻相似图 的谱聚类 [N]. 计算机应用研究 ,2018,V37 网络版 . [8]https:///a/231884382_ 197042, 基于用户画像的聚类分析 .
在实践中,标签,分析图书借阅数据设 置知识标签,分析消费行为和消费水平设置消
<< 下转 153 页
152 • 电子技术与软件工程 Electronic Technology & Software Engineering
大学生画像来自于用户画像,其定义目 前尚无统一标准。[1] 李光耀等描述为“基于 大数据技术,通过整理搜集学生在网上的浏览、 点击、留言、评论等碎片化的行为轨迹,研究 学生言行,这些学生的言行轨迹直接或间接反 映了用户的性格、习惯、态度等信息”。[2] 董潇潇等描述“大学生行为画像是利用校园数 据将学生行为信息标签化。”
如某学生上月 10 日在图书馆系统查询了 主题为大数据研究的论文,假设时间衰减因 子公式 r=1-(m-m0)*0.05(即每隔一个月衰减 0.05),图书馆系统的权重为 0.8,则其数据 模型为:
学 生 学 术 标 签 为: 科 研, 大 数 据, 权 重 为 (1-0.05)*0.8=0.76。
3.2 用户建模
一 个 事 件 模 型 包 括 时 间、 地 址、 人 物、 内容四要素,每一次学生行为均是一次随机事 件,可以描述为谁在何时何地址做何操作。因 此数据模型概括为如下公式:学生标识 + 时间 + 行为类型 + 应用系统 + 内容。
学生标签的权重可能随时间增加而衰减, 因此定义时间衰减因子为 r,行为类型、应用 系统决定权重,内容决定了标签,可转换为公 式:标签权重 = 衰减因子 × 行为权重 × 应用 权重。
在毕业指导方面,分析学生职业画像, 根据学生的能力模型进行职业发展轨迹推荐和 “学生 - 企业”双向推荐,实现毕业生个人素 质、求职意愿和企业岗位需求信息的“人岗精 准对接”。海南师范大学利用大数据技术实现 学生精准就业,提升了聘效率,拓宽学生就业 渠道,有效管控就业数据。
2 大学生画像之构建
2.1 构建类别
可以帮助教学管理部门更加客观的了解学生对 大学课程的真实需求,更加科学的设置课程体 系,能够精准的评价每一名学生。成都电子科 技大学通过构建“学生画像”成功实现大学生 学习挂科预警机制。
在学生工作方面,分析学生消费画像, 可以帮助学工部门了解学生的经济和消费状 况,从而设计精准、科学的帮扶机制,帮助贫 困生顺利完成学业。南京大学成功将大数据技 术应用于贫困生帮扶。安徽师范大学利用大数 据挖掘技术为科学资助和精准资助提供了决策 支持。
作为学习的主要参与者,应通过学习分 析系统的应用,掌握自己学习情况,获得更多 学习资源,并对学习方法进行调整。 1.2.3 教育决策者
通过这一系统的应用,应获得整个学习 方面的信息,才会从宏观角度出发,对整个教 育工作进行优化。 1.2.4 研究学者
<< 上接 152 页
费标签、饮食标签等。 通过挖掘标签以及设定权重,我们就可
1 关于大学生画像
1.1 大学生画像之定义
用 户 画 像 (persona) 的 概 念 最 早 由 交 互 设 计 之 父 Alan Cooper 在《About Face: 交 互 设 计 精 髓 2》 一 书 中 提 出:“Personas are a concrete representation of target users.” 是指真 实用户的虚拟代表,是建立在一系列真实属性 数据之上的目标用户模型。
(5)将 Hnn 当作样本送入 K-means 进行 聚类,获得聚类结果 C=(C1, C2, ..., Cn)。
4 总结
针对高校智慧校园系统产生的海量数据, 探究大学生画像的应用具有重要的现实意义。 本文通过描述数据采集、用户建模、标签挖掘、 画像聚类等一系列流程构建大学生画像集合, 可以为每一位大学生提供个性化、精准的学习 规划和校园服务。
谱聚类 (Spectral Clustering) 是一种基于图 论的聚类方法——将带权无向图划分为两个或 两个以上的最优子图,使子图内部的。
谱聚类的图模型可解释为:无向带权图 模型 G=<V,E>,每一条边上的权重 wij 为两个 顶点的相似度,定义相似度矩阵 W 和度矩阵 D 和邻接矩阵 A,有拉普拉斯矩阵 L=D − A。
以 校 园 大 数 据 为 基 础, 分 析 了 大
学 生 画 像 的 定 义、 构 建 方 法 和 技
术 路 线, 采 用 用 户 建 模、 谱 聚 类
等 技 术, 为 全 面 构 建 大 学 生 画 像
集合提供实现路径。
【关键词】校园大数据 大学生画像 用户建模 谱聚类
随着社会步入大数据时代,高校不可避 免的需要在教学及管理方面进行一系列改革。 这其中最大的变化在于,学生的一切行为在学 校面前都将是“可视化”的,随着大数据技术 的深入研究与应用,高校在教学及管理领域的 专注点将聚焦于如何利用教育大数据为学生提 供优质的课程设计、良好的学习环境、精准的 生活服务。于是,“大学生画像”概念应运而生。
1.2 不同用户的需求分析
对于学习分析系统用户来说,可以将其 分成四种类型,每种类型的用户对系统具有不
同要求。 1.2.1 教师
教师作为知识的传授者,注重学生的学 习情况,需要针对学生的学习情况,及时调整 教学方案。然而在以往阶段当中,教师很难利 用传统的技术,获取学生的全面实际情况,只 能利用自身的教学经验进行观察与判断,使得 分析出来的结果存在一定差异,导致其制定出 来的方案不一定符合学生实际要求。此外,即 使可以准确掌握学生的实际情况,但由于精力 与时间有限,也很难根据每个学生的不同特点, 采用合理的教育方式。因此,教师对学习分析 系统应用时,主要用来对学生情况进行分析, 并对不同学生的需求采用相应的教育方案。 1.2.2 学生
• Data Base Technique 数据库技术
基于大数据的学习分析及其系统
文/谢晓广
摘
大 数 据 背 景 下, 如 能 有 效 将
大 数 据 应 用 到 学 习 活 动 当 中, 可 要 以大大优化推动我国教育学习领
域 的 发 展。 基 于 此, 本 文 通 过 对
智 能 化 学 习 的 需 求 进 行 分 析, 进
通过数据采集得到的原始数据源存在“脏 数据”,为了保证后期标签挖掘的准确性,需 要进行填空、去噪、删重、修正、规范化等预 处理。通过文本挖掘算法得到标签元数据和标 签数据集并使之标准化,基于前述画像维度进 行用户建模,并通过聚类算法对学生画像分类。
3 关键技术实现
3.1 数据处理
在进行用户建模之前,需要进行数据采 集 和 清 洗, 我 们 选 择 Python 中 的 Sklearn 和 Pandas 等模块作为数据清洗工具。
通过定义各类行为的时间衰减因子和系 统以及内容权重,就可以对学生的全部行为建 模。
3.3 标签挖掘
标签元数据是用于描述标签分类的数据, 我们将标签元数据划分为基本标签、经济标签、 成绩标签、知识标签、体育标签、消费标签、 饮食标签、社交标签、性格标签、心理标签、 学习标签、思想标签等。
从数据提取维度来看,标签分为事实标 签、模型标签和策略标签。事实标签来源于真 实数据,定性描述学生的基本属性等,如家庭 好、消费高、学霸。模型标签是对学生属性及 行为进行抽象和聚类概况出来的,如足球迷群 体、电竞迷群体。策略标签是根据学生信息和 行为配合一定的规则策略设定,如可能挂科、 有自杀倾向等。
以用模型完整的表示一个大学生。
3.4 画像聚类
聚 类, 顾 名 思 义 就 是“ 物 以 类 聚, 人 以 群分”,其主要思想是按照特定标准把数据集 聚合成不同的簇,使同一簇内的数据对象的相 似性尽可能大,同时,使不同簇内的数据对象 的差异性尽可能大。就本文而言,聚类就是把 相似的大学生分到同一组。
进行研究具有重要意义,更为在学习分析系统 中提升对大数据进行应用奠定良好基础。
1 智能化学习的需求分析
1.1 动态与静态分析典型场景
在学习过程中,主要由两种分析方式构 成,一种为动态分析,即学生在利用信息化技 术学习时,能够自主对学生情况进行分析,以 掌握其具体要求,如学生学习过程中,在某个 模块上停留了很长时间,则表明其对这一模块 感兴趣,或者是很难对该内容进行理解,针对 这一分析结果,系统即可向该学生提供相应的 学习资料,以确保提升学习效果。另一种为静 态分析,即在整个学习环境内,以日、星期、 月、年等为基准,分析学生学习相关的信息, 通过这些信息的分析,以了解学生对系统的应 用情况,从而为系统进一步优化提供良好支持。
参考文献 [1] 李 光 耀 , 宋 文 广 , 谢 艳 晴 . 智 慧 校 园
基于 Python 实现谱聚类算法流程如下: (1)利用欧氏距离计算距离矩阵; (2)利用 kNN 计算邻接矩阵 A。 (3)由邻接矩阵 A 计算度矩阵 D 和拉普 拉斯矩阵 L,并标准化 L → D − 1/2LD − 1/2。
(4)对 L → D − 1/2LD − 1/2 进行特征值分解, 得到特征向量 Hnn;