基于校园一卡通数据的人群画像分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

收稿日期:2018年3月9日,修回日期:2018年4月20日
作者简介:黄刚,男,硕士,研究方向:模式识别与智能信息处理。

刘蓉,女,副教授,硕士生导师,研究方向:模式识别与智能信息处理等。


1引言
校园一卡通[1]是集数据共享、身份认证、金融
消费等多项功能于一体的信息集成系统,为师生提供优质高效信息化智慧校园服务[2]的同时也存储了海量的信息,对这些数据进行挖掘分析可以为教学、科研、后勤和管理等多个领域做出十分有益的贡献。

目前,国内已有很多科研团队利用一卡通数据开展相关研究。

如:薛黎明等[3]从时间维度、消费场所维度、用户性别维度等对消费数量、消费金额进行分析,得到了消费时间、消费地点、消费人员及消费金额等之间的关系与规则模式;徐剑等[4]通过
K-means 算法分析学生对热水使用情况,了解学生对热水的需求量,有助于学校的建设和管理;姜楠等[5]对学生的消费数据进行分析,通过K-means 聚类算法将学生分为几类,分析行为特征,便于对学生进行分门别类的管理。

2015年,EMC 杯竞赛中上海交大张宏伦等[6]对全校学生在食堂、洗浴中心及超市的消费次数和平均消费金额进行分析,描述了五类学生人群的特性,为学校的管理工作提供了参考和依据。

为顺应高校信息化的发展,本文运用数据挖掘技术对学生一卡通数据进行行为分析。

通过对一卡通数据进行去噪、数据清洗、数据转换等预处理后,提取特征信息,采用K-means 聚类算法建立数
基于校园一卡通数据的人群画像分析





刘合富
谈利芳
(华中师范大学物理科学与技术学院
武汉
430079)


校园一卡通系统集成了用户大量的使用信息。

论文利用数据挖掘技术对学生校园消费和学习活动数据进行
人群画像。

首先,通过数据预处理提取关键特征,采用K-means 聚类算法对全校本科生数据集进行聚类,分析了用户的消费习惯和人群特征后进行画像说明。

最后,通过生成的决策树模型对本科生数据集进行分类,以评估人群特征划分的准确性。

实际结果表明,论文设计的用户分类模型能有效区分不同行为特征用户,为高校学生管理工作提供依据。

关键词
一卡通数据;K-means 聚类;决策树;人群画像
中图分类号
TP391
DOI :10.3969/j.issn.1672-9722.2018.09.037
Crowd Portrait Analysis Based on the Data of the Campus Card
System
HUANG Gang
LIU Rong
LIU Hefu
TAN Lifang
(College of Physical Science and Technology ,Central China Normal University ,Wuhan
430079)
Abstract
Campus card system integrates a large number of user information.In this paper ,data mining technology to carry
out the crowd portrait of the students 'consumption and learning activities is used.Firstly ,the key features are extracted after data preprocessing ,and the K-means clustering algorithm is used to cluster the data set.Then ,the portrait is illustrated in the analysis of the user 's consumption habits and characteristics of the crowd.Finally ,the decision tree model is used to classify the data sets to evaluate the accuracy of classification of the population characteristics.The results show that the user classification model designed in this paper can effectively distinguish the users with different behavior characteristics ,and provide the basis for the management
of College students.
Key Words
E-card Data ,K-means ,decision tree ,crowd portrait Class Number
TP391
第46卷
据分析模型,对不同行为特征用户画像,为分析现
代大学生的行为特点,优化校园服务、辅助学校管
理人员决策提供参考。

2一卡通数据分析模型
2.1系统框架
一卡通系统是利用智能卡技术、数据存储技
术、加密技术和软件工程等技术,在校园内为用户
提供身份认证和金融服务的管理信息系统。

系统
每天都会产生大量的数据存储到数据库中,经过多
年应用,系统积累了千万级乃至上亿级数据。

这些
数据中隐藏了用户的行为特征,如何利用海量的数
据为学校的日常管理工作提供决策支持是目前亟
待解决的问题,本文在此背景下展开研究,通过一
卡通刷卡信息,分析学生的消费习惯和行为特征,为
不同类别学生画像,系统分析框架图如图1所示。

消费数据库
图书馆数据库
数据预处理
数据挖掘建模
数据
仓库
K-means聚类聚类结果分析
决策树展示图1系统分析框架图
用户的食堂就餐消费和超市购物消费所产生的数据都存于消费数据库中,图书馆刷卡的数据都存于图书馆数据库中。

经过数据预处理从中抽取出相关特征属性存放到数据仓库中,通过数据挖掘取样[7]建模,采用K-means聚类算法对数据仓库中的数据集进行聚类,对聚类结果进行分析并以决策树加以展示。

2.2K-means聚类算法
聚类是按照某个特定标准把一个数据集分割成不同的类簇,使得同一个簇内数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。

本文采用K-means算法对用户刷卡数据进行聚类分析。

K-means算法[8]的核心思想是把n个数据对象划分为k类,使每个聚类中的数据点到该聚类中心的平方和最小,基于K-means算法的用户特征聚类过程如下:
l)数据预处理。

原始数据经去噪、特征提取、特征值标准化后构成用户特征数据集n。

2)用组内方差图选取合适K值,确定聚类个数。

3)在用户一卡通特征数据集n中任意选取K 个数据作为初始聚类中心。

4)分别计算每个对象到各聚类中心的最短距离,将对象分配到距离最近的聚类中。

5)所有对象分配完成后,重新计算K个聚类的中心。

6)与前一次计算得到的K个聚类中心比较,若聚类中心发生变化,转4),直到聚类中心不发生变
化或达到最大迭代次数为止。

7)输出聚类结果。

算法流程图如图2所示。

数据预处理得
到数据集n
用组内方差图
法确定K值
初始化K个聚类中心
分配各个数据对象
到距离最近的类中
重新计算各个
聚类的中心
是否收敛
输出聚类结果
结束


图2K-means算法流程图
首先从n个数据对象中任意选择K个对象作为初始聚类中心,计算其他数据对象与这些聚类中心的相似度(距离),分别将他们分配给与其最相似的类簇。

所有数据对象都分配结束后再重新计算每个类簇的聚类中心,不断重复这一过程直到标准测度函数开始收敛为止。

本文采用均方差作为标准测度函数,如公式(1)所示:
SSE=åi=1kåxÎci dist(c i x)2(1)其中SSE为误差的平方和,dist表示两个对象之间
的标准欧氏距离,c
i
为簇i的质心,x为属于簇i的数据点的集合。

经过聚类后,相似行为特征的用户要聚成一簇,同一类簇尽可能地紧凑,不同类簇间尽可能地分开。

3用户分类及数据分析
3.1数据预处理及特征提取
一卡通数据储存于oracle数据库中,有消费信
黄刚等:基于校园一卡通数据的人群画像分析1882
2018年第9期计算机与数字工程
息表、图书馆刷卡记录表等,建表方式为按月建表,
存放当月全校所有的学生刷卡消费信息。

为方便
得到聚类数据集,需要对数据进行预处理[9],数据
预处理主要剔除部分月份缺失和属性值缺失的数
据。

数据预处理后就可以根据建模的需要提取相
关的特征值,本文选取有效早餐次数、有效正餐次
数、食堂刷卡次数、超市刷卡次数、图书馆刷卡次
数、有效食堂消费天数、年总额七维特征。

有效早餐次数定义为学生早上8点前的有效
刷卡次数,如式(2)所示。

其中distinct表示在这个
时间段内,一天无论刷卡多少次记一次有效刷卡次
数。

BreakfastTime=distinct(time<=8:00)(2)有效正餐次数定义为学生的有效午餐次数与
有效晚餐次数之和,如式(3)所示。

有效午餐次数
为11点到14点的有效刷卡次数,有效晚餐次数为
17点到20点的有效刷卡次数。

其中distinct表示在
这个时间段内,一天无论刷卡多少次记一次有效刷
卡次数。

DinnerTime=distinct(11:00<=time<=14:00)
+distinct(17:00<=time<=20:00)(3)有效食堂消费天数定义为学生的有效刷卡天
数,即一天内无论刷卡多少次记一次有效刷卡天
数。

食堂刷卡次数定义为学生在食堂的总刷卡次
数,超市刷卡次数定义为学生在超市的总刷卡次
数,图书馆刷卡次数定义为学生在图书馆的总刷卡
次数,年总额定义为学生在食堂超市消费的总金
额。

所有用户的七维特征系数提取后,为了让数据
分析得到更加泛化的结果,保证程序运行时收敛加
快,但并不改变问题的本质,对所有的特征值进行
Z-score标准化处理。

标准化处理方法如式(4)所
示。

x*=x-μ
σ
(4)
其中x为具体数值,μ表示平均值,σ表示标准差。

这种方法对原始数据进行标准化处理后符合标准正态分布,即均值为0,标准差为1。

3.2最佳K值选取
聚类算法中K值的选取非常关键,通常凭经验分辨聚类结果好坏选K值或者通过轮廓系数图等理论知识来指导K值选取[10]。

本文通过对处理后的样本集进行聚类实验,得到不同K值和中心值下聚类的组内方差值,绘制组内方差图以选取合适K 值。

最佳K值选取步骤如下:
1)令K=2,选取30组不同的seed(初始类中心值)进行30次聚类实验。

2)记录下K=2及所选seed值聚类得到的SSE 值。

3)求得30组聚类实验得到的SSE平均值作为K=2时的组内方差。

4)令K从2增加到10,得到10组聚类的组内方差值。

利用特征数据值绘制的方差图如图3所示。

1500
1250
1000
750
500
250
02类3类4类5类6类7类8类9类10类
图3组内方差图
图3中x轴代表聚类个数,y轴代表平均组内方差。

当聚类数目越大时,每组的组内方差越小。

可以看出当聚类个数K>5后组内方差下降趋势变缓,同时K足够小,故此选取K=5为聚类个数。

3.3聚类分析
选取2015年6月至2016年7月一学年的数据,数据集共包含17956人,其中男生4914人,女生13042人,由上文可知聚类的最佳K值为5,对标准化后的数据选择30组不同的类中心值进行聚类处理,避免局部最优解,最终对应SSE误差平方和最小的即为最优聚类结果,结果如表1所示。

表1聚类结果比较
seed
600
1200
1800
2400
3000
3600
4200
4800
5400
6000
SSE
780.13
780.12
780.11
780.13
780.13
780.13
780.11
780.13
780.13
780.13
seed
6600
7200
7800
8400
9000
9600
10200
10800
11400
12000
SSE
780.13
780.11
780.13
780.12
780.13
780.13
780.11
780.12
780.13
780.13
seed
12600
13200
13800
14400
15000
15600
16200
16800
17400
17900
SSE
780.12
780.12
780.13
780.08
780.13
780.13
780.12
780.13
780.13
780.12从表1得出,初始聚类中心为14400时所有样本数据的总方差和SSE最小,聚类结果最佳,因此采用这一组的结果作为最终聚类结果。

得到聚类中心后,根据可视化结果观察食堂刷
1883
第46卷
卡次数和早餐次数的散点图,如图4所示,其中x 轴代表食堂刷卡次数,y 轴代表早餐次数,各类别轮廓边界分明,可以看出形成了比较明显的聚类,验证了上述K
值和中心值选取的合理性。

图4食堂刷卡次数和早餐次数散点图
3.4用户消费习惯分析
由上述的聚类分类结果,分别统计各类别消费
原始数据的平均值,根据直方图比较各类别的消费差异,分析各特征人群[11]的消费习惯,所得结果如图5
所示。

(a )
早餐次数
(b )
食堂次数
(c )
正餐次数
(d )超市次数
图5
各类别人群消费习惯图
图5中横坐标代表人群类别,纵坐标分别代表用餐次数或刷卡次数。

第Ⅰ类人群早餐次数、正餐次数和食堂次数都是最高值,且早餐次数明显高于其他类,这类人群乐于早起,正常在食堂就餐,属于生活极其自律的人群。

第Ⅱ类人群和第Ⅰ类人群相比,仅早餐次数差距较大,说明第Ⅱ类人群的在校生活也比较规律。

第Ⅲ类人群各项消费在各类中都占第三,这类人群的消费习惯比较均衡。

第Ⅳ类人群早餐次数、正餐次数、食堂次数和超市次数都较少,推测这类人群更倾向于校外消费,生活自由度较大。

第Ⅴ类人群早餐次数、正餐次数、食堂次数和超市次数都是最少的,和其他类相比差距很大,这类人群很少在校消费。

3.5消费人群画像
用户五个类别聚类中心如表2所示,聚类中心
点特征代表该类别人群特征的均值水平。

表2
聚类中心
聚类中心ⅠⅡⅢⅣⅤ聚类中心ⅠⅡⅢⅣⅤ
早餐次数1.81090.2976
-0.0841-0.6362-0.9908图书馆次数1.1506-0.130.0209
-0.2444-0.5173
正餐次数1.03361.01410.0603-0.7413-1.6311
食堂天数
0.94070.86840.2904-0.6426-1.9766
食堂次数1.20870.88820.06-0.7224-1.614
年总额0.73221.00050.0991-0.6402-1.5774超市次数
0.24790.53160.0516-0.291-0.7839
由表2可知,第Ⅰ类人群。

早餐次数和图书馆
次数都明显高于其他类,正餐次数、食堂刷卡次数、食堂刷卡天数和年消费额都明显高于均值,超市刷卡次数略高于均值。

这类人群习惯早起吃早餐,按时在食堂就餐,生活极其规律,生活习惯非常好。

还喜欢去图书馆学习,学习习惯也非常好,是传统的好学生的生活习惯。

推测这类人群是按时作息,学习成绩比较好的学霸型。

第Ⅱ类人群。

早餐次数略大均值,正餐次数、食堂刷卡次数、食堂刷卡天数、年消费额都明显大于均值,超市刷卡次数也明显大于均值,图书馆次数略小于均值。

这类人群在食堂超市消费的记录都很规律,按时就餐偶尔也能早起吃早餐,在校生活习惯较好。

图书馆次数较少,说明学习积极性还有待提高,属于学习潜力型,若能再提高早餐习惯
和去图书馆学习的习惯,这类人群的成绩将有很大的提升空间。

黄刚等:基于校园一卡通数据的人群画像分析1884
2018年第9期计算机与数字工程
第Ⅲ类人群。

除食堂刷卡天数略大于均值,其
他特征值都与均值比较均衡。

这类人群去食堂、超
市、图书馆的情况比较正常,是大多数人的生活习
惯,属于群众型。

第Ⅳ类人群。

早餐次数、午餐次数、食堂刷卡
次数、食堂刷卡天数、年消费额都小于均值,超市刷
卡次数和图书馆刷卡次数略小于均值。

这类人群
较少早起吃早餐,也较少在食堂就餐,推测经常晚
睡晚起,偏爱叫外卖。

去超市的次数也略少,推测
喜欢网购。

图书馆去得不多,说明学习不够勤奋。

推测这类人群是偏爱网络生活的宅男宅女型。

第Ⅴ类人群。

各特征值为所有类别中最低值,
早餐、正餐次数很低,食堂刷卡次数、食堂刷卡天数
和年消费额都很低,很少在食堂就餐。

超市刷卡次
数和图书馆刷卡次数极低,说明也很少在学校超市
消费,很少去图书馆学习,推测这类人群的个性化
较强,自我掌控空间较大。

上海交大的EMC杯智慧校园开放数据大赛,
选取了学生在食堂、洗浴中心及超市的消费次数、
平均消费金额作为特征值,对消费人群进行聚类画
像分析后得到了女神or男神、潜力股or学术帝、宅
男、奇行种和人民群众这五类人群画像,从生活化
方向对交大学生进行了人群画像,重点突出了不同
人群在学校的生活习惯。

本文采用了不同的聚类
特征值,以生活和学习两方面相结合为出发点对华
中师范大学学生进行了人群画像[12],得到了符合我
校本科生在校生活学习的不同人群特征,为校园管
理者提供了管理决策参考的价值。

4实验结果评估
4.1用户行为模式聚类的有效性分析
选取数据集中某理科院系2013~2015级本科
生的数据作为聚类数据集来验证聚类的有效性。

同上文的聚类方式对此院本科生的数据进行特征
采集、标准化处理后分成五类,然后计算各类人群
的课程成绩优秀率,结果如表3所示。

表3各类人群优秀率
人群优秀率学霸型
80.46%
学习潜
力型
54.85%
群众型
45.68%
宅男宅
女型
38.41%
奇行类
29.09%
学霸型人群中80.46%的学生学习成绩达优秀,优秀率明显高于其他类人群,符合生活学习习惯极其规律学生的成绩特征。

奇行类人群中
29.09%的学生学习成绩达优秀,优秀率明显低于其他类人群,但也有成绩优秀的学生,说明这类人群中有自主安排学习能力极强的个性化学生。

学习潜力型的优秀率达到54.85%,说明这类人群的可塑性很高,调整下学习习惯亦能成为学霸型人群。

宅男宅女型的优秀率不足40%,体现了生活学习习惯不佳的确影响学习成绩。

群众型的优秀率在五类人群中的中等位置,说明大部分人的学习生活习惯处于规律与不规律之间,随着年级的增长很可能会向其他类型人群转变。

4.2决策树模型
本文利用WEKA[13]J48中的C4.5算法对聚类后的数据集进行决策树建模[14],通过REP(Re⁃duced Error Pruning错误率降低剪枝)剪枝处理[15]后生成的决策树图如图6
所示。

图6剪枝后生成决策树图
其中stday代表食堂刷卡天数,stcs代表食堂刷卡次数,8zao代表8点前早餐次数,dinner代表正餐次数,library代表图书馆打卡次数,nze代表年消费总额。

由图6可知,食堂刷卡天数是关键属性,先对食堂刷卡天数进行判断,当食堂刷卡天数小于-1.28时,用户分为第Ⅴ类人群。

当食堂刷卡天数大于-1.28小于-0.35时分为第Ⅳ类人群宅男宅女型。

当食堂刷卡天数大于-0.35小于-0.1,且食堂刷卡次数小于-0.4时,分为第Ⅳ类人群,但食堂刷卡次数大于-0.4时分为第Ⅲ类人群群众型。

当食堂刷卡天数大于-0.1且早餐次数大于1.2时分为第Ⅰ类人群学霸型。

然后再依次分裂,达到分裂结束条件时分为具体类别。

每个所分的类别中都有给出2个数值,前面的代表分类正确的数目,后面代表分错的数目。

通过决策树树状图能够很清晰地判断出聚类的好坏,进一步验证了上述实验的合理性及可靠性。

利用图6的决策树模型可对学生进行有效分类,以对学生管理工作提供依据。

5结语
通过分析学生一卡通的消费记录和图书馆刷
1885
第46卷
卡记录,提取出与学生在校活动密切相关的特征属性,8点前早餐次数、正餐次数、食堂刷卡次数、超市刷卡次数、图书馆刷卡次数、食堂刷卡天数和年总额,标准化处理后通过K-means聚类分出了5类,根据聚类的簇特征给5类人群画像为奇行类、宅男宅女型、群众型、学习潜力型和学霸型,并验证了分类的正确性。

对高校的学生管理工作具有一定的参考价值。

参考文献
[1]李淑娟,周伟强,宓詠.如何实现校园一卡通高效的运行管理探索[J].实验技术与管理,2011(6):7-10.
LI Shujuan,ZHOU Weiqiang,MI Yong.How to Realize the Operation and Management of Campus Card[J].Exper⁃imental Technology and Management,2011(6):7-10.[2]宓詠,赵泽宇.大数据创新智慧校园服务[J].中国教育信息化,2013(24):3-7.
MI Yong,ZHAO Zeyu.Big Data Innovation Wisdom Cam⁃pus Services[J].China Education Info,2013(24):3-7.[3]薛黎明.数据挖掘在校园一卡通消费数据分析中的应用[C]//中国高等教育学会教育信息化分会:中国高等
教育学会教育信息化分会第十二次学术年会论文集,2014:1-8.
XUE Liming.The Application of Data Mining in the Analy⁃sis of Campus Card Consumption Data[C]//China Higher Education information Academy:Twelfth Academic Annu⁃al Conference Proceedings of China Higher Education in⁃formation Academy,2014:1-8.
[4]徐剑,陈劲舟.数据挖掘在校园一卡通数据的应用与研究[J].电脑知识与技术,2012(33):7885-7887.
XU Jian,CHEN Jinzhou.The Application and Research of Data Mining in Campus Card Data[J].Computer Knowl⁃edge and Technology,2012(33):7885-7887.
[5]姜楠,许维胜.基于校园一卡通数据的学生消费及学习行为分析[J].微型电脑应用,2015(2):35-38. JIANG Nan,XU Weisheng.An Analysis of Students'Con⁃sumption and Learning Behavior Based on Campus Card Data[J].Microcomputer application,2015(2):35-38.[6]ZHANG Honglun,JIN Jiandong.Analysis of SJTU's Cater⁃ing System Based on Ecards'Data[EB/OL].http://zhang⁃/emc/paper.html,2015.
[7]胡文瑜,孙志挥,吴英杰.数据挖掘取样方法研究[J].
计算机研究与发展,2011(1):45-54.
HU Wenyu,SUN Zhihui,WU Yingjie.Research on Data Mining Sampling Method[J].Computer Research and De⁃velopment,2011(1):45-54.
[8]吴夙慧,成颖,郑彦宁,等.K-means算法研究综述[J].
现代图书情报技术,2011(5):28-35.
WU Suhui,CHENG Ying,ZHENG Yanning,et al.Survey of K-means algorithm[J].New Technology of Library and Information Service,2011(5):28-35.
[9]崔妍妍.数据挖掘分类系统的研究与实现[D].北京:北京邮电大学,2014.
CUI Yanyan.Research and Implementation of Data Min⁃ing Classification System[D].Beijing:Beijing University of Posts and Telecommunications,2014.
[10]王勇,唐靖,饶勤菲,等.高效率的K-means最佳聚类数确定算法[J].计算机应用,2014(5):1331-1335.
WANG Yong,TANG Jing,RAO Qinfei,et al.An effi⁃
cient algorithm for determining the optimal number of
clusters in K-means[J].Journal of Computer Applica⁃
tions,2014(5):1331-1335.
[11]张宏鑫,盛风帆,徐沛原,等.基于移动终端日志数据的人群特征可视化[J].软件学报,2016(5):
1174-1187.
ZHANG Hongxin,SHENG Fengfan,XU Peiyuan,et al.
Visualization of crowd characteristics based on mobile
terminal log data[J].Journal of Software,2016(5):
1174-1187.
[12]丁伟,王题,刘新海,等.基于大数据技术的手机用户画像与征信研究[J].邮电设计技术,2016(3):64-69.
DING Wei,WANG Ti,LIU Xinhai,et al.Research on
Portrait and Credit of Mobile Phone Users Based on
Large Data Technology[J].Designing Techniques of
Posts and Telecommunications,2016(3):64-69.
[13]袁梅宇.数据挖掘与机器学习-WEKA应用技术与实践[M].北京:清华大学出版社,2014:55-77.
YUAN Meiyu.Data Mining and Machine Learn⁃
ing-WEKA Application Technology and Practice[M].
Beijing:Tsinghua University Press,2014:55-77.
[14]Hong Yan Zhao.The Analysis and Application of the C4.5Algorithm in Decision Tree Technology[J].Ad⁃
vanced Materials Research,2012,1639(457).
[15]周志华.机器学习[M].北京:清华大学出版社,2016:79-88.
ZHOU Zhihua.Machine Learning[M].Beijing:Tsinghua
University Press,2016:79-88.
黄刚等:基于校园一卡通数据的人群画像分析1886。

相关文档
最新文档