基于校园一卡通数据的人群画像分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

收稿日期:2018年3月9日,修回日期:2018年4月20日

作者简介:黄刚,男,硕士,研究方向:模式识别与智能信息处理。刘蓉,女,副教授,硕士生导师,研究方向:模式识别与智能信息处理等。

1引言

校园一卡通[1]是集数据共享、身份认证、金融

消费等多项功能于一体的信息集成系统,为师生提供优质高效信息化智慧校园服务[2]的同时也存储了海量的信息,对这些数据进行挖掘分析可以为教学、科研、后勤和管理等多个领域做出十分有益的贡献。

目前,国内已有很多科研团队利用一卡通数据开展相关研究。如:薛黎明等[3]从时间维度、消费场所维度、用户性别维度等对消费数量、消费金额进行分析,得到了消费时间、消费地点、消费人员及消费金额等之间的关系与规则模式;徐剑等[4]通过

K-means 算法分析学生对热水使用情况,了解学生对热水的需求量,有助于学校的建设和管理;姜楠等[5]对学生的消费数据进行分析,通过K-means 聚类算法将学生分为几类,分析行为特征,便于对学生进行分门别类的管理。2015年,EMC 杯竞赛中上海交大张宏伦等[6]对全校学生在食堂、洗浴中心及超市的消费次数和平均消费金额进行分析,描述了五类学生人群的特性,为学校的管理工作提供了参考和依据。

为顺应高校信息化的发展,本文运用数据挖掘技术对学生一卡通数据进行行为分析。通过对一卡通数据进行去噪、数据清洗、数据转换等预处理后,提取特征信息,采用K-means 聚类算法建立数

基于校园一卡通数据的人群画像分析

刘合富

谈利芳

(华中师范大学物理科学与技术学院

武汉

430079)

校园一卡通系统集成了用户大量的使用信息。论文利用数据挖掘技术对学生校园消费和学习活动数据进行

人群画像。首先,通过数据预处理提取关键特征,采用K-means 聚类算法对全校本科生数据集进行聚类,分析了用户的消费习惯和人群特征后进行画像说明。最后,通过生成的决策树模型对本科生数据集进行分类,以评估人群特征划分的准确性。实际结果表明,论文设计的用户分类模型能有效区分不同行为特征用户,为高校学生管理工作提供依据。

关键词

一卡通数据;K-means 聚类;决策树;人群画像

中图分类号

TP391

DOI :10.3969/j.issn.1672-9722.2018.09.037

Crowd Portrait Analysis Based on the Data of the Campus Card

System

HUANG Gang

LIU Rong

LIU Hefu

TAN Lifang

(College of Physical Science and Technology ,Central China Normal University ,Wuhan

430079)

Abstract

Campus card system integrates a large number of user information.In this paper ,data mining technology to carry

out the crowd portrait of the students 'consumption and learning activities is used.Firstly ,the key features are extracted after data preprocessing ,and the K-means clustering algorithm is used to cluster the data set.Then ,the portrait is illustrated in the analysis of the user 's consumption habits and characteristics of the crowd.Finally ,the decision tree model is used to classify the data sets to evaluate the accuracy of classification of the population characteristics.The results show that the user classification model designed in this paper can effectively distinguish the users with different behavior characteristics ,and provide the basis for the management

of College students.

Key Words

E-card Data ,K-means ,decision tree ,crowd portrait Class Number

TP391

第46卷

据分析模型,对不同行为特征用户画像,为分析现

代大学生的行为特点,优化校园服务、辅助学校管

理人员决策提供参考。

2一卡通数据分析模型

2.1系统框架

一卡通系统是利用智能卡技术、数据存储技

术、加密技术和软件工程等技术,在校园内为用户

提供身份认证和金融服务的管理信息系统。系统

每天都会产生大量的数据存储到数据库中,经过多

年应用,系统积累了千万级乃至上亿级数据。这些

数据中隐藏了用户的行为特征,如何利用海量的数

据为学校的日常管理工作提供决策支持是目前亟

待解决的问题,本文在此背景下展开研究,通过一

卡通刷卡信息,分析学生的消费习惯和行为特征,为

不同类别学生画像,系统分析框架图如图1所示。

消费数据库

图书馆数据库

数据预处理

数据挖掘建模

数据

仓库

K-means聚类聚类结果分析

决策树展示图1系统分析框架图

用户的食堂就餐消费和超市购物消费所产生的数据都存于消费数据库中,图书馆刷卡的数据都存于图书馆数据库中。经过数据预处理从中抽取出相关特征属性存放到数据仓库中,通过数据挖掘取样[7]建模,采用K-means聚类算法对数据仓库中的数据集进行聚类,对聚类结果进行分析并以决策树加以展示。

2.2K-means聚类算法

聚类是按照某个特定标准把一个数据集分割成不同的类簇,使得同一个簇内数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。本文采用K-means算法对用户刷卡数据进行聚类分析。

K-means算法[8]的核心思想是把n个数据对象划分为k类,使每个聚类中的数据点到该聚类中心的平方和最小,基于K-means算法的用户特征聚类过程如下:

l)数据预处理。原始数据经去噪、特征提取、特征值标准化后构成用户特征数据集n。

2)用组内方差图选取合适K值,确定聚类个数。

3)在用户一卡通特征数据集n中任意选取K 个数据作为初始聚类中心。

4)分别计算每个对象到各聚类中心的最短距离,将对象分配到距离最近的聚类中。

5)所有对象分配完成后,重新计算K个聚类的中心。

6)与前一次计算得到的K个聚类中心比较,若聚类中心发生变化,转4),直到聚类中心不发生变

化或达到最大迭代次数为止。

7)输出聚类结果。

算法流程图如图2所示。

数据预处理得

到数据集n

用组内方差图

法确定K值

初始化K个聚类中心

分配各个数据对象

到距离最近的类中

重新计算各个

聚类的中心

是否收敛

输出聚类结果

结束

图2K-means算法流程图

首先从n个数据对象中任意选择K个对象作为初始聚类中心,计算其他数据对象与这些聚类中心的相似度(距离),分别将他们分配给与其最相似的类簇。所有数据对象都分配结束后再重新计算每个类簇的聚类中心,不断重复这一过程直到标准测度函数开始收敛为止。本文采用均方差作为标准测度函数,如公式(1)所示:

SSE=åi=1kåxÎci dist(c i x)2(1)其中SSE为误差的平方和,dist表示两个对象之间

的标准欧氏距离,c

i

为簇i的质心,x为属于簇i的数据点的集合。经过聚类后,相似行为特征的用户要聚成一簇,同一类簇尽可能地紧凑,不同类簇间尽可能地分开。

3用户分类及数据分析

3.1数据预处理及特征提取

一卡通数据储存于oracle数据库中,有消费信

黄刚等:基于校园一卡通数据的人群画像分析1882

相关文档
最新文档