基于用户画像的心理数据挖掘
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
模糊聚类是由硬聚类发展而来的, 但更符合实际问题的数据样本特点。 最常用的是模糊C均值 (Fuzzy C Means, FCM)算法, 它与硬聚类明显的不同之处在于, 样本点对每类的隶属度取值不是二值的, 而是[0, 1]区间中的一个值。
虽然FCM方法具有很多优点, 但也存在一些缺点,例如 它对初始聚类中心比较敏感 在迭代过程中容易陷于局部极小值点 它的聚类数目c需要人为事先给定 对于样本中的孤立点或噪声点比较敏感 因此我们运用遗传算法对它进行了优化
通城字典课时作业本 (语文、英语、数学) 亮点给力提优课时作业本(语文) 非常课课通(语文) 教材解析(语文)
同步作文 小学生必背古诗词100首 计算能手 计算小超市 小学生数学报数学能力检测卷
这些教辅材料基本上都是老师推荐的、 标有教育部中国教育科学研究院基础教 育课程研究中心审定、
阿里,腾讯,京东等大公司都采用 用户画像技术,准确定位用户, 实施精准营销,满足用户需要。
标签是人工定义的高度精炼的特征标识, 语义化和短文本是它的两个重要特征。 语义化是赋予标签一定的含义, 使人能够很容易理解这些标签; 短文本是指标签本身无须再做过多的文本
分析等预处理, 方便了计算机对标签的提取和整合工作。
其优点是训练速度快, 而且只需要调整一个参数(光滑因子σ)。 但是σ的确定需要反复调整
σ的取值越大,模型的泛化能力就越强,但 对样本数据的逼近就较差,
σ的取值越小,对样本数据的逼近能力就越 强,而泛化能力就较差
因此我们采用遗传算法来找到优化的σ值。
3.4 遗传算法
它把求解问题的参数编码为染色体,并 通过选择、交叉和变异等算子的作用而 不断变换,最后满足要求的染色体就作 为求解问题的近似最优解
这些数据通过聚类分析后, 作为用户画像机器学习建模中的标签。
2.4 上网学习的信息(今后增加) 教学前上网学习“导学材料”的开始时
间、结束时间。
教学后上网做“诊断习题”的开始时间 、结束时间、答题正误情况。
错题集的信息
3、用户画像的基本算法
3.1 用户画像产生的背景 互联网时代用户信息数据急剧膨胀 大数据不仅是数据量巨大 而且是数据来源和类型多样化 数据维度的细分程度更加复杂, 数据更新速度更加快速。
中小学本身还积累了学生各科的学习成 绩数据。
面对这么大量而复杂的数据, 如何向政府有关部门描绘中学生 的现状呢? 我们采用了“用户画像”的方法 对数据进行了挖掘和建模。
2、数据采集
2.1 心理测量 积极心理量表: 包括智慧、勇敢、人际、公正、节制、
信念等六个维度。
中小学生心理健康量表:
。
3.3 人工神经网络
在当前人工智能的热潮中, 随着深度学习算法取得的成功, 人工神经网络被越来越多地 作为数据挖掘和建模的工具。
人工神经元的模型
神经网络模型
常用的有BP网络、径向基网络等, 广义回归神经网络(Generalized
Regression Neural Networks, GRNN) 是径向基网络的分支。 是一种基于非线性回归理论的多层 前馈式神经网络 GRNN是四层结构的神经网络
基于用户画像的 心理数据挖掘
余嘉元 南京师范大学心理学院
1、问题的提出
政府非常关心中小学生的教育 希望有关部门及时掌握情况制定政策 政策的制定必须建立在大数据的基础上 于是江苏省XX公司开发了“心理云”平台 收集了大量的心理测量数据。
同时教育系统通过问卷调查、网络数据 采集等方法,
获得了关于学生行为的数据。
我们的工作就是用机器学习的算法, 对中小学生心理和行为数据 进行挖掘建模, 产生中小学生画像的标签, 为政府有关部门制定政策服务。
本研究中采用的机器学习算法
主要是模糊聚类和广义回归神经网络, 以及用遗传算法对它们进行的优化。
3.2 聚类算法
常用的聚类方法包括硬聚类和模糊聚类 在硬聚类方法中 各个样本点对于每个类的隶属度取值 为0和1 1表示该样本点归属于这个类 0表示该样本点不属于这个类 即“非此即彼”的关系。
遗传算法中的种群代表了问题潜在的 解集, 种群是由染色体组的 染色体是用一维的串结构来表示数据
个体对环境的适应程度叫做适应度 遗传算法就是通过一系列变换 找到适应度最佳的染色体, 因此它是一种优化算法。
4、学生画像
运用用户画像的方法对学生进行画像。 采用GA-FCM方法生成标签 采用GA-GRNN方法进行建模预测。
具体的研究是在MATLAB2017a上编程进 行的,
其中的GA部分使用了Sheffield遗传算法 工具箱的相关函数
包括学习焦虑、对人焦虑、孤独倾向、 自责倾向、过敏倾向、身体症状、恐怖 倾向、冲动倾向等八个维度。
2.2 问卷调查 课外辅导班: 学而思数学班、学而思英语班、 网络英语课
课外教辅材料: 5.3天天练(数学、语文) 默写能手(语文、英语) 实验班提优课堂(语文) 实验班提优训练(英语、数学、语文)
新课标、
来自XX教育一线的教研成果。
课外兴趣班: 书法班、美术班、声乐班、舞蹈班、 乐器班、跆拳道班、武术班、围棋班、 机器人班、Python编程班
记日记、写读书笔记 使用手机、iPad、 电脑(视频、游戏、社交、配合学习)
2.3 学业成绩和综合评定 语文、数学、外语 班级职务(班长、班委、组长), 少先队职务(大队长(委)、中队长 (委)、小队长), 三好学生, 竞赛获奖。
人们急切希望将用户的行为成为 “可视化”和“标签化” 这就是“用户画像(User Portrait)” 产生的时代背景
wenku.baidu.com
用户画像最早出现在交互设计和产品 设计领域, 其目的就是根据网络用户在网络应用 过程中行为的规律, 对网络用户的特点进行标签化, 从而为制定企业的营销策略和发展 战略服务。