数据挖掘应用——大型超市“购物篮”分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
clc clear A=A= Data1;
统计学 考试成绩
考试课程 阅卷教师签名
从上表可以看出单次购买最多的产品为 251 号,购买次数为 814 次,其次是 248 号,为 813 B=zeros(1024,999); 次,最少的是 239 号,为 726 次。 for i=1:1024 下表给出了前二十位两种产品被同时购买的具体情况。 for j=1:30 商品编号 购买次数 if A(i,j)>0 252 246 297 B(i,A(i,j))=1; 312 259 286
商品编号 251 248 姓名 考试时间 线 259 256 240 261 245 257 258 254 267 学号 263 264 255 订 253 线 271 249 266 268 269 269 265 270 订 262 260 239 242 装 246 275 数据挖掘 239 装 购买次数 814 813 809 785 783 770 781 788 770 771 777 764 795 754 751 764 755 745 749 743 743 734 734 735 733 727 724 721 725 726
姓名 考试时间 线
符号说明 第 i 个消费者的购物篮中的 j 种商品 购买 j 种商品的人的集合 超市的收益 购买商品的人数 两商品的相关性 四、模型建立
xij
sj
r
n p
1.件1中的表格数据显示了该超市在一个星期内的1024个顾客对999种商品的购买记录,表格 中每一行代表一个顾客的购买记录,数字代表了其购买商品的超市内部编号。试建立一种数学模 型,该模型能定量表达超市中多种商品间的关联关系的密切程度。 2.根据你在问题(1)中建立的模型,寻找一种快速有效的方法能从附件1中的购买记录中分析 出哪些商品是最频繁被同时购买的。超市经理希望得到尽可能多的商品被频繁同时购买的信息, 所以你找到的最频繁被同时购买的商品数量越多越好。例如:如果商品1、商品2、商品3在1024 个购物记录中同时出现了200次,则可以认为这三个商品同时频繁出现了200次,商品数量是3。 3.附件2给出了这999中商品的对应的利润,试根据你在1)、2)、问建立的模型,给出一中 初步的促销方案,使超市的效益进一步增大。 4.给经理一个写一份报告,分析超市的现状并对将来超市购物篮信息的收集策略提出建议。
考试课程 阅卷教师签名
考试课程 阅卷教师签名
数据挖掘
三、符号表示
ቤተ መጻሕፍቲ ባይዱ 第
页 共

从上表中可以看出购买次数最多的是 216 号和 267 号,其相关系数也最高,为 0.0712,其次 是 253 号和 283 号,为 0.0689,在所选前 10 组产品中购买最少的是 210 号和 127 号,其相关系 数为 0.0543。 5.2 问题 2 求解 用 Matlab 对数据进行汇可得前三十位购买次数最多的产品,具体如下表所示:

页 共

大型超市“购物篮”分析问题
符号 一、问题提出 作为超市的经理,经常关心的问题是顾客的购物习惯。他们想知道:“什么商品组或集合顾 客多半会在一次购物时同时购买?”。现在假设你是某超市的市场分析员,已经掌握了该超市近 一个星期的所有顾客购买物品的清单和相应商品的价格,需要你对给超市经理一个合理的“购物 篮”分析报告,并提供一个促销计划的初步方案。 具体的说,你需完成如下任务:
专业
由上表可以看出 252 号和 246 号商品同时被购买次数最多,为 297 次。 下表给出前五位同时被购买三种产品的具体情况。 商品编号 次数 256 245 273 85 232 343 276 73 287 257 265 62 267 249 175 48 197 184 157 39 从上表可以看出 256 号、245 号和 273 号产品被购买的次数最多,为 85 次。 六、Matlab 程序运行过程及结果 在 Matlab 中运用数据具体操作如下: 相关系数:
本题要建立定量模型来描述超市中多种商品之间的密切关联程度, 由于根据顾客的购买 记录求解, 因而首先对顾客进行分类, 假设购买 j 的人的集合为 s j , 购买 k 的人的集合为 sk , 则 s j 与 sk 的交集为同时购买两种商品的顾客集合,为避免因购买人数少而导致频率变大的 问题且顾客在两种商品中选择一种的情况,因而商品的关联程度可表示为:
姓名 考试时间 线
end end 或 A=Data1; b=[]; [m n]=size(A); for i = 1 : m [k l]=mode(A(i,:)); b=[b;k l]; end
学号
b

被同时购买三次的物品:
将被同时购买两次的商品号放入桌面的DATA1.txt文本文档 B=textread(‘C:\User\Administrator\Desktop\DATA1.txt’); M=0; for i=1:1024 if B(i,2)=B(i,3) if B(i,2)=2 M=M+1; end
end

页 共

end end o=corr(A)
被同时购买两次的物品:(结果为一部分)
将被购买一次频率较大的商品号放入桌面的DATA.txt文本文档 A=textread(‘C:\User\Administrator\Desktop\DATA.txt’); Z=0; for i=1:1024 if A(i,1)=A(i,2) if A(i,1)=1 Z=Z+1; end
装 装
五、结果分析 5.1 问题 1 求解 根据四中的模型,求出关联系数,本次选取前 10 位关联最大的产品及其相关系数,如 下表: 商品编号 商品编号 相关系数 216 267 0.0712 253 283 0.0689 234 268 0.0673 269 246 0.0655 321 242 0.0621 156 289 0.0597 248 215 0.0584 279 189 0.0565 217 312 0.0552 210 127 0.0543

线
二、问题分析
度。为了问题分析方便,根据 1024 个顾客对 999 种商品的购买记录,令 x i 表示第 i 个顾客的购买 情况,当第 i 个顾客的购物篮里有第 j 个商品时, xij 1 ,反之 xij 0 。从而将数据转化为 0-1 形 式,根据表格中的购买记录,求出购买 j 商品的顾客群和购买 k 商品的顾客群,两群体的交集所 产生的的人数与购买的比值即为所得的购买概率;所求得的概率也就表示了两种商品的相关程 度。 2.2 问题 2 分析 问题 2 要求寻找一种方法从附件 1 中的购买记录中分析出哪些商品是最频繁被同时购买的且 被购买的越多越好。根据问题 1 中利用 MATLAB 对 0-1 矩阵的处理,得到了一次购买一种商品 的次数的排名, 截取排名中的前 10 种商品, 我们从这 10 种里选出被同时购买的两件商品的信息, 调用 10 种商品的 0-1 矩阵,利用 MATLAB 编程得到两件商品被同时购买的频数,结合 Apriori 算法提出支持度 S,以便筛选数据。
专业
统计学 考试成绩

线
end end

判断两种物品相关程度:
for i=1:90 for j=1:13
数据挖掘

if A(i,j)>=0.57&&i~=j fprintf('t=%0.05',i); fprintf('i=%0.09',j); fprintf('%d',A(i,j)) end end
p s j sk n si sk si sk
学号 订
统计学 考试成绩
专业
超市是以顾客自选方式经营的大型综合性零售商场,属于重要的公共场所之一。随着社会经 此公式表示了购买两种商品的频率,频率越高,相关性越大,频率越低,相关性越小; 济的发展和大众消费水平的提高,超市越来越成为人们购买各种日常用品或食品的主要场所,本 若 p 较大,剔除了购买次数较少的情况,即当消费者购买一种商品时,对另一种商品购买的 次作业就是基于这一考虑分析超市购物篮问题,用以促进居民消费提高超市利润。 2.1 问题 1 分析 概率很大,反映了两种商品的关联相关性的密切程度。 由问题 1 可以看出,本文需要建立一种数学模型来表达超市中多种商品间关联关系的密切程
商品编号 248 332 242 356 234 387 239 323 266 382 292 352 212 302 251 332 232 274 261 256 298 287 246 342 274 268 242 209 346 251 248 252 286 290 284 225
购买次数 274 259 247 235 220 208 197 183 174 158 143 123 107 92 85 74 63 58
相关文档
最新文档