商务数据分析报告
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
本科学生综合性实验报告
项目组长张梦瑶学号0141262
成员_________________________________
专业国际经贸班级国贸142
实验项目名称商务数据分析报告
指导教师及职称李虹来
开课学期2015 至2016学年下学期
上课时间2016 年6 月16 日
1.商业理解阶段
网上销售与传统的店面销售不同,没有售货员提供现场咨询服务。但是, 网上销售可以利用互联网的优势,为用户提供更优质的服务。由于服务器会记录用户在浏览电子商务网站时的所有行为,因此,企业很容易收集用户的浏览记录、交易信息及偏好数据。
在个性化推荐技术的关联规则分析中,最典型的例子是购物篮分析,其目标是发现交易数据库中不同商品之间的联系强度,挖掘用户潜在购买模式,并将这些模式所对应的服务或产品展示给用户,为其提供参考,从而提高用户的满意度及购买率。
2.数据理解阶段
本案例采用淘宝网的用户交易数据进行分析,每条交易记录包括记录号和顾客购买的商品,表1给出了数据集中各属性名及意义,表2为部分交易实例数据示例。
表1数据集属性信息
表2部分数据实例
ID
商品名数
量
单
价
商品
名
数
量
单
价商品名
数
量
单
价
商品
名
数
量
单
价
1 女装T
恤
2 79 短裙 2 118
休闲男
装
1 99
连衣
裙
1 35
2 女装T
恤
1 79 短裙 1 118 伞 1 15
3 女装T
恤1 79 短裙 2 55
咼跟鞋
1 63
连衣
裙
1 35
4 女装T
恤
1
11
9
短裙 1 55
咼跟鞋
1 63
5 女装T
恤2
11
9
短裙 1 45
咼跟鞋
1 63
6 女装T
恤1
11
9
短裙 1 45
咼跟鞋
2 63
洗发
水
2 85
3. 数据准备阶段
原始数据集可能包含了一些冗余的数据、空值和零值等,这种格式不能 作为关联规则分析算法的输入,需要对数据进行预处理。本案例的预处理中 包括过滤掉原始数据集中的商品数量和单价这两个属性。 同时为了保护顾客 的隐私,过滤了用户名属性,并且用交易号来唯一表示顾客的每一次交易。 处理后的数据集如表3所示。
表3部分预处理后的数据
交易 号
商品1 商品2 商品名3 商品名4
1
女装T 恤 短裙 休闲男装
连衣裙 2 女装T 恤 短裙 伞
3 女装T 恤 短裙 高跟鞋 连衣裙
4 女装T 恤 短裙 高跟鞋 5
女装T 恤
短裙
高跟鞋
6 女装T 恤 短裙 高跟鞋 洗发水
在Clementine 软件进行关联规则挖掘时,必须把数据格式转换成
Clementine 软件能处理的格式。通常有两种格式:一种是布尔矩阵形式,即 每行表示一条交易记录,列中的T/F 值表示该商品是否有在相应的交易记录 中出现,T 表示有出现,F 表示没有出现(表4列出转换后的前3条记录信 息);一种是事务处理格式,即每行对应一个交易号和一个商品项(表 5列 出了前3个事务对应的事务处理格式)。
表4布尔矩阵格式数据集
表5事务处理格式数据集
4.数据建模
利用Clementine中的Apriori算法进行关联规则分析,设定最小支持度1%最小置信度50%输入为布尔矩阵格式的交易数据(如表4),输出商品的关联规则及相应的支持度、置信度和提升度信息(如表6)。表中显示“高跟鞋”和“洗发水”、“童装”和“玩具”、“文具”经常被一起购买。
表6 Apriori 算法运行结果
5.模型评估
我们选取以下的关联规则向顾客进行推荐。
规则1:(玩具、文具)=>童装
规则2:洗发水=>高跟鞋
规则3:玩具=>童装
规则4:地毯=>家具
规则5:(短裙、高跟鞋)=>女装T恤
规则6:(童装、文具)=>玩具
再结合规则和实际经验知识,可以对规则进行进一步优化处理。在本案例中,可以对规则1{(玩具、文具)=>童装}和规则3{玩具=>童装}进行合并,以规则3的形式呈现。
6.模型发布
通过建模分析由得出的关联规则,企业就可以得到商品销售的一些合理搭配,进而设定相应的推荐策略。如在顾客购买了地毯后,可以向其推荐家具类商品;或者当顾客购买了童装后,可以向其推荐玩具和文具类商品;这些都可能是顾客感兴趣或需要的商品。