《商务数据分析》第十一章——预测模型应用

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 但商品的评论中除了评分数据外,还有大量评论文本数据,如何 才能从文本数据中挖掘出有效的信息?如何将这些信息融合上到 商品销量的预测中去?这是本案例所需要解决的重要问题。
2. 数据理解
商务数据分析
• (1)数据来源 • 本案例实验数据是某电商平台的图书数据。 • (2)数据描述 • 本案例实验选取的是商城中图书频道的商品及商品评论。 • 数据集主要包括两部分,一部分是传统的数值型指标,包括
4. 模型建立
商务数据分析
• 经过预处理,共有1524个样本,其中50%用做训练集,50%做测试 集。
• 在此基础上,使用决策树模型、SVM模型和神经网络模型来预测 用户是否会流失。与前面的购买决策预测相类似,这也是一个二 分类问题。
5.模型评价
商务数据分析
• 在本案例中使用准确率来评估不同算法的表现,支持向量机模型 (SVM)、BP神经网络(BPNN)、决策树模型(DT)这三种算法 预测用户流失的实验结果见下表。
• (I)确认数据中是否存在数据错误、缺失等问题,例如销售额不能为负 值。
• (II)对销售数据中出现的异常销售额进行识别。
• (2)文本数据预处理
• (I)用户的评论中存在广告等与商品无关的信息,需要删除。 • (II)对句子进行分词、删除停用词、标注词性,只保留名词、形容词、
副词和动词等处理。
4. 数据预处理:特征工程
• 1. 问题描述
• 新的产品和销售方式层出不穷,人们倾向于选择更优质的或者新 鲜的食物。但是对于企业来说,留住顾客变得越来越难,客户流 失已经成为他们面临的一个重要问题和挑战。
• 本案例聚焦于银行业顾客流失现象,建立了三类模型预测客户流 失。
2. 数据理解
商务数据分析
• (1)数据来源
• 本案例所使用的数据集来源于一家大型中资银行的真实客户数据。 本案例的数据集包括由27个特征描述的超过20,000个客户的记录。
• 为了达到更好的预测效果,采用支持向量机模型和随机森林模型 和深度学习模型这三种算法进行建模。
• 本案例使用的数据集随机分成10份,以减少预测模型过度拟合的 可能性。
商务数据分析
5. 模型评价
• 为了评估本案例提出的消费者汽车购买预测模型的性能,本案例 利用正确率(Accuracy)、精确度(Precision)、召回率 (Recall)和F1得分指标衡量提出模型的性能。通过对三种模型的 参数调整,分别得到三种模型的最好的表现结果。结果见下表。
• 第二,为了提高预测销量的准确程度,可以通过引入除销量以外其他一切 对销售可能产生影响的因素,尝试在模型中增加变量,使用神经网络来拟 合输入和输出之间复杂的非线性关系,提高预测的效率。
商务数据分析
• (1)销量特征构建
• 基于已有的数据,我们可以获得每本图书每天的日销售数据,为 了预测每本图书在第x天的销售数据,使用从x-7到x-1天的日销 售数据构成一个长度为7的向量,作为近期销售数据。
• 定义价格变动特征和促销活动特征的取值。
• (2)文本特征构建
• 使用LDA模型,得到每个评论的主题分布,即每篇评论的内容倾 向。
• (2)数据描述
• 在本案例中,从银行的数据仓库中提取的数据集主要可以分为三 类:顾客基本信息,帐户级别信息和客户行为信息。
3. 数据预处理
商务数据分析
• 数据集进行清洗和筛选。考虑到数据原始样本规模较大,对存在 问题的数据记录采用了删除方式进行处理:
• (1)删除与流失预测无关的特征,例如身份证号码。 • (2)删除缺失值超过30%的特征。
第三部分 商业应用
商务数据分析
第十一章 预测模型应用 第十二章 分类模型应用 第十三章 推荐系统应用
商务数据分析
第十一章 预测模型应用
第一节 购买预测
商务数据分析
• 1. 问题描述
• 大部分的汽车企业都积累了大量的顾客信息,建立了客户关系营销系统, 可以对拥有的数据做整合分析和深层挖掘。汽车企业可通过对顾客的自 然属性、社交习惯、网络搜索内容等多维度的数据,利用大数据技术, 进行建模分析,挖掘顾客的消费规律,预测客户的购买行为,进而实现 精准营销。
第三节 销量预测
商务数据分析
• 销量预测是商家经营中的一个重要决策依据。
• 为了更准确地预测出每个商品的销售数量,商品评论是一个重要 的因素。
• 商品评论反应的是商品在消费者中的口碑,显然,某个商品在某 段时间的好口碑是有助其销售额增长的有利因素,因为评论能够 起到降低潜在消费者对商品的感知风险,鼓励其进行购买的作用。
商务数据分析
6. 模型评价
• (2)模型表现
• 为了进一步比较不同主题个数下, 加入文本因素后带来的预测效果的 变化,使用2、3、4和5个主题分布 结合相应的前一天销售量进行预测, 和基本的BPNN比较,结果如右图所 示。
• 可以看出,有两个主题分布输入的 模型具有更低的MAPE,这表明,所 提出的结合评论进行销量预测的方 法可以带来更准确的预测效果。
• 本案例主要搭建了一个“基于机器学习和深度学习的汽车购买意 向预测模型”,通过在真实数据集上的实验,利用顾客的个人特 征、家庭特征和APP使用特征通过机器学习的方法来预测消费者 是是否做出购买决策,并挑选出表现最优的模型。实验显示随机 森林模型相对于支持向量机模型有更好的表现。
第二节 流失预测
商务数据分析
购买某款车型。 • 在数据集中,将手机号码作为数据样本中每个消费者的唯一标识。
• 在本案例中,预测目标就是消费者是否会购买某一个特定厂商特定车型, 因此,本案例涉及的消费者购买意图预测将会被转换为二元分类问题。
3. 数据预处理
商务数据分析
• (1)数据清洗和筛选
• 在对数据特征进行分析前,先要对数据进行清洗过滤。
• 本案例主要考虑了顾客的人口属性特征和家庭特征(性别、年龄、婚姻 状况、是否有子女等)以及顾客的APP使用数据,通过机器学习的方法来 预测具有不同特征的顾客的购买意愿。购买意愿预测,为销售商通过深 度挖掘客户行为特征进而预测顾客的购物决定提供了新的思路和方法。
商务数据分析
2. 数据理解
• (1)数据来源
• 经过上述预处理,最后剩下15个特征。
• 顾客基本信息包括年龄,教育程度,可支配收入的大小,就业类型,婚 姻状况,家庭人数和服务等级;
• 帐户级别类别包括帐户类型,担保类型,贷款期限,贷款数据和贷款金 额;
• 客户行为类别包括帐户状态,信用状态以及协议条款被破坏的次数。
• 本案例以账户状态判断客户是否流失。
• 本案例中在所有的评价标准上支持向量机模型(SVM)都优于随 机森林模型(RF)。这说明随机森林模型具有更强的识别消费者 汽车购买意向的能力。
6. 案例小结
商务数据分析
• 从汽车行业出发,主要针对顾客购买汽车的决策和行为进行研究, 旨在提出一种创新的算法和框架,能较为精准的预测顾客购车的 决策,为汽车销售商制定长期战略、降低营销成本提供一定的指 导和借鉴作用。
• (III)删除使用次数过小的顾客记录。
• (2)数据转换
• 本案例所用数据集中大部分的顾客特征均为分类特征,所有的分 类特征需要进行“one-hot”的编码转换处理。
4. 模型建立
商务数据分析
• 本案例将80%的数据样本用做训练集,将剩下20%的数据集用做测 试集
• 使用10折交叉验证法(10-fold cross-validation)来确保算法 的有效性。
6. 模型评价
• (1)评估标准 • 本案例使用平均绝对百分比误差MAPE作为评估
模型效果的依据。 • (2)模型表现 • 在使用LDA模型获取文本主题数据时,在得到训
练集和测试集中的主题及其分布之后,输入 BPNN进行训练和测试。右上图展示了预测结果。
• 将文本主题个数逐渐从2增加到5,右下图显示 了不同主题个数下预测结果的MAPE值。我们可 以看到有两个主题分布的输入可以得到更准确 的预测结果。
商务数据分析
7. 案例小结
商务数据分析
• 商品下的评论能够帮助我们更准确地预测销量。通过该案例的数据 建模过程和建模结果,可以分析出两条对企业运营有价值的信息:
• 第一,评论数据对销量有所影响,说明企业在运营的过程中要注重消费者 的购买体验,不能为了追求利润空间而牺牲消费者对商家的信任,在保证 商品质量的前提下,同时也可以采用鼓励消费者写有质量有内容的评论来 营造好的评论氛围,提升商家口碑;
• 结果表明,SVM的正确率和精确度最高,其次是ANN,而DT的两个 析
• 本案例从金融行业出发,主要针对银行用户流失进行预测,基于 客户个人特征信息、行为信息以及账户信息,应用机器学习算法 来进行预测。结果显示在三种算法中,SVM取得效果最好。
• 本研究不仅限于银行业,流失问题也是其他行业非常关注的问题。
• (I)历史销售量,历史销售量是销量预测的重要指标。 • (II)价格变动,价格是影响人们购买的重要因素。 • (III)促销活动,分析研究期间商家有没有举办促销活动。
• 另一部分是评论的文本数据。
3. 数据预处理:数据清洗
商务数据分析
• (1)数据过滤
• 在构建模型前,本案例先对数据进行了过滤、删除。
• 本案例中使用的数据集来源于某公司。主要包括顾客的个人信息数据、 家庭属性数据、APP使用偏好数据和汽车偏好数据。
• (2)数据描述 • 本案例的数据集可以被分成四个部分:
• 消费者的个人数据包括:性别、年龄、职业、居住城市、信息获取渠道、兴趣爱好; • 消费者的家庭数据包括:婚姻状况和是否有子女; • APP使用偏好数据记录了消费者对各类APP的使用行为; • 消费者的汽车偏好数据指的是客户对特定车型中的偏好,直接反映在消费者是否会
5. 模型建立
商务数据分析
• (1)训练集与测试集
• 训练集合文本数据是提前两个月的产品评论,即如果预测5月1日 的销量,使用评论的发布日期是2月1号到4月30日,而当预测5月 2日时,需要重新训练LDA获得主题分布数据。
• (2)使用神经网络进行拟合
• 案例利用神经网络进行预测,为了验证提出的预测方法的有效性 与准确性,仅使用前一周的销售量、价格变动和是否有促销活动 作为输入的BPNN拟合结果作为基准模型,通过对比说明文本数据 在销量预测中发挥的作用。
• (I)删除存在异常值的记录:比如,当本人年龄-孩子年龄<男方22周岁 (女方20周岁),则判定当前样本为存在异常值的记录,应当删除。
• (II)删除空缺值较为严重的属性:比如,某种APP使用的顾客人数过少, 顾客在这个属性上的取值绝大部分都是空,说明此属性的存在影响了建 模的效率,而且对于模型建立并不能提供充分的信息,应该被删除。
相关文档
最新文档