统计与数据挖掘实验报告
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
统计与数据挖掘实验报告——基于Clementine11.1方法应用
专业:企业管理
姓名:***
学号:**********
时间:2014-12-12
一、实验目的:
1、理解对大型的、复杂的和信息丰富的数据集进行分析的必要性;
2、了解数据挖掘软件 Spss-clementine 的基本功能。
3、通过案例了解决策树和人工神经网络技术的实际应用。
二、实验环境:
1、实验设备:华硕A40J计算机
2、软件系统:Windows-7、SPSS Clementine Client 11.1
软件简介:作为一个数据挖掘平台, Clementine结合商业技术可以快速建立预测性模型,进而应用到商业活动中,帮助人们改进决策过程。强大的数据挖掘功能和显著的投资回报率使得Clementine在业界久负盛誉。同那些仅仅着重于模型的外在表现而忽略了数据挖掘在整个业务流程中的应用价值的其它数据挖掘工具相比, Clementine其功能强大的数据挖掘算法,使数据挖掘贯穿业务流程的始终,在缩短投资回报周期的同时极大提高了投资回报率。
三、研究问题:
这次实验内容来源于一个药物应用问题,以往有大批患有同种疾病的不同病人,在服用五种药物中的一种(Drug,分为Drug A、Drug B、Drug C、Drug X、Drug Y)之后都取得了同样的治疗效果。这里的数据是随机挑选的部分病人服用药物前的基本临床检查数据,包括血压(BP,分为高血压High、正常Normal、低血压Low)、胆固醇(Cholesterol,分为正常Normal和高胆固醇High)、唾液中钠元素(Na)和钾元素(K)含量,以及病人年龄(Age)、性别(Sex,包括男M和女F)等。现在需要通过数据分析发现以往处方适用的规律,给不同临床特征病人更适合服用哪种药物的建议,为未来医生填写处方提供参考。
四、数据来源及变量说明
本案例的数据是Clementine软件自带的一份关于药物研究的数据DRUG4n,一共有1000条数据,包含7个字段分别是Age(年龄)、 Sex(性别)、 BP(血压)、 Cholesterol (类胆固醇含量)、Na (Na含量)、K(K含量)、 Drug(药品种类)。
数据描述:
五、实验步骤与分析过程:
本次实验,首先对DRUG4n中的数据进行了一个简单的分析和解释,比如说Drug的分布情况、Na和K的含量等的分析,接着决策树分析的方法和人工神经网络方法对数据进行分类和分析。
1.读数据到Clementine中。打开Clementine11.1,新建一个流命名为“Drug 分析”。从数据源中选择“可变文件”,双击使之出现在工作框中,右击选择“编辑”,添加Demos里面的DRUG4n。如图1
图1
2.浏览数据内容。在“输出”选项卡中选择“表”节点加到数据流中,执行该节点,所生成的数据表名将列在流管理窗口的输出选项卡中,结果如图2
图2
3.观察各个变量的数据分布特征。在“输出”选项卡中选择“数据审核”节点加到数据流中,执行该节点,所生成的数据表名列在流管理窗口的输出选项卡中,如图3
图3
可以看到,该数据有1000个样本,对Age、Na、K这三个数值型变量,计算且输出最小值、最大值、均值、标准差、偏态系数等基本描述统计量。数据显示,病人的年龄差距比较大。
同时,输出了各个变量的直方图或柱状图。图形表明,病人中的Age、BP、Cholesterol水平的分布都比较均匀,差异不大,但服用药物DrugY的病人数明显高于服用其他药物的人数。
4.观察服用不同药物的病人唾液中钠钾的含量情况。这里,希望通过散点图反映。在“图形”卡中选择“散点图”节点加到数据流中,设置节点参数,指定Na为X轴,K为Y轴,服用不同Drug的病人数据采用不同颜色的点,如图4-1,执行该节点,所生成的图形文件名列在流管理窗口的输出选项卡中,如图4-2.
图4-1
图4-2
图形显示,服用DrugY的病人,其唾液中的钾含量明显低于其他类病人,但钠含量有的较低有的较高。单纯的钾含量较低的病人选用DrugY应该比较理想。
5.观察服用不同药物病人唾液中的钠钾的浓度比例情况。为更准确地评价药物状况,单纯观察钾含量是不全面的,应观测钠与钾的浓度比值指标,它能够更准确反映病人肾上腺皮质的功能状态。该指标是原始数据中没有的,应首先计算生成,然后观察其分布特征。在“字段选项”选择卡中选择“导出”节点加到数据流中,设置节点参数指定生成的新变量名为Na/K,计算公式为Na/K,如图5-1。在“图形”选项卡中选择“直方图”节点,设置节点参数指定绘制Na/K的直方图,且服用不同药物的病人数据采用不同的颜色,如图5-2。执行“直方图”节点,所生成的图形文件名列在流管理窗口的“输出”选项卡中,如图5-3
图5-1
图5-2
图5-3
图形显示,针对Na/K值处在高水平的病人,DrugY应该是理想的选择。6.不同血压特征病人的药物选择,在“图形”选项卡中选择“网络”节点加
到数据流中,设置节点参数指定绘制关于Drug与BP的网状网络图,如图6-1。执行“网络”节点,所生成的图形文件名列在流管理窗口的“输出”选项卡中,如图6-2
图6-1
图6-2
网状图通过线条粗细反映病人BP与Drug的取值情况。可以看到,无论血压状况如何,都可以服用DrugY,其三条线的粗细程度差别不大。因此,DrugY对病人的血压没有特殊限定,更具有普遍服用性。在不考虑选择DrugY时,血压高的病人可服用DrugA或DrugB,血压低的病人则应该在DrugX和DrugC中选择。
7.全面分析决定药物选择的其他影响因素。通过前面的分析,似乎对选择DrugY的依据有了一定的结论,但没有考虑Age、Sex、和Cholesterol等方面,分析仍是不全面的。同时,应怎样选择其他药物,也没有给出明确且全面的标准。这里,希望进一步利用数据,通过建立模型,从Age、Sex、BP、Cholesterol、Na/K的综合角度分析选择不同药物的依据。
首先,在建模中不再直接采用K和Na变量,而是采用Na/K,因此先将变量
K和Na筛掉。在“字段”选项卡中选择“过滤”节点加到数据流中,设置参数在K和Na变量上打叉筛掉,如图7-1
图7-1
然后,指定建立模型过程中各个变量的作用,这里Age、Sex、BP、Cholesterol、Na/K为解释变量,称为模型的输入变量,Drug为被解释变量,称为模型的输出变量。在“字段”选项卡中选择“类型”节点加到数据流中,设置参数指定不同变量的作用角色。如图7-2