spss使用技巧V1
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据处理技巧
调整输出预览的条数
数据流区右单击,选中流属性
流不存储数据,不会改变原文件的格式,所以类型时需要读取,读出上下值变量文件可更改格式,数据库的不能更改
数据量大时,如何调试
如果数据量大的时候,可以用样本节点,限制字段的条数。
复杂
如果保证数据的完整性?
字段选项中的分级化+选择也可以筛选记录
数据填充
众数填充、将缺失值当成预测的值预测。
字段重新归类
方法1:使用重新分类节点
方法2使用导出节点
数据导出
预览的时候可以导出数据
先点全选,然后点与字段一起复制
平面文件的处理比EXCEL要快很多,包括导出平面文件或生成节点时。
节点
汇总
关键字段输入要汇总的字段
可以查看数据量及按字段出现的次数
可以是T或F,也可以是1和0,0也可以不显示。
分析节点
仅对于有目标和预测值使用。
评估
仅对于有目标和预测值使用
图形使用方法
条形图查看的概况
选择名义或标志字段以为其显示值的分布,不能对连续型的字段查看
比例尺可以对图形显示的比例自动进行调整。
转至
网状图
购物篮分析:超高频率意义也不大,大家都知道的事情,可以把两个东西摆的很远超低频没有商业价值。
针对超低频需要单独研究,适合用购物不蓝分析
中间部分
如果不选中这个地方会显示0和1的值,不显示标签。
将标签突显出来,选中将标签用作节点:
算法
聚类算法
K—MEANS
描述:
聚类方法基于对记录间距离和聚类间距离的测量。
将记录指派给聚类时将尽量缩短属于同一个聚类的记录之间的距离。
k个初始类聚类中心点的选取对聚类结果具有较大的差异,每次随机选取种子,两次运行的结果可能不一样。
在计算距离时应该时挨个字段尝试,不然变量的重要性就没有必要了。
K-Means 模型不使用目标字段。
这种没有目标字段的学习称为无监督学习。
对数据量多少没有限制,5条数据也可以运算
输入变量说明:
1.您需要一个或多个角色设置为输入的字段。
角色设置为输出、两者或无的字段将被忽略。
2.空值、极值、离群值会影响输出的结果
3.将一堆数据中找出相似的来,因此没有预测值,不需要分区。
4.输入的字段类型不受限制,但输入字段中最好不要有男女等区分,输出来结果大多会分为两类。
5.无预定义输出或目标字段。
6.运算之前需要设定分类个数。
问题:
重要性如何计算的?
分区是根据前面有分区的节点生效的,如果没有分区节点此次不生效。
只能显示名义的字段,是因为分区节点增加的字段就是名义类型的。
因为没有目标或预测值,所以用分区没有意义。
根据变量的重要性来选择重要的字段,得分越高的字段说明字段越重要,重要性为100%说明这个字段很重要,但并不时唯一的有用的字段。
两步聚类
数据量太少无法聚类
两步比K具有更多的灵活性:
输入的字段类型可以是连续或分类,可以进行标准化使字段具有相同的。
提供更多的效能,速度要快
更多选项,可以排除离群值
聚类两种不同的
K具有非层次的聚类,随机选4个点进行进行比较,分成4组后再计算中心点,然后再比较。
层次,把所有的值当成两个类别,2分树后,在下面的子类中进行划分,但是运算量比较大
将K-MEANS值分一个组,计算出每个值之间的距离,找出离群值。
可以进行分割,并设定
训练集和测试集,如果训练和测试的结果差异比较大,说明模型问题比较大,还需要调整。
测试与训练集,如果相差10%以上的准确度还需要调整训练集的参数、
算法:数据挖掘导论
偏业务:技术和艺术
安装盘中有个DOCUMET文件
谢绑
APriori
置信度:规则的强度
支持度:
增益:》》大于1 ,衡量在全集中所占的比例。
部署能力:
∙规则标识,显示模型构建期间分配的规则标识。
通过规则标识,可以标识哪些规则要应用于某个给定的预测。
通过规则标识,还可以在以后合并附加的规则信息,如部署能力、产品信息或条件。
∙实例数,显示规则所适用的唯一标识数(即,前提条件为true 的标识)的相关信息。
例如,假设规则为bread -> cheese,训练数据中包含条件bread的记录数量称为实例数。
∙支持度,显示前提条件支持度,即其前提条件为true 的标识在训练数据中所占的比例。
例如,如果50% 的训练数据包括bread(面包)的购买,那么规则bread > cheese 的条件支持度为50%。
注:此处定义的支持度与实例数相同,但以百分比的形式表示。
∙置信度,显示规则支持度与前提条件支持度的比率。
此比值表明了带有指定条件、并且其结果也为真的标识的比例。
例如,如果50% 的训练数据包含bread(面包)(表
明条件支持),但只有20% 既包含bread(面包)又包含cheese(奶酪)(表明规则支持度),则规则bread - > cheese 的置信度为规则支持度/条件支持度,在这里为40%。
∙规则支持度,显示其整个规则、前提条件和结果均为true 的标识所占的比例。
例如,如果20% 的训练数据既包含bread(面包)又包含cheese(奶酪),那么规则bread - > cheese 的规则支持度为20%。
∙增益,显示规则置信度与具有结果的先验概率的比率。
例如,如果整个人口统计中10% 购买了bread(面包),那么预测人们是否购买bread(面包)、置信度为20% 的
规则具有的提升将为20/10 = 2。
如果另一个规则告诉您人们将购买bread(面包),并且置信度为11%,则该规则的提升接近1,这就意味着具有条件对于具有结果的概率不会造成太大的影响。
总之,提升不为 1 的规则比提升接近 1 的规则的相关性更
强。
部署能力,这是对训练数据中满足前提条件但不满足结果的部分所占百分比的度量。
在产品购买领域,它的意思大致为:总的客户群中有多少百分比拥有了(或已经购买了)条件,但尚未购买结果。
部署能力统计量定义为(以记录数表示的条件支持度 - 以记录数表示的规则支持度)/记录数)*100,其中条件支持度表示其条件为真的记录数,规则支持度表示条件和结果都为真的记录数。
逻辑回归:
logistic回归的因变量可以是二分类的,也可以是多分类的,但是二分类的更为常用,也更加
容易解释,多类可以使用softmax方法进行处理。
,自变量(X)可以包括很多个,自变量既可以是连续的,也可以是分类的,然后通过logistic 回归分析,可以得到自变量的权重,从而可以大致了解到底哪些因素是影响Y的关键因素。
同时根据该权值可以根据自变量因素预测一个人患癌症的可能性。
即根据一个现有的数据训练出一个模型,再将新的数据输入到模型的自变量中,输出因变量。
logistic回归是一种广义线性回归(generalized linear model),因此与多重线性回归分析有
很多相同之处。
它们的模型形式基本上相同,都具有w‘x+b,其中w和b是待求参数,其区别在于他们的因变量不同,多重线性回归(其基本形式为:Y= a + bX1+CX2+***+NXn)直接将w‘x+b作为因变量,即y =w‘x+b,而logistic回归则通过函数L将w‘x+b对应一个隐状态p,p =L(w‘x+b),
然后根据p 与1-p的大小决定因变量的值。
如果L是logistic函数,就是logistic回归,如果L是
多项式函数就是多项式回归。
$L- 预测值
$LP-预测的概率
$LP-0 0的预测概率
$LP-1 1的预测概率。