信用卡数据分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
信用卡数据分析
摘要:随着社会发展,信用卡在生活起着越来越重要的作用。它能缓解资金压力、信用额度可以累加、消费可享有免息期、积分累加、可以换礼物、国际通用、在国外可以使用、很多商户为信用卡持卡人提供打折、方便有透支信用额度可以缓解燃眉之急;但它也有很多缺点,多数信用卡没有密码,一旦丢失麻烦多、使用信用卡会增加消费、总感觉花的不是自己的钱,会造成消费欠理性的现象、用信用卡取现金手续费和利息很昂贵、其实好坏是相对的,解决了你眼前的问题就是它的好处,但是随之而来的后续问题,也许会令你很烦恼。如,一到最后还款日,你就会为卡数愁了,从而变成卡奴。个人觉得,一定要有稳定工作和固定收入才适合办理信用卡。
关键词:列联表spss软件聚类分析 Eviews软件回归分析
一、问题重述
要求:.
2.根据分析结果建立合理的模型描述这三者间的关系.
3.根据预测结果提出合理化建议.
二、问题分析
对于收入、个体数量及是否持信用卡三者之间之间的无规律性,我们根据现在的社会情况,可以把持有信用卡的人员认为中等收入者,高收入者比较多一点。我们先对数据进行列联表分析,分析出数据的情况,在对数据进行聚类分析,对
数据进行聚类分析,按照现在的社会情况以及数据的情况对数据进行分析。数据的聚类分析以后,我们可以对数据的分类进行回归模型的建立。
三、模型假设
对于所给的数据不具有可变性,并且数据表中的收入收入是固定的。
四、符号说明
SR:收入
GTSL:个体数量
XYK:信用卡
五、模型的建立
5.1列联表检验
将数据导入spss软件中,进行数据的列联表关系分析。
图表1个体数量*信用卡交叉图
图表2卡方检验表
图表3方向性测度
图表4对称性测度
从个体数量*信用卡交叉图可以看出,数据分布比较分散需要进行聚类分析。然后画它的数据条形图。
图表5数据分布条形图
对数据的条形图,我们更能很好的看出,数据分布比较分散需要进行聚类分析。
5.2数据聚类分析
图表6聚类数据组数据应用信息表
从数据的聚类来看,数据都有31组,并且31组均为有用数据,均进行了数据
的聚类分析和分组。
图表7聚类数据分布表
从聚类数据分布表中,我们可以看到数据的分类标准。
图表8聚类数据分布图
从上面的聚类数据分布表中,我们可以把31组数据进行聚类分组,分组结果为3组,其中,21组、22组、23组、24组、25组、26组、27组、28组、29组数据分为第一组。另外,1—20组可以分为一组。剩下的30组、31组分为一组。分完组后我们可以进行分组数据的回归模型的建立。
5.3分组数据回归模型的建立
5.3.1
图表9分组一整合数据
分完组的数据,我们先需要进行相关系数的检验,观察分组数据的相关性大
小。
GTSL SR XYK
GTSL 1.000000 -0.587078 0.904620
SR -0.587078 1.000000 -0.504356
XYK 0.904620 -0.504356 1.000000
图表 10分组一数据相关系数
从数据的相关性可以看出,分组后数据的相关性比较好,可以建立回归模型。
Dependent Variable: GTSL Method: Least Squares Date: 08/23/13 Time: 16:37 Sample: 1 9
Included observations: 9
Variable Coefficient Std. Error t-Statistic Prob. SR 0.015150 0.005586 2.712185 0.0301 XYK
0.965546
0.162957 5.925170
0.0006
R-squared 0.789826 Mean dependent var 2.666667 Adjusted R-squared 0.759802 S.D. dependent var 2.121320 S.E. of regression 1.039660 Akaike info criterion 3.108795 Sum squared resid 7.566250 Schwarz criterion 3.152622 Log likelihood -11.98958 Hannan-Quinn criter. 3.014215 Durbin-Watson stat
2.420614
图表 11数据回归结果
从系数表中可以得到GTLS (个体数量)对2个自变量的线性回归方程为:
XYK SR GTLS *965546.0*01515.0+=
从上表可以看出,从上回归结果可以看出,拟合优度很高,整体效果的F 检验通过。789826.0R 2=、759802.0R 2=可决系数比较高,说明模型对样本的拟合很好。
5.3.2
图表 12分组二整合数据
分完组的数据,我们先需要进行相关系数的检验,观察分组数据的相关性大小。
GTSL SR XYK
GTSL 1.000000 -0.126960 0.551364 SR -0.126960 1.000000 -0.041153 XYK
0.551364
-0.041153
1.000000
图表 13分组二数据相关系数
从数据的相关性可以看出,分组后数据的相关性比较好,可以建立回归模型。
Dependent Variable: GTSL Method: Least Squares Date: 08/23/13 Time: 16:42 Sample: 1 20
Included observations: 20
Variable Coefficient Std. Error t-Statistic Prob. SR 0.053376 0.019053 2.801484 0.0118 XYK
2.593166
0.870561 2.978729
0.0080
R-squared 0.245719 Mean dependent var 3.450000 Adjusted R-squared 0.203815 S.D. dependent var 2.981963 S.E. of regression 2.660783 Akaike info criterion 4.889757 Sum squared resid 127.4358 Schwarz criterion 4.989331 Log likelihood -46.89757 Hannan-Quinn criter. 4.909195 Durbin-Watson stat
1.888526
图表 14数据回归结果
从系数表中可以得到GTLS (个体数量)对2个自变量的线性回归方程为: XYK SR GTLS *593166.2*053376.0+=
从上表可以看出,从上回归结果可以看出,拟合优度很高,整体效果的F 检验通过。245719.0R 2=、203815.0R 2=可决系数还算可以,说明模型对样本的拟合只算通过。 5.3.3