数理统计学课程设计
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
关于中小型银行大数据的统计分析
学院
专业*****
班级***
学号*****
姓名
指导教师
航空航天大学
年月
目录
前言 (1)
一、采集样本及数据整理 (2)
1、数据的搜集方法及说明 (2)
2、数据整理:给出频数、频率分布表及说明 (5)
3、画出直方图和折线图并给出说明 (5)
4、画出经验分布函数 (7)
二、假定总体服从正态分布,给出μ,2σ的估计 (8)
1、矩估计法 (8)
2、极大似然估计 (8)
三、参数区间估计 (10)
1、方差2σ未知,求数学期望μ的置信区间 (10)
2、数学期望μ,2σ均未知,求方差2σ的置信区间 (10)
四、参数的假设检验 (11)
1.样本统计数据的t检验 (11)
2.样本统计数据的-2χ检验 (11)
五、非参数假设检验 (13)
六、结论 (15)
参考文献 (16)
前言
数理统计是一门对随机现象进行有限次的观测或试验的结果进行数量研究,并依之对总体的数理规律性作出具有一定可靠性推断的应用数学学科。也就是说,数理统计学是统计学的数学基础,它是研究怎样有效地收集、整理和分析带有随机性的数据,以对所考察的问题作出推断和预测,直至为采取一定的决策和行动提供依据和建议的数学分支。近几十年来,数理统计的广泛应用是非常引人注目的。在社会科学中,选举人对政府意见的调查、民意测验、经济价值的评估、产品销路的预测、犯罪案件的侦破等,都有数理统计的功劳[1]。在经济领域,从某种商品未来的销售情况预测,甚至整个国家国民经济状况预测及发展计划的制定都要用到数理统计知识[2]。在自然科学、军事科学、工农业生产、医疗卫生等领域,哪一个门类都离不开数理统计。它的用处之大不胜枚举。笼统地说,数理统计学的理论和方法,与人类活动的各个领域在不同程度上都有关联。因为各个领域的活动,都得在不同的程度上与数据打交道,都有如何收集和分析数据的问题,因此也就有数理统计学用武之地。可以这么说,现代人的生活、科学的发展都离不开数理统计。从某种意义上讲,数理统计在一个国家中的应用标志着这个国家的科学水平[3]。
数理统计可以看做是概率论的推广应用,其众多容都是建立在概率论基础之上的[4]。但是,数理统计作为纯数学的一个方向,如果仅仅研究数理统计的数学性质,就脱离了数学在科学研究中应有的价值。正如数学以其逻辑性和严密性被其他学科作为有力工具运用于分析应用中一样,数理统计也因为其逻辑性和严密性被引用到银行的领域中。本文就是对这方面的应用,通过用计算机领域中的信息安全技术,对全国中小型银行的大数据处理个数的统计。其间分别进行了数据模型的选择和建立,数据的采集,数据的整理,对数据进行的统计推断,给出矩法估计、极大似然估计、给出参数估计区间、给出2
μ的t检验
,σ
和2χ检验,进行非参数拟合优度检验,从而得出相应的结论。
一、采集样本及数据整理
1、数据的搜集方法及说明
众所周知,数据的搜集方法有直接搜集方法和间接搜集方法,直接搜集是直接向调查对象搜集反映调查单位的原始资料数据。而我采用的是间接搜集方法,也就是通过网络搜集到已经加工整理过的、能够说明总体现象的数据。本文采集的是2012年5月1日中国部分中小型银行利用信息安全技术对大数据处理个数。如表1-1所示:
从表1-1中,可以非常明显得看到各中小型银行的大数据处理个数,下面我们对各银行做下讨论与研究。
2、数据整理:给出频数、频率分布表及说明
从上面的表中看到,银行大数据(单元:亿)的样本观察值的最小值是省市商业银行的个数()54.781=x ,最大值是位于市的银行()65.4417=n x ,取a=78,b=4418,全距L=4418-78=4340,把数据分布的区间(78,4418]等分为10个子区间,等组距为43410
4340
==
∆i t ,i=1,2,…10。 通过计数求出落在各子区间的大数据个数,则得频数i n 和频率n
n f i
i =分布,列入表1-2。
3、画出直方图和折线图并给出说明
由于等组距,故在横轴上截取子区间,且各子区间的宽度
t 等于组距434,
i
第i个小矩形的高为组频数,由此从直方图的分布上可以大致看出大数据的分布。直方图1-1和折线图1-2所示。
图1-1 频数-大数据子区间直方图
图1-2 频数-大数据子区间折线图
由图1-1和图1-2可见,直方图大致呈对称形状,可以认为大数据近似服从正态分布,其数学期望大致在2300附近。
4、画出经验分布函数
由于)(x F 依赖顺序统计量的观察值,所以)(x F 是一个随机变量,它的可能
取值为:n 1,n 2,…,n
n 1
-,1,故)(x F 表示n 次独立试验中,事件}{x X ≤发
生的频率。样本X 1,X 2,…X n 中n 个随机变量相互独立,导致事件})({n
k
x F =发
生的概率等价于进行n 次伯努力试验,事件}{x X ≤发生k 次的概率,即
k n k k
n x F x F C n
k x F P --==)](1[)]([))((
其中)()(x X P x F ≤=是总体X 的分布函数。
二、假定总体服从正态分布,给出μ,2
σ的估计
1、矩估计法
从总体中随机抽取25个样本:
162.33, 702.22, 1233.85, 1501, 1795.1, 1800, 1928.38, 2000, 2107, 2217, 2240.77, 2247.81, 2507, 2577.56, 2627, 2668.4, 2681.5, 2699, 2926.7, 2998.13, 3015.24, 3108.56, 3533.6, 3716, 4417.65
∑===n
i i X n X X E 11)(
∑===n i i X n A X E 1
2
22
1)(
)()()(22X E X E X D -=
将样本值代入,得出μ和2σ的矩估计值: μ的矩估计值为 ∧
μ=2376.5 2
σ的矩估计值为 ∧2
σ=810220.1
2、极大似然估计
对正态总体),(2σμN ,),(2σμθ=是二维参数,设有样本1X ,2X ,…n X ,