概率论与数理统计在大数据分析中的应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
概率论与数理统计在大数据分析中的应
用
摘要:概率论与数理统计是一门实用性很强的学科,在社会生产生活的各个
方面都可运用到该学科的知识。
概率论与数理统计的应用,使人们分析事物,解
决问题,不再受主观意识的影响,而是采用概率论与数理统计知识和计算方法进
行理性、科学的分析,充分利用已有数据进行事物发展趋势的分析、预测、评估,为人们提供准确的指引,以此实现数据分析的价值。
因此,本文基于该学科与大
数据分析之间的关联进行了分析,并明确了应用的可行性,提出了实践应用中常
用的蒙特卡罗法、层次分析法等,同时对其应用的经济数据及商业数据领域进行
了论述,以促进概率论与数理统计在大数据分析中的深度应用,实现大数据分析
的提质增效。
关键词:概率论;数理统计;大数据分析
在信息化发展的推动下,社会各行各业使用计算机及互联网办公或是开展业务,信息技术的普遍应用,促进了社会数据量的增长。
大数据提供了无穷无尽的
业务和信息洞察力资源,可改善企业运营和发现新的商机。
概率论与数理统计中
的数据分析内容非常丰富,与大数据分析有着内在的联系,其公式、定理、概念、定律、分析方法等具备在大数据分析中应用的基本条件,其在大数据分析中应用,可以提高大数据分析的效率及精准度。
1.概率论与数理统计在大数据分析中应用的可行性
一是数据处理能力,概率论是数学的重要组成部分,通过已知数据对随机事
件发生概率进行度量,具备非常好的数据处理能力。
数理统计是以概率论为基础,搜集事件数据信息,通过数据的整理、分类等,编制分配表或是绘制曲线,评估
事件的发展趋势,与概率论有着共通之处。
但是概率论倾向于事件发生前的数据
分析,而数理统计侧重于事件发生过程和发生后数据的统计分析,两者均具备大
量数据分类、加工、处理能力,数据分析相互补充,在大数据分析中的联合运用,可获取到最佳的数据分析结果;二是数据整合能力,在大数据时代,数据信息爆
炸式增长,形成海量数据,而数据的筛选则是实现数据价值的关键,在大数据分
析中运用概率论与数据统计进行海量数据的筛选,完成数据的整合,满足大数据
分析的需要,有利于数据分析效率的提高;三是助力数据研究,大数据分析面临
着海量数据,充分利用概率论与数理统计的数据整合分析能力,为大数据分析创
造良好的数据条件,并为数据的开发利用研究奠定坚实的基础。
2.概率论与数理统计和大数据分析二者之间的关联及应用的方法
概率论与数理统计学科中涵盖了大数据分析需要使用到的算法和知识,像是
中心极限定理、大数定律、抽样分布定理、假设检验、方差分析、回归分析等,
两者之间关联密切。
将概率论与数理统计中的定理、定律、数据统计、分析方法等,用于大数据分析中,无疑不是为大数据分析提供了最大化的助力。
所以,通
过两者之间关联及应用方法的分析,以促进概率论与数理统计在大数据分析中的
深化和渗透,充分发挥出概率论与数理统计知识的效用。
2.1二者之间的关联
大数据技术是基于信息技术与计算机技术发展起来的,通过数据的收集、整理、分析、挖掘,分析数据之间的逻辑关系,探寻数据隐藏的价值,以此实现数
据的开发与利用。
在大数据分析中应用概率论与数理统计,结合两者数据处理的
优势,构建高效化的数据分析技术体系,提高数据分析质效的同时,提升数据的
利用价值。
一是二者有着相同的研究方向,两者对于数据收集的全面性,数据处
理速度的高效化,以及数据分析结果的精确度等,都有着非常高的要求,两者共
同探寻数据内在关联,总结数据分布规律,有着相同的研究方向;二是二者之间
相互促进,大数据分析为概率论与数理统计提供技术支持,而概率论与数理统计
为大数据分析提供理论支撑,两个任何一方的健康发展,对于另一方都有着推动
的作用;三是二者学科保持独立,且在数据分析领域存在着内在联系,大数据分
析不属于概率论与数理统计中的分支,但是概率论与数理统计却是大数据分析中
不可或缺的存在,为大数据分析提供了最佳的分析、计算、统计方案。
2.2实践应用的分析方法
2.2.1蒙特卡罗法
蒙特卡罗法以概率论为指导进行数据计算,是基于电子计算机提出的统计模
拟计算方法,使用随机数进行问题的分析解读。
基本思想分为两个方面,一方面
是问题本身随机,使用计算机进行随机变量的模拟计算,随机抽取问题的关键信
息和数据,然后模拟行为,最后统计分析去解决问题;另一方面是随机抽样,将
问题转化为随机分布特征数,计算其出现的概率。
在大数据分析中具体应用如下,根据问题随机变量分布,从中获取随机变量X i(i=1,2,3,…,k),功能函数为
Z=g(x1,x2,…,x k),概率密度为fx1,fx2,…,fx k,计算Z i=g(x1,x2,…,
x k),(i=1,2,…,N),如果有L组随机数对应的功能函数值Z i≤0,当N→∞时,表明分析指标准确。
2.2.2层次分析法
层次分析法为层次权重决策分析法,由匹茨堡大学教授萨蒂提出。
该分析方
法是将决策有关的事项,分解为目标、准则、方案等,然后开展定量与定性分析,获取最终的决策,在大数据分析中应用的方式如下。
①提出问题,在面临不同类型的方案时,受到人为主观意识的影响,对多个
方案进行比较、判断,最后确定哪个方案,不同人有着不同的比重,做出的决策
也不相同,而使用层次分析法进行判断和决策,可避免人主观因素导致的决策失误。
②构建层次结构模型,设置最高层,属于目标层,明确决策目的与解决的问题;中间层,考虑的事项,明确决策的依据;最底层,作为方案层,进行方案之
间的比较分析。
③构造矩阵,给每个层次中的每个影响因素设置一个权重,权重设置采用一
致比较矩阵,矩阵元素为a ij,其是指第i个因素相对于第j个因素的比较结果,本层两个因素进行相比,获取到比对结果有同样重要,以及一个因素比另一个因
素稍微重要、明显重要、强烈重要、极端重要等,进行两两因素比较,并应用相
对尺度,最大限度的降低不同性质数据之间比对的难度,保证比对结果的准确性。
④层次单排序,按照矩阵因素比较重要程度进行排序,然后进行一致性检查,允许矩阵成对比较的不一致,但是要确定其是否在不一致允许值的范围内,定义
一致性指标CI=y-n/n-1,y为最大特征根,n为一致阵的唯一非零特征根,当CI
为零时,表明完全一致,接近零为满意一致,CI值越大,不一致情况越差。
⑤层次总排序,计算总排序权向量,总排序一致性比率计算公式为:
CR=a1CI1+a2CI2+…+a m CI m/a1RI1+a2RI2+…+a m RI m,其中CI为层次单排一次性指标,RI是随机一致性,a为下一层对上一层的因素。
如果计算结果CR<0.1,表明层
次总排序符合一致性要求,如果CR>0.1,需要进行一致性比率数据的调整,最
后根据最下层的总排序结果进行方案的确定。
3.概率论与数理统计在大数据分析中的应用领域
3.1经济数据分析领域
社会市场经济在运行过程中形成了类型不同的海量数据,这些数据真实完整
的记录了经济活动的过程,通过经济数据的分析,为经济活动的决策提供准确、
可靠的数据信息,以保证经济活动效益的最大化。
但是经济数据分散在互联网的
各个角落,数据低密度分布。
所以,在使用大数据分析经济数据过程中,需使用
概率论与数据统计进行数据的搜集、统计、整合、分类、分析,准确把握其中的
关键数据,将海量复杂化的经济数据简单化,为大数据分析创造良好的数据分析
环境。
比如,概率论与数理统计的正态概率分布法,正态分布的钟型曲线,两边
概率密度小,而中间大,最大概率密度在均值附近,是连续数据最为理想的模型,适用于完成对连续性随机变量的描述与预测。
该分布法在经济数据分析中的应用,可统计持续分析与概率相关的所有数据类型,实现精准的预测,并可确定随机变
量出现的概率。
此外,经济数据具有非常好的利用价值,通过概率论与数理统计
的应用,大数据动态分析经济数据,人们掌握的经济信息更具时效性,预测市场
发展趋势,摸清市场发展规律,反作用于大数据分析,持续提高大数据分析的技
术水平,共同推进社会经济的发展。
3.2商业数据分析领域
商业数据是企业的核心数据,包括了企业内部数据、市场数据、销售数据等,部分商业数据属于企业的机密,数据的价值可想而知。
商业数据是经济数据中的
一种,两者之间有着内在联系。
在商业数据分析领域中,概率论与数理统计在其
中的应用效果显著。
比如在客户流失概率的计算中,具体应用流程如下,①构建
研究模型,客户基本信息在不一致允许的范围内,并且流失数据符合流失函数f0(t)指标要求,流失函数指数项为exp(c,z i)T,由其描述流失数据的分布条件,并分析客户流失的原因,确定其中影响最大的因素,设置为h0(t);②针对h0(t)进行归类,同时设定时段并对客户流失进行汇总,绘制客户流失发展趋势图,流失走势计算公式为:,利用该公式可以算出客户的流失
时间。
流失概率公式为:,为p维协变量向量,以完成模
型的构建;③从模型中进行协变量的选择,最后计算最大似然函数估计值,写出
似然函数,取对数并整理,计算出导数,将导数设为零,获取似然方程并解方程,最终得到客户流失概率。
结语:概率论与数据统计为大数据分析提供了有效的分析方法,成为大数据
分析中的重要组成部分,而不仅仅是一种工具。
概率论与数理统计属于数学范畴,其包含了大数据分析所需的算法、定律、定理、分析方法,随机变量及概率分布
等重要内容,具备在大数据分析中应用的优势,可根据大数据分析的需要,对各
种类型的数据进行搜集、整理、分类、统计,绘制出分析表或是分析图,进行事
件的分析、预测,最终给出分析的结果,实现大数据的精准、高效分析。
参考文献:
[1]姜权.概率论与数理统计在大数据分析中的应用策略[J].山东农业工程学
院学报,2018,35(12):10-11.
[2]柯昌武.大数据下概率论与数理统计研究[J].发明与创新·教育信息
化,2020,(5):142.
[3]熊霄.基于大数据下概率论与数理统计的研究与分析[J].电子技术与软件工程,2020,(16):2.
[4]周峰羽.基于大数据下概率论与数理统计的研究与分析[J].幸福生活指南,2018,(45):1.。