常用数理统计方法的正确使用问答
统计学方法的正确使用问题(一)
211心肺血管病杂志2019年1月第38卷第1期㊀Journal of Cardiovascular&Pulmonary Diseases,January2019,Vol.38,No.1㊃读者㊃作者㊃编者㊃摘要⓪统计学方法的正确使用问题(一)1.忽略统计学方法使用的前提条件㊀随着统计软件的广泛应用,有些医学生获得数据后直接选择软件中常见的几种统计学方法进行分析,完全不考虑本研究的数据是否满足该方法的使用条件㊂例如,医学研究中经常要进行两组或多组间均数的比较,有些医学生直接就采用t检验或方差分析进行统计㊂实际上,t检验和方差分析都是参数检验,需要满足前提条件:正态性和方差齐性㊂正态性是指各组资料要服从正态分布(或近似正态分布);方差齐性指各组资料取自的总体方差相等㊂目前常用的统计软件都可以对资料的正态性和方差齐性进行验证,但是很多学生都忽略了这一步,因而可能出现统计学问题㊂只有按照各种统计学方法自身的适用条件来合理使用,统计方法才能成为发现数据内在统计规律的有力工具㊂2.忽略研究设计,盲目套用统计方法㊀(1)误用t检验处理单因素多水平资料:t检验和方差分析是医学论文中最常用的㊁也通常被认为是最简单的统计学方法,然而实际应用中的正确率却低于10%[2]㊂除了上述的说明不清楚和忽略使用条件的问题外,忽略研究设计也常常是导致t检验和方差分析使用错误的原因㊂对于呈正态分布的单因素多水平定量资料,两组间的比较可用t检验;两组以上资料的比较则需选用方差分析㊂有些医学生简单地使用t检验来处理多组间的比较㊂这样做的问题是由于多次采用t检验,增加了假阳性错误的概率;同时失去了原来多组设计的意义,不能给出概括性的结论,因此结论不可靠㊂正确的方法是当满足方差分析的前提条件时应采用单因素多水平定量资料的方差分析;当检验结果为各组总体均数间不完全相等时,再进一步进行组间均数的两两比较㊂如果当任何两个均数之间都要比较,可采用SNK 法,而如果要分别将各试验组与同一个对照组比较,可采用Dunnett法㊂当资料不满足方差分析的前提条件时,需对资料进行数据正态化处理或采用秩和检验㊂(2)误用单因素方差分析处理重复测量的资料:医学研究中常需要对同一受试对象的某项指标在不同时点进行重复测量,此类资料即为重复测量的资料,例如研究对象服用某种药物后多个时间点的血压值㊂由于同一个体不同次测量的结果往往存在相关性,这时用单因素多水平方差分析来比较不同时点的测量结果是不恰当的,因为单因素方差分析要求各比较组间是独立的㊂如果仅将两个时间点上的数据放在一起进行配对t检验则割裂了原来多组比较的整体设计㊂正确方法的方法是先判断重复测量数据之间是否存在相关性(如SPSS的球形检验),如不存在相关性,则采用单因素方差分析即可;如存在相关性,则需进行重复测量数据的方差分析[3]㊂(3)误用χ2检验处理有序的列联表资料:对于定性资料,很多医学生都会直接应用χ2检验来处理㊂实际上,因研究设计的不同,定性资料的列联表又分为双向无序的列联表㊁单向有序的列联表和双向有序的列联表等不同类型㊂对于双向无序的列联表,可采用χ2检验进行分析㊂但需注意的是在列联表的χ2检验中,若P<0.05,只能得出总的结论㊂如需进行两两比较时,因为重复多次的检验将使第一类错误扩大,因此需重新设定检验水准,通常采用αᶄ=α/N,其中N为所需检验的次数[4]㊂此外,医学研究中还经常将某种定性的测量指标分成若干个有序的等级,如疾病的不同严重程度和预后的不同水平等,然后分类计数各组研究对象的具体状态㊂这种资料属于有序的(等级的)列联表资料,看似可以用χ2检验处理,但χ2检验只能比较各组的构成,而与顺序或等级无关,因而此类资料应采用与分组顺序有关的检验方法,如秩和检验和Ridit分析等[5]㊂(4)将非同质的研究对象合并进行相关分析:临床研究中经常采用病例-对照研究的设计,如糖尿病患者和正常对照,有时还需按患者的不同特征分为多组,如血糖正常㊁空腹血糖受损㊁糖耐量减低和糖尿病四种情况㊂为了突出总样本量,有些医学生把所有研究对象合计在一起进行分析㊂事实上,由于各组研究对象在生物学特征上可能有明显差异,这种合并分析需特别谨慎㊂尤其是进行相关分析时,指标之间的关系在不同组之间可能完全不同,即研究对象不同质,因此不应合并在一起进行相关分析㊂(摘自‘心肺血管病杂志“2015年219页,作者:刘静)。
概率论与数理统计常见问题解答
概率论与数理统计常见问题解答1.概率论研究的对象是什么?现实生活中有两类现象。
必然现象:一定条件下,结果是肯定的。
如:一定大气压下,水加温到100℃:沸腾随机现象:一定条件下,结果不肯定的。
如:实弹射击,打一发子弹:可能中或不中概率论是研究随机现象规律性的一门学科。
2.随机现象有规律性吗?有。
例如:两人打枪。
甲是神枪手,乙是普通射手。
如果打一发子弹,甲可能打中也可能打不中,乙也可能打中也可能打不中,看不出什么规律。
如果两人比赛,各打10组,每组100发子弹,结果是:我们可以看出规律性:甲可说几乎每发必中,乙只有大约一半的可能性打中。
这种规律性称为统计规律性。
在大量试验中才显示出来,不是个别试验显示的特性。
3.随机现象的规律性如何指导实践?例如:农业生产上选择品种,如果当地发生旱灾的可能性大,水灾的可能性小,就应选择耐旱的品种,反之则应选择耐涝的品种。
在统计学中,以“小概率事件”判断原理来进行假设检验,例如:厂方声称,产品的废品率为5%,随机检查,发现“5个产品有2个次品”。
这时,应当拒绝“废品率为5%” 。
为什么?因为“5个产品有2个次品”是小概率事件(用概率的方法可计算),在一次试验中一般不可能发生,现在居然发生了,应怀疑原假设。
可能性小的事并不等于不发生例如:地震。
某地某日发生大地震的可能性是非常小的,但就整个地球来说,一年总要发生几次大地震。
例1:甲、乙两位棋手棋艺相当。
他们在一项奖金为1000元的比赛相遇。
比赛为五局三胜制。
已经进行了三局的比赛,结果为甲二胜一负。
现因故要停止比赛,问应该如何分配这1000元比赛奖金才算公平?奖金分配方法:平均分,对甲欠公平,按一定的比例分配,甲拿大头,乙拿小头,甲拿2/3,乙拿1/3,合理吗?例2:在第43届世界乒乓球锦标赛中,中国队与瑞典队争夺冠亚军,当时瑞典队上场队员只有瓦尔德内尔、佩尔松和卡尔松,其中卡尔松怕削球手,于是中国队排出了以下阵容:王涛马文革丁松马文革王涛决策时已经估计到瑞典队有两种可能的选择:或以卡尔松打第三单打去碰削球手丁松或以佩尔森打第三单打,以便卡尔松避开丁松最后,中国队战胜瑞典队(3:2),夺回了阔别六年之久的斯韦思林杯。
数理统计的一般特点、基本原理、重要概念及应用中的注意问题
数理统计的一般特点、基本原理、重要概念及应用中的注意问题一:一般特点:1. 数理统计是研究一组数值的方法,可以从中解释出有用的结论。
主要包括数理概率,统计描述,统计推断,回归分析等等;2. 数据收集方法有调查实验,抽样,实验室实验,数据采集等;3. 用几何图形,表格,直方图来将数据描述;4. 分析数据,计算一些重要指标,如调和平均数,中位数,标准差,等等,以及数理概率,回归分析,卡方检验等;5. 通过数据的测试,得出不同的结论或结论;6. 依据得出的结论,提出分析及决策建议。
二:基本原理:1. 数理统计的基本原理是根据数据及其统计特征来提出有用的结论;2. 在数据收集、计算指标、检验假设等过程中,无论数据是否有BUG,我们都要严格遵守统计学原理,并进行合理处理;3. 数据机构与数据中心及统计部门要加强自身内部管理以及与客户端相互协调,以确保统计数据的正确性、可靠性和安全性;4. 尊重统计数据的原始特性,不能用利己的情绪影响数据结果,而应当保持客观的态度和科学的方法来处理数据。
三:重要概念:1. 概率:概率是描述不确定事件发生的程度,即事件发生的可能性。
2. 相关性分析:它是研究两个变量之间的联系,以及不同变量之间的联系强度,以及相互间的影响,常用的有卡方检验、回归分析等;3. 假设检验:假设检验(hypothesis testing)是提出一个假设去检验数据,通过检验来区分该假设是否正确,并得出结论;4. 回归分析:回归分析是一种对表现和规律的分析方法,应用于多变量之间的关系,以及多变量之间的关系强度;5. 多元统计分析:多元统计分析是指同时考虑多个自变量和一个因变量,以分析自变量与因变量间的关系。
常用多元统计分析方法有有卡方检验、回归分析、MANOVA等。
四:应用中的注意事项:1. 监控数据质量:在数据分析中,必然需要大量的准确有效的数据,它们不仅要满足调查的要求,同时也要满足统计知识的要求,所以在有关数据的收集,统计,清洗等过程都需要严格的管理,强调数据的质量;2. 避免假设的偏差:假设检验可以帮助人们基于数据抽象出有效结论。
【VIP专享】学术论文中常用数理统计方法的正确使用问题
学术论文中常用数理统计方法的正确使用问题(转)在环境科学研究中,经常会涉及到对随机变量大小、离散及分布特征描述以及对2个或多个随机变量之间关系比较的问题。
而对随机变量及随机变量之间的关系进行定量描述的数学工具就是数理统计。
由于能否正确使用各种数理统计方法关系到能否得出客观和可信的结论,对环境科学领域学术论文中常用数理统计方法(主要是相关分析和回归分析)的正确使用问题进行了初步分析,希望能对人们有所帮助。
1 统计软件的选择在进行统计分析时,尽管作者可以自行编写计算程序,但在统计软件很普及的今天,这样做是毫无必要的。
因此,出于对工作效率以及对算法的可靠性、通用性和可比性的考虑,多数科技期刊都要求作者采用专门的数理统计软件进行统计分析。
我们在处理稿件时经常发现的问题是,作者未使用专门的数理统计软件,而采用Excel这样的电子表格软件进行统计分析。
由于电子表格软件提供的统计分析功能十分有限,很难满足实际需要,除非比较简单的分析,我们不主张作者采用这样的软件。
目前,国际上已开发出的专门用于统计分析的商业软件很多,比较著名有SPSS(Statistical Package for Social Sciences)、SAS(Statistical Analysis System)、BMDP和STATISTIC A等。
其中,SPSS是专门为社会科学领域的研究者设计的(但是,此软件在自然科学领域也得到广泛应用);BMDP是专门为生物学和医学领域研究者编制的统计软件。
目前,国际学术界有一条不成文的约定:凡是用SPSS和SAS软件进行统计分析所获得的结果,在国际学术交流中不必说明具体算法。
由此可见,SPSS和SAS软件已被各领域研究者普遍认可。
我们建议《环境科学学报》的作者们在进行统计分析时尽量使用这2个专门的统计软件。
目前,有关这2个软件的使用教程在书店中可很容易地买到。
2 均值的计算在处理实验数据或采样数据时,经常会遇到对相同采样或相同实验条件下同一随机变量的多个不同取值进行统计处理的问题。
统计法知识问答
统计法知识问答统计法是一种应用广泛的研究方法,用于收集、整理、分析和解释数据。
在各个领域中,统计法被广泛应用于问答环节,以帮助人们获取所需的信息和知识。
本文将就统计法知识问答展开讨论。
一、什么是统计法?统计法是通过对数据进行收集、整理和分析来揭示数据背后的规律和趋势的一种研究方法。
统计法可以帮助我们了解和解释现象,做出决策和预测未来的趋势。
它在社会科学、自然科学、经济学等领域都有广泛的应用。
二、统计法的基本步骤有哪些?统计法的基本步骤包括问题的提出、数据的收集、数据的整理和数据的分析与解释。
首先,需要明确研究的问题,确定需要回答的问题是什么。
然后,收集与问题相关的数据,可以通过问卷调查、实验、观察等方式进行数据的收集。
之后,对收集到的数据进行整理和分类,以便进行后续的分析。
最后,通过统计方法对数据进行分析和解释,得出结论并回答研究问题。
三、统计法中常用的数据收集方法有哪些?数据收集是统计法的重要环节,常见的数据收集方法包括问卷调查、实验、观察和抽样调查等。
问卷调查是通过设计问卷,向被调查者提问并收集信息的方法,适用于大规模数据收集;实验是在控制变量的条件下进行操作,观察其对结果的影响,适用于因果关系的研究;观察是通过观察现象和行为来收集数据,适用于描述性研究;抽样调查是从总体中抽取一部分样本进行调查,以代表总体的情况。
四、统计法中常用的数据分析方法有哪些?数据分析是统计法的关键环节,常用的数据分析方法包括描述统计和推论统计。
描述统计是对数据进行总结和描述的方法,通过计算数据的中心趋势(如平均值、中位数、众数)和离散程度(如标准差、方差)等指标来揭示数据的特征;推论统计是通过从样本中得出总体的特征和结论的方法,如通过假设检验和置信区间来判断总体的差异和相关性。
五、统计法的局限性是什么?统计法虽然在各个领域中有着广泛的应用,但也存在一些局限性。
首先,统计法是基于概率和样本的,所得出的结论具有一定的误差和不确定性;其次,统计法只能从已有的数据中寻找规律,无法回答因果关系和预测未来;另外,统计法需要对数据进行假设和前提条件的限定,这可能会导致结论的局限性。
(完整版)研究生数理统计问答题答案
(完整版)研究生数理统计问答题答案201311。
检验的显著性水平:在假设检验中,若小概率事件的概率不超过α,则称α为检验水平或显著性水平.检验的P 值:拒绝原假设的最小显著水平称为假设检验中的P 值。
2。
参数估计的类型:① 点估计;② 区间估计;参数的点估计的方法:① 矩估计法 基本思想:由于样本来源于总体,样本矩在一定程度上反映了总体矩,而且由大数定律可知,样本矩依概率收敛于总体矩。
因此,只要总体X 的k 阶原点矩存在,就可以用样本矩作为相应总体矩的估计量,用样本矩的函数作为总体矩的函数的估计量。
② 极大似然估计法 基本思想:设总体分布的函数形式已知,但有未知参数θ,θ可以取很多值,有θ的一切可能取值中选一个使样本观察值出现的概率为最大的值作为θ的估计值,记作 ∧θ ,并称为θ的极大似然估计值.这种求估计值的方法称为极大似然估计法。
参数的点估计的评价方法:错误!无偏性;错误!有效性;错误!一致性。
3.假设检验的思想:先假设总体具有某种特征,然后再通过对样本的加工,即构造统计量推断出假设的结论是否合理。
假设检验是带有概率性质的反证法.推理依据:第一,假设检验所采用的逻辑推理方法是反证法.第二,合理与否,所依据的是“小概率事件实际不可能发生的原理”。
参数假设检验步骤:错误!提出原假设和备择假设;错误!选择适当的统计量,并确定其分布形式;错误!选择显著性水平α ,确定临界值;错误!作出结论。
5。
正交试验数据分析方法:○,1直接对比法就是对试验结果进行简单的直接对比。
错误!直观分析法是通过对每一因素的平均极差来分析问题。
所谓极差就是平均效果中最大值和最小值的差。
有了极差,就可以找到影响指标的主要因素,并可以帮助我们找到最佳因素水平组合。
4。
方差分析的目的:方差分析的目的是通过分析,判定某一因子是否显著,当因子显著时,我们还可以给出每一水平下指标均值的估计,以便找出最好的水平。
方差分析是对多个总体均值是否相等这一假设进行检验。
数据分析中数理统计方法的正确使用
4 相关分析与回归分析的区别
6)如果自变量是普通变量,即模型Ⅰ回归分析, 采用的回归方法就是最为常用的最小二乘法。 7)如果自变量是随机变量,即模型Ⅱ回归分析, 所采用的回归方法与计算者的目的有关。
在以预测为目的的情况下,仍采用“最小二乘法” (但精度下降—最小二乘法是专为模型Ⅰ 设计的, 未考虑自变量的随机误差); 在以估值为目的(如计算可决系数、回归系数等) 的情况下,应使用相对严谨的方法(如“主轴法”、 “约化主轴法”或“Bartlett法” )。
5.1 假设检验
基本步骤:计算检验统计量观测值的发生概率
在假定原假设成立的前提下,利用样本数据计算 检验统计量观测值发生的概率(即p值,又称 “相伴概率”—指该检验统计量在某个特定的极 端区域在原假设成立时的概率)。该概率值间接 地给出了在原假设成立的条件下样本值凤仙花其地上部积累cd量与所投加的pb量呈显著正相关而根部却与所投加的pb量呈负相关但这种作用是不显著的因此可认为根部积累cd量与所投加的pb量无关地上部和根部积累的pb量与所投加的cd量都呈负相关只不过对于前者是极显著的对于后者不显著因此可认为pb对凤仙花地上部积累cd有显著的促进作用而cd对凤仙花地上部积累pb有极显著的抑制作用两种情况下对于根部却都没有明显影响
数据分析中数理统计方法 的正确使用
重要假定
作者所处理的数据属于随机变量的特定样本。 作者已经掌握最基本的数理统计学常识,如概率、 假设检验、均值、方差、标准差、正态分布、相 关分析、回归分析、方差分析……。
数理统计问题的重要性
在科学研究中,经常会涉及到对随机变量大小、离散及分布 特征的描述以及对2个或多个随机变量之间的关系描述问题。 地学、环境科学研究也不例外。 对随机变量及随机变量之间的关系进行定量描述的数学工具 就是数理统计学。 在科学研究中,能否正确使用各种数理统计方法关系到所得 出结论的客观性和可信性。所以,来稿中使用的数理统计方 法是否正确应是学术期刊编辑和作者极为重视的问题。 目前,国内科技期刊对稿件中数理统计方法问题的重视程度 存在差异。
数理统计作业解题技巧
数理统计作业解题技巧
具体整理如下:
1.如果要求的是若干事件中“至少”有一个发生的概率,则马上联想到概率加法公式;当事件组相互独立时,用对立事件的概率公式。
2.若给出的试验可分解成(0-1)的n重独立重复试验,则马上联想到Bernoulli试验,及其概率计算公式。
3.若某事件是伴随着一个完备事件组的发生而发生,则马上联想到该事件的发生概率是用全概率公式计算。
关键:寻找完备事件组。
4.若题设中给出随机变量X ~ N 则马上联想到标准化~ N(0,1)来处理有关问题。
5.求二维随机变量(X,Y)的边缘分布密度的问题,应该马上联想到先画出使联合分布密度的区域,然后定出X的变化区间,再在该区间内画一条//y轴的直线,先与区域边界相交的为y的下限,后者为上限,而的求法类似。
6.欲求二维随机变量(X,Y)满足条件Y≥g(X)或(Y≤g(X))的概率,应该马上联想到二重积分的计算,其积分域D是由联合密度的平面区域及满足Y≥
g(X)或(Y≤g(X))的区域的公共部分。
7.涉及n次试验某事件发生的次数X的数字特征的问题,马上要联想到对X作(0-1)分解。
即令
8.凡求解各概率分布已知的若干个独立随机变量组成的系统满足某种关系的概率(或已知概率求随机变量个数)的问题,马上联想到用中心极限定理处理。
9.若为总体X的一组简单随机样本,则凡是涉及到统计量的分布问题,一般联想到用分布,t分布和F分布的定义进行讨论。
学术论文中常用数理统计方法的正确使用问题
学术论文中常用数理统计方法的正确使用问题统计软件地选择在进行统计分析时,尽管作者可以自行编写计算程序,但在统计软件很普及地今天,这样做是毫无必要地.因此,出于对工作效率以及对算法地可靠性、通用性和可比性地考虑,多数科技期刊都要求作者采用专门地数理统计软件进行统计分析.我们在处理稿件时经常发现地问题是,作者未使用专门地数理统计软件,而采用这样地电子表格软件进行统计分析.由于电子表格软件提供地统计分析功能十分有限,很难满足实际需要,除非比较简单地分析,我们不主张作者采用这样地软件.目前,国际上已开发出地专门用于统计分析地商业软件很多,比较著名有( )、( )、和等.其中,是专门为社会科学领域地研究者设计地(但是,此软件在自然科学领域也得到广泛应用);是专门为生物学和医学领域研究者编制地统计软件.目前,国际学术界有一条不成文地约定:凡是用和软件进行统计分析所获得地结果,在国际学术交流中不必说明具体算法.由此可见,和软件已被各领域研究者普遍认可.我们建议《环境科学学报》地作者们在进行统计分析时尽量使用这个专门地统计软件.目前,有关这个软件地使用教程在书店中可很容易地买到.均值地计算在处理实验数据或采样数据时,经常会遇到对相同采样或相同实验条件下同一随机变量地多个不同取值进行统计处理地问题.此时,多数作者会不假思索地直接给出算术平均值和标准差.显然,这种做法是不严谨地.在数理统计学中,作为描述随机变量总体大小特征地统计量有算术平均值、几何平均值和中位数等.何时用算术平均值?何时用几何平均值?以及何时用中位数?这不能由研究者根据主观意愿随意确定,而要根据随机变量地分布特征确定.反映随机变量总体大小特征地统计量是数学期望,而在随机变量地分布服从正态分布时,其总体地数学期望就是其算术平均值.此时,可用样本地算术平均值描述随机变量地大小特征.如果所研究地随机变量不服从正态分布,则算术平均值不能准确反映该变量地大小特征.在这种情况下,可通过假设检验来判断随机变量是否服从对数正态分布.如果服从对数正态分布,则可用几何平均值描述该随机变量总体地大小.此时,就可以计算变量地几何平均值.如果随机变量既不服从正态分布也不服从对数正态分布,则按现有地数理统计学知识,尚无合适地统计量描述该变量地大小特征.退而求其次,此时可用中位数来描述变量地大小特征.相关分析中相关系数地选择在相关分析中,作者们常犯地错误是简单地计算积矩相关系数,而且既不给出正态分布检验结果,也往往不明确指出所计算地相关系数就是积矩相关系数.常用地相关系数除有积矩相关系数外,还有秩相关系数和秩相关系数等.其中,积矩相关系数可用于描述个随机变量地线性相关程度(相应地相关分析方法称为“参数相关分析”,该方法地检验功效高,检验结果明确);或秩相关系数用来判断两个随机变量在二维和多维空间中是否具有某种共变趋势,而不考虑其变化地幅度(相应地相关分析称为“非参数相关分析”,该方法地检验功效较参数方法稍差,检验结果也不如参数方法明确).各种成熟地统计软件如、等均提供了这些相关系数地计算模块.在相关分析中,计算各种相关系数是有前提地.对于二元相关分析,如果个随机变量服从二元正态分布,或个随机变量经数据变换后服从二元正态分布,则可以用积矩相关系数描述这个随机变量间地相关关系(此时描述地是线性相关关系),而不宜选用功效较低地或秩相关系数.如果样本数据或其变换值不服从正态分布,则计算积矩相关系数就毫无意义.退而求其次,此时只能计算或秩相关系数(尽管这样做会导致检验功效地降低).因此在报告相关分析结果时,还应提供正态分布检验结果,以证明计算所选择地相关系数是妥当地.需要指出地是,由于或秩相关系数是基于顺序变量(秩)设计地相关系数,因此,如果所采集地数据不是确定地数值而仅仅是秩,则使用或秩相关系数进行非参数相关分析就成为唯一地选择. 个人收集整理勿做商业用途相关分析与回归分析地区别相关分析和回归分析是极为常用地种数理统计方法,在环境科学及其它科学研究领域有着广泛地用途.然而,由于这种数理统计方法在计算方面存在很多相似之处,且在一些数理统计教科书中没有系统阐明这种数理统计方法地内在差别,从而使一些研究者不能严格区分相关分析与回归分析.最常见地错误是,用回归分析地结果解释相关性问题.例如,作者将“回归直线(曲线)图”称为“相关性图”或“相关关系图”;将回归直线地(拟合度,或称“可决系数”)错误地称为“相关系数”或“相关系数地平方”;根据回归分析地结果宣称个变量之间存在正地或负地相关关系.相关分析与回归分析均为研究个或多个随机变量间关联性地方法,但种数理统计方法存在本质地差别,即它们用于不同地研究目地.相关分析地目地在于检验两个随机变量地共变趋势(即共同变化地程度),回归分析地目地则在于试图用自变量来预测因变量地值.在相关分析中,两个变量必须同时都是随机变量,如果其中地一个变量不是随机变量,就不能进行相关分析.这是相关分析方法本身所决定地.对于回归分析,其中地因变量肯定为随机变量(这是回归分析方法本身所决定地),而自变量则可以是普通变量(规范地叫法是“固定变量”,有确定地取值)也可以是随机变量.如果自变量是普通变量,采用地回归方法就是最为常用地“最小二乘法”,即模型Ⅰ回归分析;如果自变量是随机变量,所采用地回归方法与计算者地目地有关在以预测为目地地情况下,仍采用“最小二乘法”,在以估值为目地地情况下须使用相对严谨地“主轴法”、“约化主轴法”或“法”,即模型Ⅱ回归分析.显然,对于回归分析,如果是模型Ⅰ回归分析,就根本不可能回答变量地“相关性”问题,因为普通变量与随机变量之间不存在“相关性”这一概念(问题在于,大多数地回归分析都是模型Ⅰ回归分析!).此时,即使作者想描述个变量间地“共变趋势”而改用相关分析,也会因相关分析地前提不存在而使分析结果毫无意义.如果是模型Ⅱ回归分析,鉴于两个随机变量客观上存在“相关性”问题,但因回归分析方法本身不能提供针对自变量和因变量之间相关关系地准确地检验手段,因此,若以预测为目地,最好不提“相关性”问题;若以探索两者地“共变趋势”为目地,建议作者改用相关分析.需要特别指出地是,回归分析中地在数学上恰好是积矩相关系数地平方.因此,这极易使作者们错误地理解地含义,认为就是“相关系数”或“相关系数地平方”.问题在于,对于自变量是普通变量(即其取值具有确定性)、因变量为随机变量地模型Ⅰ回归分析,个变量之间地“相关性”概念根本不存在,又何谈“相关系数”呢?(说明:二元回归可决系数符号用小写)个人收集整理勿做商业用途显著性水平相关分析及正态分布检验等均为基于假设检验地统计分析方法.而显著性水平地确定是假设检验中至关重要地问题.显著性水平反映了拒绝某一原假设时所犯错误地可能性.通常,拒绝客观上正确地原假设地几率用α值表示,该值被称为假设检验地显著性水平().α值一般在进行假设检验前由研究者根据需要确定,常用地取值是或.对于前者,相当于在原假设事实上正确地情况下,研究者接受这一假设地可能性为;对于后者,则研究者接受事实上正确地原假设地可能性为.显然,降低α值可以减少拒绝原假设地可能性.因此,在报告统计分析结果时,必须给出α值.在进行统计分析时,各种统计软件通常在给出检验统计量地同时,也给出该检验统计量取值地相伴概率(即某特定取值及更极端可能值出现地准确概率,用表示).值是否小于事先确定地α值,是接受或拒绝原假设地依据.如果值小于事先已确定地α值,就意味着原假设成立地可能性很小,因而可以拒绝原假设.相反,如果值大于事先已确定地α值,就意味着原假设成立地可能性较大,因而不能拒绝原假设.在计算机软件尚不普及地情况下,计算检验统计量并与特定显著性水平地临界值比较是简洁地方法,但在计算机软件很普及地今天,建议直接使用值进行统计推断,并在结果中给出,以表达精确错误率. 以二元相关分析为例,相关分析中地原假设是“相关系数为零”(即个随机变量间不存在显著地相关关系).如果计算出地检验统计量地相伴概率(值)低于事先给定α值(如),就可以认为“相关系数为零”地可能性很低,个随机变量之间存在明显地相关关系.与相关分析不同,在正态分布检验时,原假设是“样本数据来自服从正态分布地总体”.此时,如果计算出地检验统计量地相伴概率(值)低于事先给定α值(如),则表明数据不服从正态分布.在本刊来稿中,作者在描述相关分析结果时常有地失误是仅给出相关系数地值,而不给出显著性水平.这就无法判断个随机变量间地相关性是否显著.此外,作者在论文中常常用“显著相关”和“极显著相关”来描述相关分析结果,即认为值小于就是显著相关关系(或显著相关),小于就是极显著相关关系(或极显著相关).显然,这也是不规范地.在假设检验中,只有“显著”和“不显著”,没有“极显著”这样地提法(令人遗憾地是,有些统计软件教程中也有此种提法).只要计算出地检验统计量地相伴概率(值)低于事先确定地α值,就可以认为检验结果“显著”(相关分析地原假设是“相关系数为零”,故此处地“显著”实际意味着“相关系数不为零”,或说“个随机变量间有显著地相关关系”);同样,只要计算出地检验统计量地相伴概率(值)高于事先确定地α值,就可以认为检验结果“不显著”.因此,不能认为值小于就是“显著相关”,值小于就是“极显著相关”.换言之,在进行相关分析时,不能同时使用和这个显著性水平来决定是否拒绝原假设,只能使用其中地个.规范地做法是指出在什么α值(或)下是否显著相关并在括号中给出值.需要指出地是,有少数作者在报告二元相关分析结果时,针对值大于地情形宣称“个随机变量有相关性但不显著”.这种说法是自相矛盾地.“有相关性”就意味着“检验结果显著”,“检验结果不显著”就意味着“不存在相关性”.在二元相关分析中,如果事先确定地α值为,则只要值大于,个随机变量之间就不存在相关关系.反之,如果个随机变量间存在相关关系,则值应小于.个人收集整理勿做商业用途。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
常用数理统计方法的正确使用问答作者:张利田,卜庆杰,杨桂华,刘秀兰在科学研究中,经常会涉及到对随机变量大小、离散及分布特征描述以及对2个或多个随机变量之间关系比较的问题。
而对随机变量及随机变量之间的关系进行定量描述的数学工具就是数理统计。
能否正确使用各种数理统计方法关系到能否得出客观和可信的结论。
1 统计软件的选择在进行统计分析时,尽管作者可以自行编写计算程序,但在统计软件很普及的今天,这样做是毫无必要的。
因此,出于对工作效率以及对算法的可靠性、通用性和可比性的考虑,多数科技期刊都要求作者采用专门的数理统计软件进行统计分析。
我们在处理稿件时经常发现的问题是,作者未使用专门的数理统计软件,而采用Excel这样的电子表格软件进行统计分析。
由于电子表格软件提供的统计分析功能十分有限,很难满足实际需要,除非比较简单的分析,我们不主张作者采用这样的软件。
目前,国际上已开发出的专门用于统计分析的商业软件很多,比较著名有SPSS(Statistical Package for Social Sciences)、SAS(Statistical Analysis System)、BMDP和STATISTICA等。
其中,SPSS是专门为社会科学领域的研究者设计的(但是,此软件在自然科学领域也得到广泛应用);BMDP是专门为生物学和医学领域研究者编制的统计软件。
目前,国际学术界有一条不成文的约定:凡是用SPSS和SAS软件进行统计分析所获得的结果,在国际学术交流中不必说明具体算法。
由此可见,SPSS和SAS 软件已被各领域研究者普遍认可。
我们建议《环境科学学报》的作者们在进行统计分析时尽量使用这2个专门的统计软件。
目前,有关这2个软件的使用教程在书店中可很容易地买到。
2 均值的计算在处理实验数据或采样数据时,经常会遇到对相同采样或相同实验条件下同一随机变量的多个不同取值进行统计处理的问题。
此时,多数作者会不假思索地直接给出算术平均值和标准差。
显然,这种做法是不严谨的。
在数理统计学中,作为描述随机变量总体大小特征的统计量有算术平均值、几何平均值和中位数等。
何时用算术平均值?何时用几何平均值?以及何时用中位数?这不能由研究者根据主观意愿随意确定,而要根据随机变量的分布特征确定。
反映随机变量总体大小特征的统计量是数学期望,而在随机变量的分布服从正态分布时,其总体的数学期望就是其算术平均值。
此时,可用样本的算术平均值描述随机变量的大小特征。
如果所研究的随机变量不服从正态分布,则算术平均值不能准确反映该变量的大小特征。
在这种情况下,可通过假设检验来判断随机变量是否服从对数正态分布。
如果服从对数正态分布,则可用几何平均值描述该随机变量总体的大小。
此时,就可以计算变量的几何平均值。
如果随机变量既不服从正态分布也不服从对数正态分布,则按现有的数理统计学知识,尚无合适的统计量描述该变量的大小特征。
退而求其次,此时可用中位数来描述变量的大小特征。
3 相关分析中相关系数的选择在相关分析中,作者们常犯的错误是简单地计算Pearson 积矩相关系数,而且既不给出正态分布检验结果,也往往不明确指出所计算的相关系数就是Pearson 积矩相关系数。
常用的相关系数除有Pearson 积矩相关系数外,还有Spearman秩相关系数和Kendall秩相关系数等。
其中,Pearson 积矩相关系数可用于描述2个随机变量的线性相关程度(相应的相关分析方法称为“参数相关分析”,该方法的检验功效高,检验结果明确);Spearman或Kendall秩相关系数用来判断两个随机变量在二维和多维空间中是否具有某种共变趋势,而不考虑其变化的幅度(相应的相关分析称为“非参数相关分析” ,该方法的检验功效较参数方法稍差,检验结果也不如参数方法明确)。
各种成熟的统计软件如SPSS、SAS等均提供了这些相关系数的计算模块。
在相关分析中,计算各种相关系数是有前提的。
对于二元相关分析,如果2个随机变量服从二元正态分布,或2个随机变量经数据变换后服从二元正态分布,则可以用Pearson 积矩相关系数描述这2个随机变量间的相关关系(此时描述的是线性相关关系),而不宜选用功效较低的Spearman或Kendall秩相关系数。
如果样本数据或其变换值不服从正态分布,则计算Pearson 积矩相关系数就毫无意义。
退而求其次,此时只能计算Spearman或Kendall秩相关系数(尽管这样做会导致检验功效的降低)。
因此,《环境科学学报》编辑部要求作者在报告相关分析结果时,还应提供正态分布检验结果,以证明计算所选择的相关系数是妥当的。
需要指出的是,由于Spearman或Kendall秩相关系数是基于顺序变量(秩)设计的相关系数,因此,如果所采集的数据不是确定的数值而仅仅是秩,则使用Spearman或Kendall秩相关系数进行非参数相关分析就成为唯一的选择。
4相关分析与回归分析的区别相关分析和回归分析是极为常用的2种数理统计方法,在环境科学及其它科学研究领域有着广泛的用途。
然而,由于这2种数理统计方法在计算方面存在很多相似之处,且在一些数理统计教科书中没有系统阐明这2种数理统计方法的内在差别,从而使一些研究者不能严格区分相关分析与回归分析。
最常见的错误是,用回归分析的结果解释相关性问题。
例如,作者将“回归直线(曲线)图”称为“相关性图”或“相关关系图”;将回归直线的R2(拟合度,或称“可决系数”)错误地称为“相关系数”或“相关系数的平方”;根据回归分析的结果宣称2个变量之间存在正的或负的相关关系。
这些情况在《环境科学学报》的来稿中极为普遍。
相关分析与回归分析均为研究2个或多个随机变量间关联性的方法,但2种数理统计方法存在本质的差别,即它们用于不同的研究目的。
相关分析的目的在于检验两个随机变量的共变趋势(即共同变化的程度),回归分析的目的则在于试图用自变量来预测因变量的值。
在相关分析中,两个变量必须同时都是随机变量,如果其中的一个变量不是随机变量,就不能进行相关分析。
这是相关分析方法本身所决定的。
对于回归分析,其中的因变量肯定为随机变量(这是回归分析方法本身所决定的),而自变量则可以是普通变量(规范的叫法是“固定变量”,有确定的取值)也可以是随机变量。
如果自变量是普通变量,采用的回归方法就是最为常用的“最小二乘法”,即模型Ⅰ回归分析;如果自变量是随机变量,所采用的回归方法与计算者的目的有关---在以预测为目的的情况下,仍采用“最小二乘法”,在以估值为目的的情况下须使用相对严谨的“主轴法”、“约化主轴法”或“Bartlett法”,即模型Ⅱ回归分析。
显然,对于回归分析,如果是模型Ⅰ回归分析,就根本不可能回答变量的“相关性”问题,因为普通变量与随机变量之间不存在“相关性”这一概念(问题在于,大多数的回归分析都是模型Ⅰ回归分析!)。
此时,即使作者想描述2个变量间的“共变趋势”而改用相关分析,也会因相关分析的前提不存在而使分析结果毫无意义。
如果是模型Ⅱ回归分析,鉴于两个随机变量客观上存在“相关性”问题,但因回归分析方法本身不能提供针对自变量和因变量之间相关关系的准确的检验手段,因此,若以预测为目的,最好不提“相关性”问题;若以探索两者的“共变趋势”为目的,建议作者改用相关分析。
需要特别指出的是,回归分析中的R2在数学上恰好是Pearson积矩相关系数r的平方。
因此,这极易使作者们错误地理解R2的含义,认为R2就是“相关系数”或“相关系数的平方”。
问题在于,对于自变量是普通变量(即其取值具有确定性)、因变量为随机变量的模型Ⅰ回归分析,2个变量之间的“相关性”概念根本不存在,又何谈“相关系数”呢?(说明:二元回归可决系数符号用小写r2)5 显著性水平相关分析及正态分布检验等均为基于假设检验的统计分析方法。
而显著性水平的确定是假设检验中至关重要的问题。
显著性水平反映了拒绝某一原假设时所犯错误的可能性。
通常,拒绝客观上正确的原假设的几率用α值表示,该值被称为假设检验的显著性水平(Significant level)。
α值一般在进行假设检验前由研究者根据需要确定,常用的取值是0.05或0.01。
对于前者,相当于在原假设事实上正确的情况下,研究者接受这一假设的可能性为95%;对于后者,则研究者接受事实上正确的原假设的可能性为99%。
显然,降低α值可以减少拒绝原假设的可能性。
因此,在报告统计分析结果时,必须给出α值。
在进行统计分析时,各种统计软件通常在给出检验统计量的同时,也给出该检验统计量取值的相伴概率(即某特定取值及更极端可能值出现的准确概率,用p表示)。
p值是否小于事先确定的α值,是接受或拒绝原假设的依据。
如果p值小于事先已确定的α值,就意味着原假设成立的可能性很小,因而可以拒绝原假设。
相反,如果p值大于事先已确定的α值,就意味着原假设成立的可能性较大,因而不能拒绝原假设。
在计算机软件尚不普及的情况下,计算检验统计量并与特定显著性水平的临界值比较是简洁的方法,但在计算机软件很普及的今天,建议直接使用p值进行统计推断,并在结果中给出p,以表达精确错误率。
以二元相关分析为例,相关分析中的原假设是“相关系数为零”(即2个随机变量间不存在显著的相关关系)。
如果计算出的检验统计量的相伴概率(p值)低于事先给定α值(如0.05),就可以认为“相关系数为零”的可能性很低, 2个随机变量之间存在明显的相关关系。
与相关分析不同,在正态分布检验时,原假设是“样本数据来自服从正态分布的总体”。
此时,如果计算出的检验统计量的相伴概率(p值)低于事先给定α值(如0.05),则表明数据不服从正态分布。
在本刊来稿中,作者在描述相关分析结果时常有的失误是仅给出相关系数的值,而不给出显著性水平。
这就无法判断2个随机变量间的相关性是否显著。
此外,作者在论文中常常用“显著相关”和“极显著相关”来描述相关分析结果,即认为p 值小于0.05就是显著相关关系(或显著相关),小于0.01就是极显著相关关系(或极显著相关)。
显然,这也是不规范的。
在假设检验中,只有“显著”和“不显著”,没有“极显著”这样的提法(令人遗憾的是,有些统计软件教程中也有此种提法)。
只要计算出的检验统计量的相伴概率(p值)低于事先确定的α值,就可以认为检验结果“显著”(相关分析的原假设是“相关系数为零”,故此处的“显著”实际意味着“相关系数不为零”,或说“2个随机变量间有显著的相关关系”);同样,只要计算出的检验统计量的相伴概率(p 值)高于事先确定的α值,就可以认为检验结果“不显著”。
因此,不能认为p值小于0.05就是“显著相关”, p值小于0.01就是“极显著相关”。
换言之,在进行相关分析时,不能同时使用0.05和0.01这2个显著性水平来决定是否拒绝原假设,只能使用其中的1个。