标准误与标准差样本
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
sd Std Dev,Standard Deviation 标准偏差(Std Dev,Standard Deviation) 一种量度数据分布的分散程度之标准, 用以衡量数据值偏离算术平均值的程度。标准偏差越小, 这些值偏离平均值就越少, 反之亦然。标准偏差的大小可经过标准偏差与平均值的倍率关系来衡量。标准偏差公式: S = Sqr(∑(xn-x拨)^2 /(n-1)) 公式中∑代表总和, x拨代表x的算术平均值, ^2代表二次方, Sqr代表平方根。例子: 有一组数字分别是200、50、100、200, 求它们的标准偏差。
Java代码
1.x拨 = (200+50+100+200)/4 = 550/4 = 137.5
2.S^2 = [(200-137.5)^2+(50-137.5)^2+(100-137.5)^2+(200-137.5)
^2]/(4-1) =[62.5^2+(-87.5)^2+(-37.5)^2+62.5^2]/3 =[3906.25+7
656.25+1406.25+3906.25]/3 = 16875/3 = 5625
3.标准偏差 S = Sqr(5625) = 75
cv 变异系数( coefficient of variation) , 亦称离散系数( coefficient of dispersion) 或相对偏差(rsd), 是标准偏差与平均值之比, 用百分数表示, 计算公式为:
cv = sd/mean ×100%
200、50、100、200的cv=55%
在我用于本科毕业论文答辩的ppt里的某页赫然写着这么一行: ”标准误: 标准差除以样本量的平方根”。这是我对”数据处理”部分特地作出的一条说明。前些天打开看到的时候, 我不禁有些囧。当年我们的《生物统计学》是一门选修课, 授课的是生科院生物信息学方向的一个牛人, 长得像藏人, 不过一听口音就知道她家和我家肯定离不太远。
不论生物还是药学, 这门课历来就是门选修课。而且学的内容很浅, 考试是开卷。我学得不咋地, 学完的时候感觉, 统计学说来就一句话: ”有没有显著性差异”。你说这话啥意思, 我也不太懂, 能套公式把结果算出来就成。要说起来, 有关统计学的基本知识, 早在大一上分析化学的时候就专门讲过, 很多实验报告也都要算平均数和标准差。
等到做完毕设写论文要处理数据的时候, 我突然就发现了一个问题, 为什么我看的那么多paper里面, 在算样本平均数的时候, 有的附的是标准差, 有的附的是标准误呢? 而且国外的paper都是用的标准误。我又不懂, 可是搜到有篇专门讲两者区别的文章说要用标准误, 我也就用了。两者啥区别呢? 标准差除以样本量的平方根就等于标准误。可这数学关系反映了什么实质? 我还是不懂。只是记得上生物统计学的课的时候, 老师特别强调说国内生命科学和医学方面的大部分paper都存在统计学错误。我就生怕我这么”
正确地”使用标准误反而显得”错误”了, 于是有了ppt上多此一举的那句话。
其实统计学是很多学科都需要用到的, 而且重要性不言而喻。可就我所了解的, 如我们这些生、化、医、药专业出身的学生有多少真的理解了统计学呢? 大部分都是停留在机械用软件、套公式、填结果的层面吧。当然了, 这里存在一个学科差异的问题, 也不是谁刻意地不想去理解统计学。比喻说, 去年国家就三聚氰胺出台了一个最低检测限的标准的时候, 很多没有科学素养的记者就
开始疯狂质疑了。其实对”检测限”这个概念我们就很理解, 我想心理学专业的学生倒不见得认同, 而”检测限”的本质同属统计学中的”概率”和”误差”的范畴。不过总的说来, 我们的统计学训练比起心理学实在差得太多。
终于进入正题了, 因为统计学是心理学的基本功, 因此我正儿八经地看起了考纲版的那本国内最经典的《现代心理与教育统计学》, 等把第八章假设检验看完之后, 我暂停了。我的基本感受是, 一路看下来, 条理是清晰的, 逻辑是明白的, 我也是理解的。如果说单纯应试的话, 看到这样没问题。可这门课程当然不止是应试之用的, 那么, 我在想, 我看了这么多, 它讲的这些东西到底是在干嘛呢? 对, 我的意思很明白。这本书是在讲鱼不是在讲渔。我纵使把计算标准误的公式及其意义理解得化成灰也认识, 可它到底是干嘛的
呢?
我暂停是为了找些paper来自己体会统计学的用处, 这时发现了手头正读着的《行为科学统计》, 如获至宝地读完第一章我就恨不得骂脏话了, 差距怎么能这么大? ! 为什么一本国内最经典的心理统计学教材和美国的一本可能还不是最经典的心理统计学教材
差了这么远? 因此等读完第一部分的时候, 我想哭了( 呃, 当作形
容词看待吧, 不是真的要哭) 。昨晚读完第二部分的时候, 我又想哭。因为, 我终于理解了”标准误”到底是用来干嘛的! 明白了当paper中出现它的时候是说明了什么实质问题!
索性抓几个点来比较这两本教材。
1、《现代》在讲中数的时候就讲到了内插法, 讲百分位数的时候又讲了。可是它这两处都没有提”内插法”仨字儿, 到后来好几个章节计算概率的时候却冒出来”内插法”仨字儿让人不知所云。这也就罢了, 关键是, 同样讲内插法, 原理和方法都是一样的, 《现代》用了个形式巨复杂的公式来套用, 看着就不敢用了。《行为》没用公式, 直接画个小表就能够口算了。
2、类似于上面的情况, 在针对很多不同类型的概念和方法时, 《现代》的很多习题我在做的时候都不得不翻到正文中按例题的步
骤来套用, 《行为》的习题基本上都是口算, 也不用回顾前面的例题。
我忍不住举一个实例对比:
《现代》版某例题:
有10道正误题, 问答题者答对几题才能认为她是真会, 或者说答对几题, 才能认为不是出于猜测因素?
《行为》版某例题:
假设你正在用请人预测从整副牌中抽出的牌的花色来测试人的特异功能。在48次实验中, 一个人能正确预测多于20次的概率是多少?
这两道题的解法是一致的, 考察的点也差不多。可是, 前面那题纠结的提问方式我每次读到都抽搐, 恨不得转换几次才能理解题意。《现代》中类似的绕心令比比皆是。难道把话说明白些就这么困难吗? 更不用说《现代》版在讲解题步骤时的死板了, 逼得我只能依葫芦画瓢呀。
3、《现代》版太瞧得起我们学生了, 很多概念突然就冒出来了, 也不告诉你怎么回事, 比如”自由度”; 有些概念稍微讲解了几