专栏统计学①:漫谈统计学的前世(上)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
专栏统计学①:漫谈统计学的前世(上)
最近读了一本颇受众人推荐的迈克尔·怀特的《牛顿传》,更深入了解了牛顿和莱布尼茨关于谁是微积分的发明者的长期争论。
英国最伟大的数学家艾萨克·牛顿爵士(1642—1726)和德国最伟大的数学家戈特弗里德·威廉·莱布尼茨(1646—1716)在十八世纪初期爆发了一场长达十年的争论,直到他们分别去世。
因为他们都宣称自己才是微积分的创造者。
从英国和德国数学界的两位泰斗展现他们卓越才能和真实人性的过程中,我突然想分享几篇关乎我们每个人的统计学知识。
通过这些粗浅的理解,希望能引起大家对统计学的热爱或者克服对统计学复杂公式的恐惧。
在整理统计学的发展中,看到了统计学的伟大创立者们。
今天就来漫谈统计学的前世。
统计学是一门很古老的科学,一般认为它始于古希腊的亚里斯多德时代,迄今为止超过两千三百多年的历史。
随后林林总总的发展比较曲折,我们就直接从18世纪的几个全新统计学大佬开始吧。
【①】凯特勒
凯特勒(1796年-1874年) 既是统计学家、又是数学家和天文学家,被统计学界称为“近代统计学之父”。
他主张用研究自然科学的方法去研究社会现象,他从统计学角度出发看人,认为人的成长是会依从一套既定的法则,即我们可以透过统计数字,去推算一个人的发展。
他发明了今天我们每个人都会用到的身高体重指数(BMI)来推算一个人的健康状况。
当然他最杰出的贡献是把概率论引入到统计学中,为数理统计学的形成与发展奠定了基础。
从1831年开始,凯特勒搜集了大量关于人体生理测量的数据,如体重、身高与胸围等。
经分析研究后,认为这些生理特征都围绕着一个平均值而上下波动,呈现出概率论中所述的正态分布。
【②】弗朗西斯.高尔顿
弗朗西斯.高尔顿(1822年-1911年)是维多利亚时代的天才。
他是《物种起源》的作者查尔斯·达尔文的表弟。
他的学术研究兴趣广泛,包括人类学、地理、数学、力学、气象学、心理学、统计学等方面。
他在统计学方面至今影响深远的是相关和回归概念的提出。
“回归”是高尔顿在研究人类遗传问题时提出来的(不愧是达尔文的追随者)。
为了研究父代与子代身高的关系,高尔顿搜集了1078对父亲及其儿子
的身高数据。
他发现这些数据的散点图大致呈直线状态,也就是说,总的趋势是父亲的身高增加时,儿子的身高也倾向于增加。
但是,高尔顿对试验数据进行了深入的分析,发现了一个很有趣的现象—回归效应。
因为当父亲高于平均身高时,他们的儿子身高比他更高的概率要小于比他更矮的概率;父亲矮于平均身高时,他们的儿子身高比他更矮的概率要小于比他更高的概率。
它反映了一个规律,即这两种身高父亲的儿子的身高,有向他们父辈的平均身高回归的趋势。
对于这个一般结论的解释是:大自然具有一种约束力,使人类身高的分布相对稳定而不产生两极分化,这就是所谓的回归效应。
当然最后将“回归”、“相关”思想完整地以数学公式形式清晰地表达出来、且继续发扬光大的人是卡尔.皮尔逊。
【③】卡尔·皮尔逊
卡尔·皮尔逊(Pearson)(1857年-1936年)是英国数学家,生物统计学家,数理统计学的创立者。
他被公认是现代描述性统计学派的代表人物,并被誉为现代统计科学的创立者。
皮尔逊师从于高尔顿。
皮尔逊1892年出版了他的名作《科学的语法》。
这本书在当时是有轰动效应的科学作品,多次再版,到今天仍被认为是“介绍科学和数学最伟大的书籍之一”。
卡尔·皮尔逊在高尔顿、韦尔登等人关于相关和回归统计概念和技巧的基础上,建立了后来所称的极大似然法,把两个因素(比如乘出租车的距离和所花的车费)的相关性强弱用相关系数r来表示。
这也是我们现在经常做相关性分析和回归分析用到称其为“皮尔逊相关系数”的原因。
此外,皮尔逊还提出了卡方(χ2)检验。
χ2检验用以检验多个因子(或构成)之间差异是否具有显著性,当然也适合于两组比较。
又称为卡方检验,chi-squaretest。
卡方检验提出后得到了广泛的应用,在现代统计理论中占有重要地位。
例如:你关注性别购买不同手机品牌之间消费习惯是否相关。
你询问100 个人的手机品牌并记录他们的性别后汇总数据如下:
手机品牌苹果华为/荣耀三星其它
男14 20 10 6
女21 14 12 3
其中由于P值=0.303,大于传统意义上设定的阈值0.05,表明性别选择手机品牌不存在差异。
结尾
有人说数据不会说谎,这是真的吗?美国管理学家、统计学家爱德华·戴明有一句名言:除了上帝,任何人都必须用数据说话。
这些说法的背后有基础假设:数据必须是客观的、科学的和真实的。
然而数据分析和处理方法,也会误导我们这些芸芸众生。
让我们期待:漫谈统计学的前世(下)。
精英的你,欢迎加入
自由质量人俱乐部
共同讨论社会现状,能力提升,企业创新,
远离中年危机,企业政治,高浪费,低价格竞争
构建个人,企业的培训平台
成为
精英表现的舞台
企业的培训供应商,忠实保姆
申明:
本公众号归
自由质量人俱乐部与上海安和信息科技有限公司
共同所有。
公司服务内容,
企业诊断,培训(培,讲授,训,跟进指导),体系认证,专利申请注册,新产品新项品辅导,管理的托管(ERP, OA 等系统后台托
管, 人力资源托管),会务(供应商管理大会,企业专题会等),...
公司收入用于支持俱乐部管理研究
欢迎业务技持中国管理研究。