两则趣味贝叶斯统计案例

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

类似于《红楼梦》 类似于《红楼梦》某些章节作者考证中的曹雪芹和高 鹗之争, 鹗之争,我们当然可以用多元统计分析中的聚类分析 进行论证,但在当时, 进行论证,但在当时,聚类方法还没有得到很好的发 展。而且麦迪逊和汉密尔顿在已有著作中的平均句长 几乎完全相同, 几乎完全相同,这使得这一能反映写作风格特征的数 据失效了。直到1964 1964年 据失效了。直到1964年,美国统计学家莫斯特勒和华 莱士转而从用词习惯上来找出这两位作者的有区别性 的风格特征,运用贝叶斯定理判定了《 的风格特征,运用贝叶斯定理判定了《联邦主义论文 中这些署名有争议的文章的作者。 集》中这些署名有争议的文章的作者。
需要解决的问题是:这些文章中用词的分布形态,是来自与麦 迪逊相联的概率分布呢?还是来自与汉密尔顿相联的概率分 布?这些分布各有各的参数,只根据他们的论文来估计参数 值,可能是错误的,参数的确切值应当来自于描述18世纪晚期 所有北美洲有教养的人用英文写作时用字习惯的参数分布。如 此一来,制约麦迪逊和汉密尔顿使用这些虚词的参数本身也有 参数,称之为“超参数”。由于英语语言总是随着时间和地域 的变化而变化,除了用18世纪的北美作品,还可以搜集其他地 区和其他时期的英语文献,来估计这些超参数的参数,称之为 “超参数—超参数”。通过重复使用贝叶斯定理,就能决定这 些参数的分布,结果发现那位署名“联邦主义者”的作者的真 正身份是美国第四任总统麦迪逊。这样就了结了这一考据学上 长期悬而未决的公案。两位统计学家所使用的贝叶斯方法也得 到了学术界的好评。
两则趣味贝叶斯统计案例
趣味案例一 在1787到1788年,也就是纽约州带头鼓ቤተ መጻሕፍቲ ባይዱ通过 新的美国宪法期间,美国第四任总统詹姆士·麦迪 逊和开国政治家亚历山大·汉密尔顿都写了许多文 章支持通过宪法。但这些文章都是以署名“联 邦 主义者”匿名发表的。19世纪初,麦迪逊和汉密 尔顿两人开始确认各自的著作,但其中有12篇 一直颇具争议,就像笼罩着一层面纱,无法以真 面目示人。那么如何用统计方法进行分析和识别 呢?
他们找出了几百个无“特定内容”的英文单词, 他们找出了几百个无“特定内容”的英文单词,如“if”、 if”、 while”、 because”、 over”、 upon”、 “while”、“because”、“over”、“upon”、“whilst” as”、 and”等 、“as”、“and”等。这些单词在句子里只有语法上的意 本身并没有什么特定的含义, 义,本身并没有什么特定的含义,其使用主要取决于作者的语 言习惯。对这两位作者的其他已有确定性著作进行统计分析, 言习惯。对这两位作者的其他已有确定性著作进行统计分析, 结果发现大约有30个虚词的使用频率是不同的。例如, 30个虚词的使用频率是不同的 结果发现大约有30个虚词的使用频率是不同的。例如,汉密尔 顿在他已有的18篇文章中, 14篇使用了 enough”一词 18篇文章中 篇使用了“ 一词; 顿在他已有的18篇文章中,有14篇使用了“enough”一词;而 麦迪逊在他的14篇文章中根本未使用“enough”。 14篇文章中根本未使用 麦迪逊在他的14篇文章中根本未使用“enough”。汉密尔顿 喜欢用“while”,而麦迪逊总是用“whilst”。 喜欢用“while”,而麦迪逊总是用“whilst”。麦迪逊使用 upon”这个词的频率是每千字平均0.23次 这个词的频率是每千字平均0.23 “upon”这个词的频率是每千字平均0.23次,而汉密尔顿对这 个词的使用频率非常高,每千字平均3.24 3.24次 12篇署名有争 个词的使用频率非常高,每千字平均3.24次。在12篇署名有争 议的文章里, 11篇根本没有用 upon”这个词 篇根本没有用“ 这个词, 议的文章里,有11篇根本没有用“upon”这个词,而在剩下的 那一篇文章中,平均每千字出现1.1 1.1次 那一篇文章中,平均每千字出现1.1次。
让我们尝试用贝叶斯方法对Hinckley是否患有 精神病作出判断。一般地,在美国精神分裂症 的发病率大约为1.5%。
贝叶斯简介
贝叶斯是英国数学家.1702年生于伦敦;1761年4月17日卒于坦布里 奇韦尔斯.贝叶斯是一位自学成才的数学家.曾助理宗教事务,后来 长期担任坦布里奇韦尔斯地方教堂的牧师. 1742年,贝叶斯被选为英国皇家学会会员. 1763年,贝叶斯发表《论机会学说问题的求解》中,提出了一种归 纳推理的理论,其中的“贝叶斯定理(或贝叶斯公式)”给出了在 已知结果E后,对所有原因C计算其条件概率(后验概率) 的公式, 可以看作最早的一种统计推断程序,以后被一些统计学者发展为一 种系统的统计推断方法,称为贝叶斯方法.采用这种方法作为统计推 断所得的全部结果,构成贝叶斯统计方法的内容.贝叶斯统计在理论 上的进展以及它在应用上的方便和效益,使其观点为许多的人所了 解,并对一些统计学者产生吸引力.而认为贝叶斯方法是唯一合理的 统计推断方法的统计学者,形成数理统计学中的贝叶斯学派.如今在 概率、数理统计学中以贝叶斯姓氏命名的有贝叶斯公式、贝叶斯风 险、贝叶斯决策函数、贝叶斯决策规则、贝叶斯估计量、贝叶斯方 法、贝叶斯统计等等.
统计学特别是贝叶斯统计学是信息经济学的数学基础。 贝叶斯统计中对先验信息与后验信息的联系作了深刻 的理论分析,而决策依赖后验信息的获得而使用,这 些都体现在贝叶斯统计与决策的知识中。 信息经济学中的实证模型分析用到计量经济的知识, 都需要统计学的深厚功底。 总之,研究信息经济学及其应用应具备深厚的贝叶斯 统计与决策的数学功底
趣味案例二
1981年3月30日,一个大学退学学生Hinckley企图对里 根总统行刺。他打伤了里根、里根的新闻秘书以及两 个保安人员。在1982年审判他时,Hinckley以精神病 为理由作为其无罪的辩护。在18个医师中作证的医师 是Daniel R.Weinberger,他告诉法院当给被诊断为精 神分裂症的人以CAT扫描(计算机辅助层析扫描)时, 扫描显示30%的案例为脑萎缩,而给正常人以CAT扫描 时,只有2%的扫描显示脑萎缩。Hinckley的辩护律师 试图拿Hinckley的CAT扫描结果为证据,争辩说因为 Hinckley的扫描展示了脑萎缩,他极有可能患有精神 病,从而免予受到法院的起诉。
相关文档
最新文档