北京大学统计学经典课件第二章——统计回顾和分析方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

统计和计算机
• 现代生活越来越离不开计算机了。最早使 用计算机的统计当然更离不开计算机了。
• 事实上,最初的计算机仅仅是为科学计算 而建造的。大型计算机的最早一批用户就 包含统计。而现在统计仍然是进行数字计 算最多的用户。
• 计算机现在早已脱离了仅有计算功能的单 一模式,而成为百姓生活的一部分。
• 计算机的使用,也从过去必须学会计算机 语言到只需要“傻瓜式”地点击鼠标。结 果也从单纯的数字输出到包括漂亮的表格 和图形的各种形式。
• 通过数据可以验证有关的理论或假定(比如每一次得到 每个点的概率是不是1/6等等)。对于顾客是否喜欢某
种饮品的调查也类似,但这里不象掷骰子那样事先可以 大致猜测顾客喜欢与否的概率。在问了1000人之后,可 能有364人说喜欢,而480人说不喜欢,其余的人可能不
回答,或说不知道,或从来没有喝过这种饮料。这些数 目就是数据。当然,它仅仅反映了1000个被问到的人的 观点;但这对于估计整个消费群体的观点还是有用的。
统计软件
• 统计软件的发展,也使得统计从统计 学家的圈内游戏变成了大众的游戏。 只要你输入你的数据,点几下鼠标, 做一些选项,马上就得到令人惊叹的 漂亮结果了。
• 你可能会问,是否傻瓜式的统计软件 使用可以代替统计课程了?
• 当然不是。数据的整理和识别,方法 的选用,计算机输出结果的理解都不 象使用傻瓜相机那样简单可靠。
• 显然,这种概率不可能超过百分之百, 也不可能少于百分之零。换言之,概率 是在0和1之间的一个数,说明某事件发 生的机会有多大。
有些概率是无法精确推断的
• 比如你对别人说你下一个周末去公园 的概率是百分之八十。但你无法精确 说出为什么是百分之八十而不是百分 之八十四或百分之七十八。
• 其实你想说的是你很可能去,但又没 有完全肯定。
• 但是总体来说,平均年龄的稳定性, 却说明了随机之中有规律性。这种 规律就是统计规律。
概率和机会
• 你可能经常听到概率(probability)这个 名词。例如在天气预报中会提到降水概
率。大家都明白,如果降水概率是百分
之九十,那就很可能下雨;但如果是百 分之十,就不大可能下雨。
• 因此,从某种意义说来,概率描述了某 件事情发生的机会。
• 象性别,观点之类的取非数量值的变量就称为定 性变量或属性变量或分类变量(qualitative variable,categorical variable)。
• 这些定性变量也可以由随机变量来描述,比如男 性和女性的数目,同意某政策人数的比例等等。 只有当变量用数量来描述时,才有可能建立数学 模型,才可能使用计算机来分析。
• 因此,可以说,活得长短是有一定随机性的 (randomness)。这种随机性可能和人的经历、基 因、习惯等无数说不清的因素都有ቤተ መጻሕፍቲ ባይዱ系。
现实中的随机性和规律性
• 但是从总体来说,我国公民的平均 年龄却是非常稳定的。而且女性的 平均年龄也稳定地比男性高几年。 这就是规律性。
• 一个人可能活过这个平均年龄,也 可能活不到这个年龄,这是随机的。
• 实际上,到了周末,你或者去,或者 不去;不可能有分身术把百分之八十 的你放到公园,而其余的放在别处。
有些概率是可以估计的
• 比如掷骰子。只要没有人在骰子上做 手脚,你得到6点的概率应该是六分之 一。得到其他点的概率也是一样。
• 得到6的概率或者机会是可以知道的, 但掷骰子的结果还只可能是六个数目 之一。
统计软件
• 统计软件的种类很多。有些功能齐 全,有些价格便宜;有些容易操作, 有些需要更多的实践才能掌握。还 有些是专门的软件,只处理某一类 统计问题。面对太多的选择往往给 决策带来困难。这里介绍最常见的 几种。
数据
• 有了变量的概念,什么是数据呢?拿掷骰子来说,掷骰 子会得到什么值,是个随机变量;而每次取得1至6点中
任意点数的概率它在理论上都是六分之一(如果骰子公
平)。这依赖于在掷骰子背后的理论或假定;而在实际 掷骰子过程中,如果掷100次,会得到100个由1至6点组 成的数字串;再掷100次,又得到一个数字串,和前一 次的结果多半不一样。这些试验结果就是数据。所以说, 数据是关于变量的观测值.
统计软件
• 有些诸如法律和医学方面的软件都有不少警告, 不时提醒你去咨询专家。
• 但统计软件则不那么负责。只要数据格式无误、 方法不矛盾而且不用零作为除数就一定给你结果, 而且没有任何警告。
• 另外,统计软件输出的结果太多;即使是同样的 方法,不同软件输出的内容还不一样;有时同样 的内容名称也不一样。这就使得使用者大伤脑筋。 即使是统计学家也不一定能解释所有的输出。因 此,就应该特别留神,明白自己是在干什么。不 要在得到一堆毫无意义的垃圾之后还沾沾自喜。
统计基本概念回顾
规随 律机 性性

现实中的随机性和规律性
• 从中学起,我们就知道自然科学的许多定律,例 如物理中的牛顿三定律,物质不灭定律以及化学 中的各种定律等等。
• 但是在许多领域,很难用如此确定的公式或论述 来描述一些现象。比如,人的寿命是很难预先确 定的。一个吸烟、喝酒、不锻炼、而且一口长荤 的人可能比一个很少得病、生活习惯良好的人活 得长。
• 另外对于某项政策同意与否的回答,也有 “同意”、“不同意”或者“不知道”三种 可能值;这也是变量,只不过不是数量而已。
变量
• 当变量按照随机规律所取的值是数量时该变量称 为定量变量或数量变量(quantitative variable); 因为是随机的,也称为随机变量(random variable)。
• 这个已知的规律就反映了规律性,而 得到哪个结果则反映了随机性。
• 如果你掷1000次骰子,那么,大约有 六分之一的可能会得到6;这也是随机 性呈现有规律的一个体现。
变量
• 做任何事情都要有对象。比如一个班上注册 的学生有200人,这是一个固定的数目,称为 常数(constant)或者常量。
• 但是,如果猜测今天这个班有多少人会来上 课,那就没准了。这有随机性。可能有请病 假或事假的,也可能有逃课的。这样,就要 来上课的人数是个变量(variable)。
相关文档
最新文档