8 第十一章 无序分类变量描述与推断

合集下载

教育学第十一章 教育研究方法 PPT课件

教育学第十一章 教育研究方法 PPT课件

2、选择研究对象
选取的研究对象必须是有典型代表意义 在研究总体抽取样本进行研究 样本要有合理的容量 尽可能采取随机抽样
3、分析研究变量
1.自变量,也称刺激变量,是由研究者主动操纵 而变化的变量,是能独立地变化并引起因变量变 化的条件、因素或条件的组合。
2.因变量,也称反应变量,是由自变量的变化引起 被试行为或者有关因素、特征的相应反应的变量。它 是研究中需要观察的指标,具有一定的可测性。
第三步,对史料的分析研究。要用历史唯物主义观点对史料 进行分析探讨,以深入考察教育演进的内在成因和机理,弄清 不同时期 具体发展的“所以然”和“为什么”,从而发现和揭 示教育演变的规律。
返回
(一)比较研究法的概念
教育科学的比较研究是对某类教育现象在不同 时期、不同地点、不同情况下的不同表现进行分 析,以揭示教育的普遍规律及其特殊表现,从而 得出符合客观事实的结论。比较研究的实质在于 从事物的相互联系和差异的比较中观察事物、认 识事物,从而探索规律。比较研究作为一种思维 方法,贯穿在教育研究的全过程。
(二)教育科研的特点:
1、富有创造性 2、应用性 3、综合性 4、整体性
二、教育科研的类型
基于目的分类
基础研究 应用研究
基于方法分类
定性研究 定量研究
基础研究的主要目的在于发展和完善理论,寻
基 础 研 究
求新的事实,阐明新的理论或重新评价原有的 理论,它回答的是“为什么”的问题,与建立 教育科学的一般原理有关。基础研究的指向具 有普遍性,它可以为现有的科学体系增添新的 东西。
的内在效度和外在效度。
2.实验的实施阶段
3.实验结果的总结评价阶段
返回
(一)历史研究发的概念
历史研究方法是借助于对相关社会历史 过程的史料进行分析、破译和整理,以 认识研究对象的过去,研究现在和预测 未来的一种研究方法。这种方法的实质 在于探究研究对象本身的发展过程和人 类认识该事物的历史发展过程。教育的 历史研究方法,是以历史研究法来研究 教育科学,是通过搜集某种教育现象发 生、发展和演变的历史事实,加以系统 客观的分析研究,从而揭示其发展规律 的一种研究方法。

SPSS 无序分类变量的统计推断 卡方检验

SPSS 无序分类变量的统计推断 卡方检验

5.分层卡方检验 6.SPSS 软件部分
6.1.‘统计量’子对话框界面说明
打开方式:点击工具栏‘分析’->‘描述’-》 ‘交叉表’ ,点击选项‘统计 量’ 。项。
‘卡方’复选框:进行卡方检验。
‘Kappa’复选框:计算 Kappa 值,即内部一致性系数。原假设 H0 是无一 致性;Kappa≥0.75 表明两者一致性较好,介于 0.4 至 0.75 表明一致性一般,小 于 0.4 表明两者一致性较差。 ‘风险’复选框:计算 OR 值(比数比)和 RR 值(相对危险度) ,这些指 标用于反映交叉表的行、列变量之间的关联强度。 ‘McNemar’复选框:进行 McNemar 检验,即常用的配对卡方检验。 ‘Cochran’s and Mantel-Haenszel 统计量’复选框:为两个二分类变量进 行分层卡方检验,即层间的独立性检验和同质性(齐性)检验,同时可进行分层 因素的调整。
4.一致性检验与配对卡方检验
你得首先理解配对设计,这里略。
4.1.Kappa 一致性检验
Pearson 卡方检验并不适用于配对设计的数据, 它无法明确说明结果的一致 程度。 更准确地说, Pearson 卡方只能告诉用户两种测量结果之间是否存在关联, 但不能判断其是否具有一致性。
4.2.配对卡方检验
3.1.相对危险度
RR 值是一个概率的壁纸,是指实验组人群反应阳性概率与对照组人群反应 阳性概率的壁纸。RR=1,表明实验因子与反应阳性无关联。
3.2.优势比
OR 值是一个比值的比,是反应阳性人群中实验因素有无的比例与反应阴性 人群中实验因素有无的比例之比。OR=1,表明实验因素与反应阳性无关联。 由于优势比是两个比值的比值,因此它不太好解释,而解释相对危险度则要 容易得多, 因此在大多数情况下人们希望能够按照相对危险度的含义来解释优势 比。 当所关注的事件发生概率比较小时(<0.1), 优势比可作为相对危险度的近似。

分类变量的分析

分类变量的分析

分类变量的分析一.分类变量分类变量有有序变量、无序变量和二分类,其中有序和无序都是多分类举例说明,有序变量:高血压1期、II期、III期属于有序变量同时也属于等级资料,无序变量:汉族、回族、哈组;工人、农民、教师这样得属于无序变量,男性、女性;死亡、存活属于二分类变量。

在分析方法中差别性检验中,二分类变量和无序变量都能用卡方检验,只不过一个是四格表卡方一个是RXC列联卡方,而有序变量也就是等级资料就得用秩和检验。

在多元回归时,有序变量和二分类变量都是赋值1、2、3或0、1求得一个OR或RR值,而无序资料就必须要设置哑变量(虚拟变量),例如职业工人、农民、教师。

你计算得时候赋值为工人=1、农民=2、教师=3,如果你当成连续得变量去计算那么得到一个OR或RR值,解释为每增加一个等级发生某病得危险性增加多少倍。

那么在无序变量就意味着工人增加一个等级,这是不可能的。

因为这样得变量各等级之间不存在1、2、3得数学关系。

在有序变量中,我们可以多元回归来检验假设,运用的原理时最小二乘法。

在无序变量中,我们必须引用哑变量(虚拟变量)来实现logistic回归。

在运用logistics回归分析之前我们必须先要理解虚拟变量。

二.下面的重点就是关于虚拟变量的讲解。

1.虚拟变量的含义虚拟变量是用以反映质的属性的一个人工变量,取值为0 或1,通常记为D(Dummy Variable),又可称之为属性变量、双值变量、类型变量、定性变量、或二元型变量。

(注意:虚拟变量D只能取0或1两个值,即属性之间不能运算!对基础类型或否定类型设D=0对比较类型或肯定类型设D=1)如1 男性D =0 女性但是,虚拟变量主要是用来代表质的因素,但有些情况下也可以用来代表数量因素。

例如:在建立储蓄函数时,“年龄”是一个重要的解释变量。

虽然“年龄”是一个数量因素,但为了方便也可以用虚拟变量表示。

例如:可以把居民分为两个年龄组:第一组:20~35岁的居民,第二组:35~60岁的居民,用“1”表示第一年龄组;“0”表示第二年龄组,就可以估计年龄对储蓄的影响。

分类变量的分析

分类变量的分析

分类变量的分析一.分类变量分类变量有有序变量、无序变量和二分类,其中有序和无序都是多分类举例说明,有序变量:高血压1期、II期、III期属于有序变量同时也属于等级资料,无序变量:汉族、回族、哈组;工人、农民、教师这样得属于无序变量,男性、女性;死亡、存活属于二分类变量。

在分析方法中差别性检验中,二分类变量和无序变量都能用卡方检验,只不过一个是四格表卡方一个是RXC列联卡方,而有序变量也就是等级资料就得用秩和检验。

在多元回归时,有序变量和二分类变量都是赋值1、2、3或0、1求得一个OR或RR值,而无序资料就必须要设置哑变量(虚拟变量),例如职业工人、农民、教师。

你计算得时候赋值为工人=1、农民=2、教师=3,如果你当成连续得变量去计算那么得到一个OR或RR值,解释为每增加一个等级发生某病得危险性增加多少倍。

那么在无序变量就意味着工人增加一个等级,这是不可能的。

因为这样得变量各等级之间不存在1、2、3得数学关系。

在有序变量中,我们可以多元回归来检验假设,运用的原理时最小二乘法。

在无序变量中,我们必须引用哑变量(虚拟变量)来实现logistic回归。

在运用logistics回归分析之前我们必须先要理解虚拟变量。

二.下面的重点就是关于虚拟变量的讲解。

1.虚拟变量的含义虚拟变量是用以反映质的属性的一个人工变量,取值为0 或1,通常记为D(Dummy Variable),又可称之为属性变量、双值变量、类型变量、定性变量、或二元型变量。

(注意:虚拟变量D只能取0或1两个值,即属性之间不能运算!对基础类型或否定类型设D=0对比较类型或肯定类型设D=1)如1 男性D =0 女性但是,虚拟变量主要是用来代表质的因素,但有些情况下也可以用来代表数量因素。

例如:在建立储蓄函数时,“年龄”是一个重要的解释变量。

虽然“年龄”是一个数量因素,但为了方便也可以用虚拟变量表示。

例如:可以把居民分为两个年龄组:第一组:20~35岁的居民,第二组:35~60岁的居民,用“1”表示第一年龄组;“0”表示第二年龄组,就可以估计年龄对储蓄的影响。

医学统计学第七讲分类变量统计描述

医学统计学第七讲分类变量统计描述
环比发展速度-1(100%) 平均发展速度,平均增长速度???
平均发展速度和平均增长速度
➢平均发展速度是各环比发展速度的几何 平均数,说明某事物在一个较长时期中 逐期(如逐年)平均发展的程度。
➢平均增长速度是各环比增长速度的平均 数,说明某事物在一个较长时期中逐期 平均增长的程度。
其计算公式为
平 均 发 展 速 度 nan/a0
9.5 12 28
5.2
6
58 10.8 合计 536 100.0
7
66 12.3
第二节 相对数应用注意事项
3、相对数作相互比较时应注意其可比性。 (1)研究对象是否同质;研究方法是否 统一;观察时间是否一致;客观环境和影 响因素是否相当;等等。 (2)当比较两组或两组以上的总率(平 均率)时,要考虑各率的内部构成是否相 同,否则要经过标准化,才能得出正确结 论。
• 在计数资料分析中有时要考虑资料的时间特性。
• 分子和分母都是时点ຫໍສະໝຸດ 料:高血压患病率= (检出高血压病人数÷受检查人数)×100%
• 分子和分母都是时期资料:
痢疾病死率= (某年痢疾死亡数÷该年痢疾发病数)×1000‰
• 分子是时期资料而分母是时点 资料:
– 时间段为年的,称为年率;时间是一个月的, 称月率。凡是年率都不须注明。不是年率的必 须注明是周率、月率、季率。
第三节 率的标准化法
一、率的标准化概念: 把两个或两个以上内部构成不同的总
率统一到同一水平(或标准水平),使之 具有可比性,然后再进行比较的方法即率 的标准化法。
由标准化法计算的率称标准化率(或 调整率),简称标化率。
率的标准化的意义:便于合理比较。
第三节 率的标准化法
二、选择标准的原则: 1.尽可能选择有代表性的、内部构成相

社会研究方法(第四版)第十一章

社会研究方法(第四版)第十一章
.87 5.02
a 71.87 176 8212 . Y 8212 . .87 X
有了这一回归方程后,我们就可以由预测变量的值 经回归方程计算出标准变量的预测值。如另一名大学生 的身高为170厘米,则其体重的预测值为65.78公斤。
资料审核的方法主要有两种,即逻辑审核与 计算审核。 逻辑审核,即核查资料的内容是否合乎逻辑 和常识,项目之间有无互相矛盾之处,与其 他有关资料进行对照是否有明显出入等等。 计算审核,是针对数字资料进行的审查。要 检查计算有无错误。度量单位有没有错,前 后数字之间有无相互矛盾之处等等。
二、资料的转换
2 定序层次:中位值(中位数)(单选)
其意义为按大小顺序排列,处在一群数据中央位置的数值。 (1)原始资料,求中位值 例如:有9个人,他们的月工资分别如下: 47,42,50,51,92,112,71,83,108 首先作排列处理,从小到大排列 42,47,50,51,71,83,92,108,112 其次求中央位置 Md的位置=(N+1)÷2=(9+1)÷2=5 最后求中位置Md=71
二、单变量推论统计
区间估计 以样本统计量的抽样分布为理论依据,按一 定概率要求,由样本统计量的值来估计总体 参数的值所在的范围,叫做总体参数的区间 估计。 区间估计的实质就是在一定的可信度(置信 度)下,用样本统计值的某个范围来估价总 体的参数值 。范围的大小反映的是这种估计 的精确性问题,而可信度高低反映的是这种 估计的可靠性或和握性问题。
a b
两个变量(预测变量X与标准变量Y)间的回 归分析,是只有一个自变量的线性回归,也叫 一元线性回归。其回归方程为:
Y a bX
其中a,b、对一对特定数据来说是常数:

两分类资料的统计描述与推断

两分类资料的统计描述与推断
详细描述
频数分布表包括两列,一列表示类别, 另一列表示该类别出现的频数。通过 频数分布表,可以直观地了解各类别 的数量分布情况,为后续的统计分析 提供基础数据。
比例与百分比
总结词
比例和百分比是用来描述两分类资料中各类别的相对大小。
详细描述
比例是各类别的数量与总数量的比值,而百分比则是比例乘以100。通过比例和 百分比,可以了解各类别的相对大小,进一步分析各类别的权重和影响。
详细描述
在两分类资料中,中位数通常用于描述某一类别的中间状态或中心趋势。例如,在一组 关于消费者年龄的数据中,中位数可以表示消费者的平均年龄或年龄分布的中心趋势。
算术平均数
总结词
算术平均数是所有数值的和除以数值的 个数。
VS
详细描述
在两分类资料中,算术平均数可以用于描 述某一类别的平均水平或中心趋势。例如 ,在一组关于消费者购买力的数据中,算 术平均数可以表示消费者的平均购买力水 平。
概率与概率分布
概率
描述随机事件发生的可能性大小。
概率分布
描述随机变量取值可能性的分布情况。
随机抽样与抽样分布
随机抽样
从总体中按照随机原则抽取一部分观察单位进行研究 。
抽样分布
由样本数据推导出的统计量值的分布。
统计量与参数
统计量
基于样本数据计算出的量值,用于描 述样本数据的特征。
参数
描述总体特性的量值,通常通过总体 数据计算得出。
03
CHAPTER
两分类资料的离散程度描述
异众比率
异众比率
异众比率是用于描述分类数据中非众数频数 的相对重要性。其计算公式为异众比率=非 众数频数/总频数。异众比率越大,说明非 众数频数所占比重越大,数据的离散程度越 大。

《卫生统计学》课后思考题答案

《卫生统计学》课后思考题答案

《卫生统计学》思考题参考答案第一章绪论1、统计资料可以分为那几种类型?举例说明不同类型资料之间是如何转换的?答:(1)1定量资料(离散型变量、连续型变量)、2无序分类资料(二项分类资料、无序多项分类资料)、3有序分类资料(即等级资料);(2)例如人的健康状况可分为“非常好、较好、一般、差、非常差”5个等级,应归为等级资料,若将该五个等级赋值为5、4、3、2、1,就可按定量资料处理。

2、统计工作可分为那几个步骤?答:设计、收集资料、整理资料、分析资料四个步骤。

3、举例说明小概率事件的含义。

答:某人打靶100次,中靶次数少于等于5,那么该人一次打中靶的概率≤0.05,即可称该人一次打中靶的事件为小概率事件,可以视为很可能不发生。

第二章调查研究设计1、调查研究有何特点?答:(1)不能人为施加干预措施(2)不能随机分组(3)很难控制干扰因素(4)一般不能下因果结论2、四种常用的抽样方法各有什么特点?答:(1)单纯随机抽样:优点是操作简单,统计量的计算较简便;缺点是当总体观察单位数量庞大时,逐一编号繁复,有时难以做到。

(2)系统抽样:优点是易于理解、操作简便,被抽到的观察单位在总体中分布均匀,抽样误差较单纯随机抽样小;缺点是在某些情况下会出现偏性或周期性变化。

(3)分层抽样:优点是抽样误差小,各层可以独立进行统计分析,适合大规模统计;缺点是事先要进行分层,操作麻烦。

(4)整群抽样:优点是易于组织和操作大规模抽样调查;缺点是抽样误差大。

3、调查设计包括那些基本内容?答:(1)明确调查目的和指标(2)确定调查对象和观察单位(3)选择调查方法和技术(4)估计样本大小(5)编制调查表(6)评价问卷的信度和效度(7)制定资料的收集计划(8)指定资料的整理与分析计划(9)制定调查的组织措施4、调查表中包含那几种项目?答:(1)分析项目直接整理计算的必须的内容;(2)备查项目保证分析项目填写得完整和准确的内容;(3)其他项目大型调查表的前言和表底附注。

(完整版)统计学贾俊平考研知识点总结

(完整版)统计学贾俊平考研知识点总结

统计学重点笔记第一章导论一、比较描述统计和推断统计:数据分析是通过统计方法研究数据,其所用的方法可分为描述统计和推断统计。

(1)描述性统计:研究一组数据的组织、整理和描述的统计学分支,是社会科学实证研究中最常用的方法,也是统计分析中必不可少的一步。

内容包括取得研究所需要的数据、用图表形式对数据进行加工处理和显示,进而通过综合、概括与分析,得出反映所研究现象的一般性特征。

(2)推断统计学:是研究如何利用样本数据对总体的数量特征进行推断的统计学分支。

研究者所关心的是总体的某些特征,但许多总体太大,无法对每个个体进行测量,有时我们得到的数据往往需要破坏性试验,这就需要抽取部分个体即样本进行测量,然后根据样本数据对所研究的总体特征进行推断,这就是推断统计所要解决的问题。

其内容包括抽样分布理论,参数估计,假设检验,方差分析,回归分析,时间序列分析等等。

(3)两者的关系:描述统计是基础,推断统计是主体二、比较分类数据、顺序数据和数值型数据:根据所采用的计量尺度不同,可以将统计数据分为分类数据、顺序数据和数值型数据。

(1)分类数据是只能归于某一类别的非数字型数据。

它是对事物进行分类的结果,数据表现为类别,是用文字来表达的,它是由分类尺度计量形成的。

(2)顺序数量是只能归于某一有序类别的非数字型数据。

也是对事物进行分类的结果,但这些类别是有顺序的,它是由顺序尺度计量形成的。

(3)数值型数据是按数字尺度测量的观察值。

其结果表现为具体的数值,现实中我们所处理的大多数都是数值型数据。

总之,分类数据和顺序数据说明的是事物的本质特征,通常是用文字来表达的,其结果均表现为类别,因而也统称为定型数据或品质数据;数值型数据说明的是现象的数量特征,通常是用数值来表现的,因此可称为定量数据或数量数据。

三、比较总体、样本、参数、统计量和变量:(1)总体是包含所研究的全部个体的集合。

通常是我们所关心的一些个体组成,如由多个企业所构成的集合,多个居民户所构成的集合。

贾俊平统计学 第七版 课后思考题

贾俊平统计学 第七版 课后思考题

第一章导论1.什么是统计学?统计学是搜集、处理、分析、解释数据并从中得出结论的科学。

2.解释描述统计与推断统计。

描述统计研究的是数据搜集、处理、汇总、图表描述、概括与分析等统计方法。

推断统计研究的是如何利用样本数据来推断总体特征的统计方法。

3.统计数据可分为哪几种类型?不同类型的数据各有什么特点?按照计量尺度可分为分类数据、顺序数据和数值型数据;按照数据的搜集方法,可以分为观测数据和试验数据;按照被描述的现象与实践的关系,可以分为截面数据和时间序列数据。

4.解释分类数据、顺序数据和数值型数据的含义。

分类数据是只能归于某一类别的非数字型数据;顺序数据是只能归于某一有序类别的非数字型数据;数值型数据是按照数字尺度测量的观测值,其结果表现为具体的数值。

5.举例说明总体、样本、参数、统计量、变量这几个概念。

总体是包含所研究的全部个体的集合,样本是从总体中抽取的一部分元素的集合,参数是用来描述总体特征的概括性数字度量,统计量是用来描述样本特征的概括性数字度量,变量是用来说明现象某种特征的概念。

6.变量可分为哪几类?变量可分为分类变量、顺序变量和数值型变量。

分类变量是说明书屋类别的一个名称,其取值为分类数据;顺序变量是说明十五有序类别的一个名称,其取值是顺序数据;数值型变量是说明事物数字特征的一个名称,其取值是数值型数据。

7.举例说明离散型变量和连续型变量。

离散型变量是只能去可数值的变量,它只能取有限个值,而且其取值都以整位数断开,如“产品数量”;连续性变量是可以在一个或多个区间中取任何值的变量,它的取值是连续不断的,不能一一列举,如“温度”等。

第二章数据的搜集1.什么是二手资料?使用二手资料需要注意些什么?与研究内容有关、由别人调查和试验而来、已经存在并会被我们所利用的资料为二手资料。

使用时要评估资料的原始搜集人、搜集目的、搜集途径、搜集时间且使用时要注明数据来源。

2.比较概率抽样和非概率抽样的特点。

举例说明什么情况下适合采用概率抽样,什么情况下适合采用非概率抽样。

分类变量的表示方法

分类变量的表示方法

分类变量的表示方法全文共四篇示例,供读者参考第一篇示例:分类变量是统计学中常见的一种数据类型,它表示的是被分到不同类别或者水平中的数据。

在数据分析和统计推断中,我们常常需要对这些分类变量进行统计分析和可视化展示。

而要对分类变量进行合适的表示,就需要采用相应的方法。

在下面的文章中,我们将详细介绍关于分类变量的表示方法,包括表格、柱状图、饼图、条形图等多种形式,希望可以帮助您更好地理解和运用这些方法进行数据分析。

一、表格表格是一种常见的数据展示方式,通过将数据按照不同水平进行分组,并以表格的形式呈现出来,可以清晰地展示出分类变量在不同类别间的分布情况。

表格通常包括行和列,其中行对应着不同的类别或水平,列则对应着各种统计指标或属性。

可以用表格来展示某个客户群体中不同性别的分布情况,或者某种产品在不同地区销售情况等。

通过表格,我们可以快速地了解到各个类别在分类变量中的分布比例,方便进行比较和分析。

二、柱状图柱状图是一种常见的数据可视化方式,通过垂直的长方形柱子来表示不同类别的数据大小。

在柱状图中,不同类别的分类变量通常对应着不同的柱子,而柱子的高度则代表着该类别的数值大小或者频数。

柱状图可以直观地展示出不同类别在分类变量中的分布情况,可以进行直观的比较和分析。

在人口普查数据中,可以用柱状图来展示各个年龄段的人口数量,或者在市场调查数据中,可以用柱状图来展示各种产品的销售情况。

三、饼图饼图是另一种常见的数据可视化方法,通过将圆形分割成不同大小的扇形来表示不同类别的数据比例。

在饼图中,每个扇形的面积大小与该类别的比例成正比,可以清晰地展示出各个类别在分类变量中的占比情况。

四、条形图希望通过本文的介绍,您对分类变量的表示方法有了更深入的了解,可以更加灵活地运用这些方法进行数据分析和可视化展示。

祝您在数据分析的道路上取得更大的成就!第二篇示例:在统计学和数据分析中,变量通常可以分为两种类型:分类变量和数值变量。

分类变量的统计推断

分类变量的统计推断

比例
某一类别观察值数量与总数之比,用于描述各组在总体中的 比重。
百分比
比例乘以100,用于更直观地表示各组在总体中的比重。
列联表与卡方检验
列联表
将两个分类变量组合成一个表格,用 于展示两个变量之间的关系。
卡方检验
用于检验两个分类变量之间是否独立, 通过比较实际观测频数与期望频数来 评估变量之间的关联性。
适用场景
适用于描述不同群体之间的分布差异,如性别比例、城乡人口比 例等。
注意事项
比例估计需要保证样本的随机性和代表性,同时需要注意组间比 较的合理性和公平性。
风险比与优势比
估计方法
通过统计模型分析分类变量与结
果变量之间的关系,计算风险比
(relative
risk)和优势比
(odds ratio)。
分类变量的类型
1 2
品质型分类变量
表示事物的属性或特征,如性别、血型等。
顺序型分类变量
表示事物的有序类别,如评分等级、教育程度等。
3
分类型分类变量
介于品质型和顺序型之间,如星期几、月份等。
分类变量的应用场景
人口统计学
用于描述人口特征和分布,如性别、年龄、 民族等。
市场调查
用于了解消费者偏好和行为,如产品品牌、 购买渠道等。
02
随机森林具有较高的分类准确率和稳定性,能够处理高维特 征和大数据集。
03
它还提供了特征重要性和偏差估计等附加信息,有助于理解 和改进模型。
支持向量机
01
支持向量机(SVM)是一种有监督学习算法,旨在找到能够将 不同类别的数据点最大化分隔的决策边界。
02
SVM适用于线性可分和线性不可分的数据集,尤其在处理小样

初级社会统计学知到章节答案智慧树2023年哈尔滨工程大学

初级社会统计学知到章节答案智慧树2023年哈尔滨工程大学

初级社会统计学知到章节测试答案智慧树2023年最新哈尔滨工程大学绪论单元测试1.西方统计学认为近代统计学之父的是()。

参考答案:阿道夫·凯特勒2.凯特勒的国籍是()。

参考答案:比利时3.最早使用统计学这一学术用语的是()。

参考答案:国势学派4.当下我国社会学主要研究范式有哪些()。

参考答案:量化研究;理论研究;质性研究5.下列论述属于定量研究特点的是()。

参考答案:以演绎法为主要研究策略;注重研究对象的一般性特征6.定量研究就是两户研究。

()参考答案:对7.量化研究与质性研究相同。

()参考答案:错8.量化研究可以没有理论。

()参考答案:错9.量化研究就是统计学。

()参考答案:错10.社会调查资料具有随机性和统计规律性两大特征。

()参考答案:对第一章测试1.以下哪个数据不是趋势数据()。

参考答案:2000年某城市人均收入2.以下哪个变量不是定类变量()。

参考答案:家庭收入3.以下哪个变量不是定序变量()。

参考答案:性别4.以下哪个变量不是定序变量()。

参考答案:智商5.调查数据的类型()。

参考答案:;时间序列数据;纵贯数据6.变量的种类有哪些()。

参考答案:定类变量;定比变量;定序变量;定距变量7.纵观数据有哪些()。

参考答案:混合截面数据;趋势数据;面板数据8.纵观数据有哪些()。

参考答案:算术平均数;加权平均数;众数;中位数9.截面数据就是一个变量或多个变量在同一时间截点上的数据。

()对10.面板数据是一个或多个变量在多个时间截点上的非跟踪观测值,可以看到变量间关系如何随时间变化。

()参考答案:错第二章测试1.同时抛两枚硬币,则一枚正面朝上一枚背面朝上事件的发生概率是?()。

参考答案:二分之一2.二项分布的极限分布情况?()。

参考答案:泊松分布3.当正态分布取值范围为【μ-2σ,μ+2σ】时,概率值为多少?()。

参考答案:0.9544.正态分布当Z=1.6时,所占面积是总面积的多少?()。

华中科技大学卫生统计学试题3

华中科技大学卫生统计学试题3

卫生统计学》考试题库华中科技大学同济医学院公共卫生学院流行病与卫生统计学系《卫生统计学》考试题库目录第一章第二章第三章第四章第五章第六章第七章第八章第九章第十章第十一章第十二章第十三章第十四章第十五章第十六章绪论定量资料的统计描述正态分布总体均数的估计和假设检验方差分析分类资料的统计描述二项分布与Poisson分布及其应用χ2检验秩和检验回归与相关常用统计图表实验设计调查设计医学人口统计与疾病统计常用指标寿命表随访资料的生存分析附录:单项选择题参考答案第一章绪论2. 统计量(statistic) 5. 同质(homogeneity) 8. 抽样误差(sampling error)返回3. 总体(population) 6. 变异(variation)一,名词解释1. 参数(parameter) 4. 样本(sample) 7. 概率(probability) 二,单选题1.在实际工作中,同质是指: A.被研究指标的影响因素相同C.被研究指标的主要影响因素相同2. 变异是指: A.各观察单位之间的差异C.各观察单位某测定值差异较大3.统计中所说的总体是指: A.根据研究目的而确定的同质的个体之全部C.根据时间划分的研究对象的全体E.根据人群划分的研究对象的全体4. 统计中所说的样本是指: A.从总体中随意抽取一部分C.依照研究者的要求选取有意义的一部分E.以上都不是5.按随机方法抽取的样本特点是: A.能消除系统误差D.能减少样本偏性A.均不可避免C.测量误差和抽样误差不可避免E.只有抽样误差不可避免7.统计工作的基本步骤是: A.设计,调查,审核,整理资料C.设计,搜集,整理,分析资料E.以上都不对8.统计工作的关键步骤是: A.调查或实验设计是: A.这300 名高血压患者C.所有的高血压患者B.这300 名高血压患者的血压值D.所有的高血压患者的血压值2B.研究对象的有关情况一样D.研究对象的个体差异很小B.同质基础上,各观察单位之间的差异D.各观察单位有关情况不同E.以上都对E.以上都对B.根据地区划分的研究对象的全体D.随意想象的研究对象的全体B.有意识地选择总体中的典型部分D.从总体中随机抽取有代表性的一部分B.能消除随机测量误差E.以上都对C.能消除抽样误差6.统计学上的系统误差,测量误差,抽样误差在实际工作中: B.系统误差和测量误差不可避免D.系统误差和抽样误差不可避免B.收集,审核,整理,分析资料D.调查,审核,整理,分析资料B.整理分组C.收集资料D.审核资料E.分析资料9. 欲研究某种药物对高血压病的疗效,临床观察300 名病人的血压情况,确切地说,研究总体E.这种药物10.抽样误差是由: A.计算引起D.采样结果不准引起11.抽样误差指的是: A.个体值和总体参数值之差C.样本统计量值和总体参数值之差12.习惯上,下列属于小概率事件的为: A.P=0.09 A. 计量资料14.概率P 的范围: A. -1≤P≤1 三,简答题1, 统计学的基本步骤有哪些2, 总体与样本的区别与关系3, 抽样误差产生的原因有哪些可以避免抽样误差吗4, 何为概率及小概率事件B. 0<P第二章第三章一,名词解释1. 正态分布(normal distribution)定量资料的统计描述返回2. 中位数(median) 4. 方差(variance)正态分布3. 四分位数间距(quartile interval) 5. 正偏态分布(positively skewed distribution) 6. 负偏态分布(negatively skewed distribution)7. 对数正态分布(logarithmic normal distribution ) 8. 医学参考值范围(medical reference range) 二,单选题1. μ确定后,δ越大, 则正态曲线: A.越陡峭A.统计资料B. 形状不变B.等级资料C. 越平缓C.计数资料D.向左移动D.计量资料E.向右移动E.调查资料 2. 平均数可用于分析下列哪种资料: 3. 常用的平均数指标有: A.样本均数,总体均数,中位数C.算术均数,几何均数,中位数B.算术均数,总体均数,几何均数D.中位数,样本均数,几何均数3E.以上都不对4. 描述一组正态或近似正态分布资料的平均水平用: A.算术均数5. 用x = A.加权法均数, 则应: A.减一个组距D.加半个组距A.几何均数B.加一个组距E.以上均不对B.中位数C.平均数D.均数E.算术均数C.减半个组距B.几何均数B.简捷法C.中位数C.目测法D.平均数D.平均法 E.以上均是E.直接法∑ x /n 公式计算均数的方法称为:6. 用频数表计算均数时, 若以各组段下限值作为组中值计算均数, 要使所得值等于原7. 对于一组呈负偏态分布的资料,反映其平均水平应用哪个指标: 8. 用频数表法计算均数时,组中值应为: A.(本组段下限值+本组段上限值)/2 C.(本组下限值+下组上限值)/2 E.本组段的下限值9. 原始数据加上一个不为0 的常数后: A. x 不变,CV 变D. x 变,CV 不变A.均数比中位数大B. x 变或CV 变E. x ,CV 均改变B.均数比中位数小C.均数等于中位数E.以上说法均不准确D.全距E.标准差C. x 不变,CV 不变B.(本组下限值+下组下限值)/2 D.本组段的上限值10. 对于对称分布的资料来说: D.均数与中位数无法确定孰大孰小A.均数B.中位数C.几何均数B.不要求组距相等11. 血清学滴度资料最常计算_______以表示其平均水平. 12. 利用频数表及公式M=L+i/fn (n/2- fL )计算中位数时: A.要求组距相等C.要求数据呈对称分布E.要求数据呈对数正态分布B.几何均数小于算术均数D.几何均数可以大于算术均数,也可以小于算术均数D.要求变量值都比较接近A.几何均数大于算术均数C.几何均数等于算术均数E.以上说法都不对14. 原始数据同时乘以一个既不等于零也不等于1 的常数后: A. x 不变,M 变(M 为中位数)D. x 与M 都变A.四分位数间距所得的值为: A.方差B.全距C.四分位数间距D.变异系数E.标准差B.全距B. x 与M 都不变E.以上都不对 C.标准差D.变异系数E.方差C. x 变,M 不变13. 对于同一份正偏态的资料, 求得的几何均数与算术均数:15. 表示变量值变异情况的指标最常用的是: 16. 一组计量资料中,每个变量值与均数之差的平方和, 除以变量值的个数-1,再开平方417. 标准差一定: A.不比均数大A.一定小于1 B.不比均数小B.一定大于1 C.取决于均数D.比标准误小E.以上都不对18. 变异系数CV 的数值_________ C.可大于1;也可小于1D.一定不会等于零A.全距E.一定比S 小C.方差D.变异系数E.标准差19. 比较身高和体重两组数据变异度大小宜采用: B.四分位数间距20. 描述一组偏态分布资料的变异度,以______指标较好. A. R B. S2 C. Q D. S E. CV 21. 当两组(或几组)资料均数相近,度量单位相同时,标准差大的那组资料: A.均数的代表性最差C.无法据此判断出均数的代表性E.以上都不对22. 一组数据呈正态分布,其中小于x +2.58S 的变量值有: A. 5% B. 95% C. 97.5% D. 92.5% E. 99.5% 23. 若正常人血铅含量近似对数正态分布,拟用300 名正常成人血铅确定99%正常值范围,最好采用下列哪个公式: B. lg-1 ( x lgx +2.58slgx ) C. x±2.58S -1 D. P99 =L+i/f99 (300×99/100- fL ) E. lg ( x lgx +2.33Slgx ) 24. 某市120 名12 岁男孩平均身高x =143.10cm,S=5.67cm,则身高在128.24-157.96cm A. x +2.58S 范围内的理论频数最接近下列哪个值A. 114 B. 119 C. 64 D. 72 E. 96 25. 若上海市健康女工744 人血红蛋白含量的均数为12.239g%,标准差为0.998g%,则下列哪个最有理由认为是正常范围: A.11.24-11.3237 D. 10.592-13.886 三, 简答题1. 2. 3. 描述数值变量资料集中趋势的指标有哪些其适用范围有何异同描述数值变量资料离散趋势的指标有哪些其适用范围有何异同医学中参考值范围的涵义是什么确定的步骤和方法是什么B. 9.654-14.814 E.10.952-13.516 C. 10.283-14.195 B.均数的代表性最好D.均数也最大四,计算分析题1.某市100 名7 岁男童的坐高(cm)如下: 63.8 68.0 67.5 64.9 64.5 66.7 68.1 66.1 66.8 67.4 69.7 67.3 66.5 68.6 62.5 66.8 66.3 66.8 64.3 65.0 68.3 66.9 66.3 65.7 67.2 63.2 66.6 68.4 68.0 61.1 67.8 67.6 67.9 65.0 65.9 69.5 69.7 65.0 67.9 67.5 63.2 66.4 65.9 62.4 64.6 69.1 69.8 62.6 64.8 66.8 71.1 66.5 66.2 66.4 70.1 67.2564.5 68.0 68.0 67.465.7 68.2 66.7 68.567.0 63.2 65.665.1 64.6 66.870.0 64.2 67.969.6 64.5 67.664.7 65.9 70.465.8 66.6 68.464.2 69.2 64.367.3 71.2 66.065.0 68.3 67.365.0 70.8 65.667.2 65.3 66.070.2 64.2 66.9⑴编制其频数分布表并绘制直方图,简述其分布特征; ⑵计算中位数, 均数, 几何均数, 并说明用其中哪一种来表示这组数据的集中趋势为好⑶计算极差,四分位数间距,标准差,并说明用其中哪一种来表示这组数据的离散趋势为好(4)计算坐高在64.0cm 到68.0cm 范围内的7 岁男童比例. (5)计算100 名7 岁男童中坐高在64.0cm 到68.0cm 范围内的人数. 2. 用玫瑰花结形成试验检查13 名流行性出血热患者的抗体滴度,结果如下,求平均滴度. 1:20 1:160 尿铅含量例数⑴求中位数; 1:20 1:160 0~18 1:80 1:80 4~26 1:80 1:80 8~39 1:320 1:40 12~28 16~25 1:320 1:40 20~6 24~1 28~2 1:3203. 调查某地145 名正常人尿铅含量(mg/L)如下:⑵求正常人尿铅含量95%的正常值范围.第四章总体均数的估计和假设检验第五章方差分析返回一,名词解释1 标准误(standard error) 3 假设检验(hypothesis testing) 5 Ⅰ型错误(type I error) 7 检验效能(power of test) 2 可信区间(confidence interval) 4 统计推断(statistical inference) 6 Ⅱ型错误(type II error) 8 变量变换(variable transformation)二,单选题1 2 ________小,表示用该样本均数估计总体均数的可靠性大. A. CV B. S C. σ X D. R E. 四分位数间距统计推断的内容是__________. A. 用样本指标估计相应总体指标C. A,B 均不是3 4 A. 0.01 D. A,B 均是C. α=0.10 B. 检验统计上的"假设" E. 估计参考值范围D. α=0.20 E. α=0.25两样本均数比较时,分别取以下检验水准,以________所对应的第二类错误最小. B. α=0.05 方差分析中,当P<0.05 时,结果________. A. 可认为各样本均数都不相等6B. 可认为各总体均数不等或不全等C. 可认为总体均数都不相等E. 以上都不对5 变量变换的目的是_______. A. 方差齐性化D. A,B,C 均对6 B. 曲线直线化D) 证明总体均数不等或不全相等C.变量正态化E. A,B,C 均不对甲乙两人分别从随机数字表抽得30 个(各取两位数字)随机数字作为两个样本,求得2 X 1 , S12 , X 2 , S 2 ,则理论上_________.A.2 X 1 = X 2 , S12 = S 2B. 作两样本均数的t 检验,必然得出无差别的结论C. 作两方差齐性的F 检验,必然方差齐D. 分别由甲,乙两样本求出的总体均数的95%可信区间,很可能有重叠E. 以上均不是7. 在相同自由度(ν 1 ,ν 2 )及F 值时,方差齐性检验与方差分析所得的P 值_______. A. 前者大D. 前者是后者的两倍 B. 前者小E. 后者是前者的两倍C. 两者相等8. 正态性检验中,按α=0.10 水准,认为总体服从正态分布,此时若推断有错,此错误的概率为___________. A. 大于0.10 E. 1-β,而β未知9. 在正态总体中随机抽样, X μ ≥ ____ 的概率为5%. A. 1.96σ E. t 0.05 S X 10. 成组设计的方差分析中,必然有_____________. A. SS 组内< SS 组间C. MS 总= MS 组内+ MS 组间E. 以上均不对11. 配伍组设计的方差分析中,ν 配伍等于__________. A. D. B. MS 组内< MS 组间D. SS 总= SS 组内+ SS 组间B. 1.96 σ X C. 2.58 D. t 0.05 S B. 小于0.10 C. 等于0.10 D.β,而β未知ν 总ν 误差ν 总ν 处理+ ν误差大B. 小B. E.ν 总ν 处理ν 总ν 处理ν 误差C.ν 处理ν 误差12. 在相同自由度(ν 1 ,ν 2 )及α水准时,方差分析的界值比方差齐性检验的界值________. A.A. C. 相等C. SB. 增大样本均数D. 前者是后者的两倍D. CV E. 不一定13. 下面可用来说明均数抽样误差大小的是________________.σB. σ XE. 四分位数间距14. 对于一组样本来说,若标准差固定不变,可通过_______________来减少抽样误差. A. 增大样本含量C. 减小变异系数7D. 减小几何均数E. 以上都不对15. 以下关于抽样误差,正确的是____________. 抽样误差仅是由个体变异产生的,抽样造成的样本统计量与总体参数的差异A. 抽样研究中,抽样误差是可以避免的B. 对于同一总体的若干样本统计量间,也存在抽样误差C. 抽样误差的大小可用标准差来说明D. 以上均不对16. 以下关于t 分布不正确的是________. A. 在相同自由度时,|t|值越大,概率P 越小 B. 在相同t 值时,双尾概率P 为单尾概率P 的两倍C. t 分布曲线是一条曲线D. t 分布的极限分布是标准正态分布E. 标准正态分布可看作是t 分布的特例17. 以下关于可信区间,正确的是_________. A. 可信区间是包含未知总体参数的一个范围B. 可信区间包含可信区间上下限两个值C. 可信区间的确切含义是指有(1-α)的可能认为计算出的可信区间包含了总体参数D. 可信区间的确切含义也可理解是总体参数落在该范围的可能性为1-α E. 以上说法均不对18. 为了解某地 1 岁婴儿的血红蛋白浓度,从该地随机抽取了 1 岁婴儿n(<50)人,测得其血红蛋白的平均数为x ,标准差为S,则该地 1 岁婴儿血红蛋白的平均浓度的95%可信区间为__________. (总体标准差σ未知) A. C. E. 19 20 A.当两总体确有差异,按规定的检验水准α所能发现该差异的能力的是____________. α B. β C. 1-α D. 1-β E. 以上都不对设α为Ⅰ型错误的概率,β为Ⅱ型错误的概率,当两总体均数确定且抽取的样本含量不变时,有_____________. A. α增大,β减小C. α减小,β减小E. 以上均不对B. α增大,β增大D. α的改变不影响β的大小S ( X tα 2 , ∞) Sn ( X ± tα 2 ) σ n ( X ± uα 2 ) nB. D.S (∞, X + tα 2 )) S n ( X ± uα 2 ) n21在两个样本均数的假设检验中,若要同时减小Ⅰ型错误和Ⅱ型错误,则必须_____________.A. 增加样本含量D. A 和CB. 减小容许误差E. 以上都不对C. 减小总体标准差22关于假设检验,以下不对的是_______________. A. 根据样本统计量作出的推断结论具有概率性,因此其结论有可能出现判断错误8B. 当根据样本作出的结论是拒绝H0时,只可能犯Ⅰ型错误,不可能犯Ⅱ型错误C. 当根据样本作出的结论是接受H0时,只可能犯Ⅱ型错误,不可能犯Ⅰ型错误D. 当两总体确有差异时,按规定的检验水准所发现该差异的能力是βE. 以上均不对23. 关于可信区间和假设检验,不正确的是_____________. A. 可信区间可回答假设检验的问题B. 可信区间用于说明量的大小,假设检验用于推断质的不同C. 可信区间比假设检验可提供更多的信息D. 可信区间亦可回答假设检验的问题,但可信区间不可完全代替假设检验E. 以上结论均不对24. 方差分析中对数据的要求是________. A. 任何两个观察值之间均不相关B. 每一水平下的观察值分别服从总体均数为μ i 的正态分布C. 各总体的方差齐性D. A,B 和C 均对 E. B 和C 对25. 若假设检验结果为|t|≥ t 0.05(ν ) ,则说明_________________. A. 差异由抽样误差所致的概率等于或小于0.05 B. 差异由抽样误差所致的概率大于0.05 C. 差异由抽样误差所致的概率等于或大于0.05 D. 差异是由于本质上有所不同所致的概率等于或小于0.05 E. 差异是由于本质上有所不同所致的概率等于0.052 26. 要比较的两组数值型资料呈明显偏态分布, n1 , n 2 均小于30,且经统计检验σ 12 ≠ σ2 ,此时宜采用哪种检验方法A. t 检验B. u 检验 C. t′检验B. MS 组间SS 组间,则____________. A. MS 组间> SS 组内D. F≠1 A. α C. MS 组间= SS 组内28. 统计推断中,可信度是指_____________. 29. 两样本均数的比较,可用____________. A. 方差分析D. A,B,C 均可A. 用u 检验B. t 检验E. 仅A,B 都可B. 用t 检验 C. E. 用秩和检验以上均不对30. 两小样本数值变量资料比较的假设检验,首先应考虑___________ . D. 资料符合秩和检验还是t 检验的条件A. 两总体均数差别越大31. 两样本均数比较,经t 检验,差别有显著性时,P 越小,说明__________ . B. 两总体均数差别越小9C. 越有理由认为两总体均数不同E. 以上均不对32D. 越有理由认为两样本均数不同对15 名4~6 月贫血儿童用拘橼酸铁铵+维生素C 治疗前后侧的血色素含量(g%)见下表. 血色素含量治疗前1 2 … 14 15 11.5 10.7 … 9.5 10.0 B. 单因素方差分析治疗1 月10.4 11.0 … 10.1 10.5 C. t 检验E. 秩和检验治疗2 月12.0 12.0 … 12.1 11.3 治疗3 月12.0 13.0 … 13.5 12.5假定资料满足各种参数检验所要求的前提条件,那么,适合分析该资料的方法是A.χ 2 检验D. 配伍组设计方差分析三, 简答题1 2 3 4 5 6 7 8 假设检验的基本原理和步骤. 标准差和标准误的异同.参考值范围和置信区间有何区别t 检验和方差分析的基本思想各是什么二者的区别是什么t 检验和方差分析的应用条件有何异同以随机区组设计的两因素方差分析为例,简述方差分析的基本原理. 可信区间和假设检验的区别和联系. 配对t 检验与两样本t 检验的基本原理有何不同.四,计算分析题1. 将20 名某病患者随机分为两组,分别用甲,乙两药治疗,测得治疗前与治疗后一个月的血沉( mm/ 小时)如下表.试问: (1)甲,乙两药是否均有效(2)甲,乙两药的疗效是否有无差别甲,乙两药治疗前后的血沉(mm/ 小时) 病人号甲药乙药无变化101 20 16 1 19 162 23 19 2 20 133 16 13 3 19 154 21 20 4 23 135 20 20 5 18 136 17 14 6 16 157 18 12 7 20 188 18 15 8 21 129 15 13 9 20 1710 19 13 10 20 14治疗前治疗后病人号治疗前治疗后2. 胃溃疡患者12 人在施行胃次全切除术的前后,测定体重(kg)如下,问手术前后体重有患者术前术后152.5 72.5248 51.5339 40446 52.5558.5 49647.5 55749 52858 52951 50.51043 501113 411250 543. 某医师研究血清转铁蛋白测定对病毒性肝炎诊断的临床意义,测得11 名正常人和13 名病毒性肝炎患者血清转铁蛋白的含量(U/L) ,结果如下,问患者和健康人转铁蛋白含量是否有差异正常人n1=11) 260.5 271.6 ( 281.7 268.6 病毒性肝炎患者(n2 = 13) 224.4 221.7 218.8 233.8 230.9 240.7 256.9 253.0 260.7 215.4 251.8 224.7 228.3 264.1 273.2 270.8 284.6 291.3 254.8 275.94. 某地区1999 年测定了30 岁以上正常人与冠心病病人的血清总胆固醇含量, 资料如下表. 试检验正常人与冠心病病人血清总胆固醇含量的差别有无显著性. 正常人与冠心病病人血清总胆固醇(mmol/L)含量组别测定人数56 142 均数4.675.78 标准差0.88 1.18 标准误0.12 0.10正常人病人5. 为试验三种镇咳药,先以NH4OH 0.2ml对小白鼠喷雾,测定其发生咳嗽的时间,然后分别用药灌胃,在同样条件下再测定发生咳嗽的时间,并以"用药前时间减去用药后时间"为指标,计算延迟发生咳嗽的时间(秒) ,数据如下.试比较三种药的镇咳作用. 可待因60 复方 2 号50 复方1 号40 30 20 10 100 45 35 85 55 25 20 55 45 30 105 20 15 80 10 75 20 15 35 15 30 10 25 60 45 40 30 70 65 45 506. 经产科大量调查得知,某市婴儿出生体重均数为3.32kg,标准差为0.38kg,今随机测得36 名难产儿的平均体重为 3.43kg,问该市难产儿出生体重的均数是否比一般婴儿出生体重均数高7. 已知某地120 名正常成人脉搏均数为73.2 次/分, 标准差为8.1 次/分, 试估计该地正常成人脉搏总体均数的95%可信区间. 8. 请根据所给基本数据完成下列方差分析表. 分组A B C D n 8 6 5 8XS 3.543 5.329 5.431 7.46324.375 32.00 22.00 21.00方差分析表变异来源SS ν MS F11组间变异组内变异总变异第六章分类资料的统计描述返回一,名词解释1.率(rate)2.构成比(constituent ratio)3.相对比(relative ratio) 5.标化发病比(standardized incidence ratio)4.标准化率(standardized rate)6.标化死亡比(standardized mortality ratio) 二,单选题1.某医院的资料,计算了各种疾病所占的比例,该指标为: A.发病率A.相对比B.构成比B.流行率C.相对比C.构成比D.标化发病率D.罹患率E.标化发病比 E.标化流行率2.男性吸烟率是女性的10 倍,该指标为: 3.对两地的高血压患病率进行标准化,仅有两地各年龄组人口数和总患病率资料, 可采用的标准化方法为: A.直接法A.直接法A.某病病死率A.直接法7.SMR 为: A.实际死亡数/预期死亡数C.实际发病数/预期发病数E.以上都不是8.SIR 为: A.实际死亡数/预期死亡数C.实际发病数/预期发病数E.以上都不是9.间接标准化法计算标化死亡率是: A. SIR×标准人口死亡率C. SMR×标准人口死亡率B. SIR×标准人口总数D. SMR×标准人口总数B.预期死亡数/实际死亡数D.预期发病数/实际发病数B.预期死亡数/实际死亡数D.预期发病数/实际发病数B.间接法B.间接法C.倒求法C.倒求法D.等比法D.等比法指标. D.某病构成比E.以上都不是E.以上都不是方法计算标化死亡率. D.等比法C.某病死亡率E.以上都不是E.以上都不是4.只有各年龄组的发病率资料,用方法计算标化发病率.5.欲反映某种疾病对人群的威胁程度,计算B.某病患病率B.间接法C.倒求法6.各年龄组人口数和死亡率资料均有,最好用12E. 以上都不是10.间接标准化法计算标化发病率是: A. SIR×标准人口发病率C. SMR×标准人口死亡率E. 以上都不是11.对甲乙两县的死亡率进行标准化,若两县均有各年龄组死亡率,最好选择标准进行标化. A.两县各年龄组人口数合并C.乙县的人口构成资料 E.以上都不是12. 观察何种疾病死因是造成当地居民死亡的主要死因,用A. 死亡率D. 某病病死率A.发病率B.罹患率B.死因构成比E.生存率C.患病率D.二代罹患率E.感染率C.疾病别死亡率B.甲县的人口构成资料D.全国或省人口普查所得的人口构成为B. SIR×标准人口总数D. SMR×标准人口总数13. 衡量爆发性疾病发病的频度用14. 某厂男职工370 人,女职工456 人,慢性苯中毒人数男女分别为8 和10 人, (456/370)×100%为A.率三,简答题1.某地1956 年婴儿死亡人数中死于肺炎者占总死亡数的16%,1976 年则占18%,某医师认为该地20 年来对婴儿肺炎的防治效果不明显.你同意他的观点吗为什么2.已知甲乙两矿总职工数分别为20856 人和3911 人,甲矿工龄0.05E. Fisher 精确检验C. P=0.01 D. P0.0522.在四格表χ 检验中,若χ 值为6.86,则B. P0.4.当随机样本含量n=10,阳性18数X=6 时,为作统计推断应将概率p=________与检验水准α比较. A. p(X=6) B. p(X=6)十p(X=7)十…十p(X=10) C. p (X=7)十p(X=8)十…十p (X=10) D. p(X=6)十p(X=5)十…十p(X=0) E. p(X=5)十p(X=4)十…十p(X=0) 37.在样本率p与总体率π0比较时,用近似正态u 检验的条件是________. A. 样本含量n较大,总体率π0接近0.5 B. 样本含量n较大,总体率π0接近1 C. 样本含量n 较大,样本率p 接近0.5 D. 样本含量n 较大,样本率p 接近1 E. 样本率p 不太小38.从甲,乙两文中,查到同类研究的两个率比较的四格表资料,其χ 检验甲文χ >χ 0.01(1), 乙文χ >χ 0.05(1),可认为________. A. 两文结果有矛盾D. 甲文结果不可信B. 两文结果基本一致E. 甲文说明总体的差别大2 2 2 2 2 2 2C. 甲文结果更可信39.四个样本率作比较,χ >χ 0.01(3),可认为________. A. 各总体率不等或不全相等C. 各样本率均不相等40.四格表的自由度________. A. 不一定等于1 D. 等于样本含量减 12B. 各总体率均不相等D. 各样本率不等或不全相等E.两个总体率相等B. 一定等于1 E. 以上都不对B. χ ≤12 2C. 等于行数×列数41.χ 值的取值范围为________. A.一∞<χ <十∞2 2 2 2 2 2 2C. 0≤χ ≤十∞2D.χ ≥12E. —∞≤χ ≤0242. 当自由度不变时,关于χ 值与P值的关系,下列哪一项是正确的A. χ 值越大,P值越大. B. χ 值越大,P值越小. C. χ 值变化时,P值不变. D. χ 值变化时,P值变大或变小. E. χ 值变化时,P 值可能变化也可能不变. 43.在χ 检验中,自由度的计算为A. R×C B. n2C. n-1 B. b+c<40D.(R-1)×(C-1) C. T<1 或n5 且n>40E. 正态性检验E. b+c>4044.作四格表χ 检验时,需进行连续性矫正的条件是A. 1二,分析计算题191.试就下表资料分析比较甲,乙两医院乳腺癌手术后的5 年生存率(%). 甲,乙两医院乳腺癌手术后的5 年生存率(%) 腋下淋巴结转移无有合计病例数45 710 755 甲医院生存数35 450 485 生存率77.77 68.38 64.24 病例数300 83 383 乙医院生存数215 42 257 生存率71.67 50.60 67.102.已知某药的治愈率为60%.现欲研究在用此药的同时加用维生素C 是否有增效作用,某医生抽取10 名病人试用此药加用维生素C,结果8 人治愈,请作统计推断. 3.欲了解A,B 两地妇女的乳腺癌患病率是否相同,分别从两地抽样调查 1 万妇女,结果A 地患病人数为80 人,B 地102 人.请作统计分析.若A 地调查2 万名妇女,160 人患病,B 地调查1 万名妇女,102 人患病,则统计结论是什么. 4.按国家规定平均每毫升饮用水中的细菌数不得超过100 个, 现从某饮用水随机抽取2 毫升水测得细菌215 个,问该水源是否符合饮用水的国家卫生标准. 5.按国家规定平均每升饮用水中的大肠菌数不得超过 3 个, 现从某饮用水随机抽取1 升水测得大肠菌4 个,问该饮用水是否符合饮用水的国家卫生标准. 6.根据下表数据,试比较使用含氟牙膏与使用一般牙膏者的患龋率有无不同使用含氟牙膏与使用一般牙膏者的患龋率牙膏类型含氟牙膏—般牙膏合计调查人数200 100 300 患龋齿人数7050 120 患龋率(%) 35 50 407.某卫生防疫站在中小学观察三种矫正治疗近视眼措施的效果, 近期疗效数据见下表. 结论为"近期疗效以"夏天无"眼药水为最好,眼保健操次之,新医疗法最差" .试对此说法作出分析评价. 三种措施的近期有效率(%) 矫正方法"夏天无"眼药水新医疗法眼保健操存在一定的关系冠心病诊断结果与眼底动脉硬化级别的关系眼底动脉硬化级别0 ⅠⅡ正常340 73 1820观察例数135 32 18近期有效率(%) 37.78 18.75 27.788.某厂在冠心病普查中研究冠心病与眼底动脉硬化的关系, 资料整理如下. 问两者之间是否冠心病诊断结果可疑11 13 18 冠心病6 6 133合计357 92Ⅲ合计2 5131 446 31 5889.用两种方法检查已确诊的乳腺癌患者120 名.甲法的检出率为60%,乙法的检出率为50 %,甲,乙两法一致的检出率为35%,试问两种方法何者更优10.在某克山病区作中小学生心肌受损情况检查,277 名男生中检出率为48.74%, 147 名女生中检出率为57.10%,问男女生心肌受损率是否不同11.用某种化学物质进行诱发肿瘤试验,实验组15 只小白鼠中 4 只发生癌变,对照组10 只无一只发生癌变,问两组发癌率有无差别三,简答题 1. 二项分布,Poisson 分布与正态分布间有何关系 2. χ 检验的应用条件有哪些3. χ 检验用于解决哪些问题4. 四格表的u检验与χ 检验有何异同5. 请列举R×C表χ 检验的注意事项. 6. R×C 行列表与R×C双向有序分类列联表χ 检验的区别是什么7.某医生观察某新药预防流感的效果,并用四格表专用公式计算出χ =6.63,P=0.01.问: (1)此表的四个基本数字a,b,c,d 各等于多少(2)你对此有何看法某新药预防流感的效果分组服药组未服药组观察人数180 230 未发病130 190 有效率(%) 72.2 82.62 2 2 2 2 2第十章一,名词解释1,自变量(independent variable) 2,因变量(dependent variable)回归与相关返回3,简单相关分析(simple correlation analysis) 4,简单线性回归分析(simple linear regression analysis) 5,偏相关分析(partial correlation analysis) 6,多元线性回归分析(multivariate linear regression analysis ) 7,最小二乘法(least square method) 8,Pearson 相关分析(Pearson correlation analysis) 9,Spearman 相关分析(Spearman correlation analysis) 10,确定系数(determinant coefficient)21二,单选题1,相关系数检验的无效假设H1是.__________ A. ρ>0, B. ρ=0, C. ρ=1, D. ρ≠0 2,由样本计算两个随机变量x 和y 之间的简单相关系数r 的值近似等于零,经统计检验得到p=0.90.作结论时,正确的表述应该是__________.. A. x 与y 之间呈直线关系C. x 与y 之间没有直线关系A. SS 剩=SS 回C SS 总=SS 回A. r>0,b0,b>0 A. b=1 C. SS 剩=0 A. n C. n-2 A. 配对比较的t 检验C. 相关分析或回归分析A. 样本斜率B. 总体斜率B. x 与y 之间呈曲线关系D x 与y 之间毫无关系B. SS 总> SS 剩D. SS 剩< SS 回B. r0 D. r=b。

《社会调查研究》综合练习题(六)及参考答案

《社会调查研究》综合练习题(六)及参考答案

《社会调查研究》综合练习题(六)参考答案第十章资料整理一、填空题:1、感性理性2、实地源文献源3、准确性适用性4、前分类后分类5、系统完整6、数据定量7、资料是否符合实际符合实际计算是否正确8、资料编码资料录入二、选择题1、CDE2、CDEF3、A4、ABCF5、BCE6、ACDF三、名词解释(略)四、简答题2.对文字资料分类应注意哪些问题?答:一般来说,在对资料进行分类的时候,应当注意以下几点:第一,按照调查要求分类。

对于同样的资料,根据不同的标准会有差异很大的多种分类。

具体在研究中采用哪一种的分类方式,完全取决于调查者的需要;第二,不重不漏,即每两个分类之间必须是穷尽所有的可能,又不能使任何两个分类之间存在交叉;第三,必须对变量进行完整的定义,语言必须准确。

对于所使用的语言,应尽量规范化,符合一般人的理解,不应当出现歧义;第四,对分类划分的详细程度要把握得当,就是在分类的粗细之间找到一个平衡点。

3.怎样进行数字资料的分组?答:对数字资料进行分组一般有如下三个步骤:(1)选择分组标志分组标志就是分组的标准或者依据,一般作法是按照质量、数量、空间、时间这四个指标进行分组。

在一些比较复杂的问题中,我们还可以用以上四种基本标志组合出其它多种复合标志。

(2)确定分组界限分组界限是指划分组与组之间的边际。

分组界限包括组数、组距、组限、组中值等内容。

在很多情况下,组中值可以作为该组的代表值。

(3)编制变量数列变量即各个标志的具体数值。

编制变量数列实际上就是把各数值归入适当的组内。

分组完成后,就可以按照质量、数量、空间、时间这四个指标编制变量数列。

五、问答题和应用题制作一个数字资料统计表。

提示:统计表的要素必须完整。

横标目和纵标目不得少于5项。

内容自定。

第十一章资料分析一、填空题1.定性分析理论分析2.描述性分析推论性分析3.中位数众数4.标准差系数四分位差5.SPSS Excel 6.识别属性要素分析7.矛盾现象和本质8.证实证伪9.指标比较对象10.参数估计假设检验11.一元线性多元线性12.聚类分析法综合指数法二、选择题1.ACDE 2.D 3.A 4.D 5.D 6.A 7.C 8.ABCE 9.C三、名词解释(略)四、问答题2.资料定量分析主要有哪些类型?其中哪些属于单变量分析,哪些属于双变量分析、多变量分析?答:资料定时分析按照性质可以分为两类,一类是对初步整理后的数据进行数学分析,并用统计量对这些资料进行描述,人们称其为描述性分析;另一类是在随机抽样调查的基础上,根据样本及相关资料,对总体进行推断,人们称其为推论性分析、双变量分析和多变量分析三类。

无序多分类变量模型

无序多分类变量模型
–抽烟习惯与健康状况的调 查研究
–Stata数据库:smoking.dta
无序多分类变量模型 (Models for Nominal
Outcomes)
时间
• 无序多分类变量:如果一 个变量有两个以上的类别, 但是这些类别不具有等级, 因此无法按照顺序排列出 高低先后,这就是无序多 分类变量
27
• 例如,受访人的政治面貌 可分为「中共党员」 、 「民主党派」 、与「无党 派」。工作单位性质可分 为「党政机关」,「国有 企业」 ,「集体企事 业」 ,「个体经营」 , 「三资企业」 ,以及「其 他企业」
39
• Hypothesis Testing – 置信区间,临界值,p 值检定 法
– Because the dependent variable in MNLM involves more than one categories, testing groups of coefficients is required
有序多分类变量模型
(Models for Ordinal Outcomes)
• 如果变量具有两个以上的类 别,虽然类别间的距离是未 知数,但是这些类别具有大 小或高低等级,可以依序排 列,即为有序多分类变量
2
• 例如,收入可分为「上等水 平」,「中等水平」与 「下 等水平」。在抽样调查研究 中,选项包括「非常同意」, 「比较同意」,「不太同 意」,与「很不同意」。
35
• 当依变量有三个类别时,但 是实际的计算上我们只须两 个模型即可,因为
ln a ln a ln b , 即
b
ln PPrM rP((||xx)) ln P PrrW M ((||xx))
P P r|(x)
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

率的标准误
(standard error of rate)
样本率的标准差叫做率的标准误,以
p
(1 )
n
表示。它是描述率的抽样误差
大小的指标,反映含量相同的样本率的离散
趋势或变异程度。σp越大,说明样本率p的 波动范围越大或率的抽样误差越大。实际应
用中, π常属未知,无法计算σp,故常以
sp
动态数列的分析指标
一、绝对增长量 1、累计增长量:固定某年为基数,各年与之相减; 2、逐年增长量:以前一年为基数,相邻的后一年与 之相减。
二、发展速度和增长速度 1、定基比:固定某年为基数,各年与之相比; 2、环比:以前一年为基数,相邻的后一年与之相比。 增长速度=发展速度-1(或100%)。
三、平均发展速度和平均增长速度 1、平均发展速度(环比发展速度的几何均数)= n√an / a0 。 2、平均增长速度=平均发展速度-1(或100%)。
实际发生的例数与可能发生该现象的 总数之比,用以说明某现象发生的强 度或频率,故又称频率指标。根据不 同需要选用适当的比例基数。
某现象实际发生的例数
率=
× 比例基数
可能发生某现象的总数
率的特点
1、真正的率:分子是分母的一部分,其数值在0到1之间 变动,它们是概率的估计值,符合二项分布,可以计 算可信区间和进行差别的假设检验;
在某一时点(或某短时期内),平均每 百(或千、万、十万等)受检查人数中 发现正患病的人数,常用于估计某病对 居民危害的严重程度。其与发病率的主 要区别在于它是从时点断面来观察疾病 的频率。
正患疾病的病例数
患病率=
× 比例基数
受检查人数
死亡率
(death rate,mortality rate)
死亡率是反映一个地区居民死亡水平
pc
S p1 p2
X1 X2 n1 n2
n1
pc (1 pc
p1 n2 p2
)(
1 n1
n1 n2
1 n2
)
样本率与总体率比较的计算公式
《正态近似法》使用条件:
np 和n(1- p)均大于5时
计算公式:
p
u
0
p
p 0
(1 )
0
0
n
两个样本率的比较计算公式
《正态近似法》使用条件:
n1p1 和n1(1- p1)与 n2p2 和n2(1- p2)均 >5
计算公式:
u p1 p2
p1 p2
发病率
(incidence rate)
发病率是衡量疾病发生的频率指标,
指在一定时期(年度、季度、月份等)内 平均每百(或千、万等)人口中,某病发 生的新病例数,常用于研究疾病发生的因 果和评价预防措施的效果。
某期新发病例数
发病率=
×比例基数
同期平均人口数
患病率
(prevalence rate)
患病率又称现患率或流行率,是指
总体率的区间估计
1、查表法:百分率的可信区间
n≤50,p很小或很大,按二项分布原理,表中 x值只列出x≤n/2部分,当x>n/2时,以n-x查表,
然后100减去查表得数值即为所求可信区间。
2、正态近似法: p u S p
np和n(1-p)>5,p的抽样分布逼近正态分布。
3、注意:如果计算获得的可信区间下限小于0%, 上限大于100%,则将下限直接定为0%,上限直接 定为100%。
计算标准化率的步骤
1、根据现有数据的条件选用直接 法或间接法
2、选定标准:标准组应有代表 性、稳定、数据量较大的人群
3、应用公式计算 4、必要时,做标准化率假设检验
计算标准化率的标准选择
1、选用较稳定的、有代表性的、来自较大 人群的、最好是全国标准年龄组别人口 数(或年龄构成)或年龄组别死亡率作 为需要比较的各组资料的共同标准;
3、分子可以重复计算的率:计算发病率,若以开始时的 暴露人数为分母,每个人在这一段时间内只能是一个 新病例,其为真正的率。如若每个人在一段时间内可 以是多个新病例,虽然分子是分母的一部分,但进行 了重复计算,不服从二项分布,亦不能计算可信区间 和进行差别的假设检验。
率与构成比的比较

构成比
概念 发生的频率或 各组成部分所占的
的指标,指在一年内平均每千人口中的
死亡人数。总死亡率又称粗死亡率 (crude death rate),其大小受当地 人口、年龄、性别等因素的影响,故需 标化后才能进行比较。
某年死亡人数
死亡率=
×1000‰
同期平均人口数
病死率
(fatality rate)
病死率是衡量疾病预后的指标,
指平均每百(或千、万等)名病人中死 亡人数,即指某病患者中因该病死
第四节 两个率差别的统计意义
(u检验)
率的假设检验
(hypothesis test of rate)
判断样本率p与总体率π之 间或样本率与样本率之间的差别 在统计上有无显著性意义,即判 断这种差别是来自于抽样误差还 是本质上存在的方法称为率的假 设检验。常用率的假设检验方法 有:u检验、 χ2检验等。
(2) 关系指标:指两个有关的、但非同类事物 的数量的比,如医护人员数与医院年平均病 床开出数之比。
(3) 计划完成指标:说明计划完成的程度,常 用实际数达到计划数的百分之几或几倍表示, 如某社区居民健康档案建档完成情况。
动态数列
(dynamic series)
动态数列是指一系列按时间顺 序排列起来的统计指标(包括绝对 数、相对数及平均数等)。它说明 事物在时间上的变化或发展趋势。 按时间特点可以分为时点动态数列 和时期动态数列;按基数特点可以 分为定基比和环比。
总体率π的95%可信区间:p±1.96Sp 总体率π的99%可信区间:p±2.58Sp
2、小样本——查表法(参照有关书籍) 适用条件: n较小,如n≤50,特别是p接近0或1 方法:根据样本阳性数x及样本例数n,直接查二项分布参数 π的 可信区间表
(三)用率的标准误进行两个率差别的假设检验——u检验
相对数:是两个有关联的数值或指 标之比。常用的相对数有率、构 成比和相对比。
构成比
(percentage)
构成比是表示事物内部各构成部
分分别占总体的比重或分布,通常以
100为比例基数,故又称百分比,用 以说明事物内部的构成。
事物内部某构成部分个体数
构成比=
×100%
事物内部各构成部分个体数总和
构成比的特点
2、把被比较的两组(或几组)资料中,各 年龄组人口数加在一起组成一个新的人 口构成作为共同标准;
3、在相互比较的两组(或几组)资料中, 任选其中一组的年龄组别人口数或年龄 组别死亡率作为共同标准。
直接标化法
适用条件和计算公式:
已知被标化组各小组的死亡率,
已知标准组年龄别人口数时:
p N i pi
无序分类变量资料的描述方法:
1、统计指标(相对数指标) ⑴、构成比 ⑵、率 ⑶、相对比 ⑷、动态数列
2、统计表、统计图
第一节 常用相对指标的 种类及其定义
绝对数和相对数
绝对数:调查或实验研究中清点分 类变量资料得到的数据。它是研 究客观事物或现象本质的基本信 息,但不便于相互比较和寻找事 物间的联系。
强度
比重
强调点 随机发生事件
资料获得 特点
较难 不一定
各部分的构成 容易
合计为100%
相对比
(relative ratio)
相对比是两个有关的数据 或指标之比,表示两者的相对 水平。样本相对比表示为R= 甲/乙。习惯上当甲>乙时用 倍数表示,当甲<乙时用百分 数表示。
常用的相对比指标
(1) 对比指标:指两个同类事物某种指标(绝对 数、两个率或其他同类指标)的比,如人口 普查的男女性别比。
N
已知标准组年龄别人口构成比时:
p
(
Ni N
) pi
间接标化法
适用条件:已知被标化组人群 年龄别人口数、总死亡数,以及标 准组的年龄别死亡率。
计算公式:
p P • r P • SMR
ni Pi
标准化时应注意的问题
1、比较两个(或多个)总率或总均数时,要求内 部构成相同,若内部构成明显不同,需作标准 化处理,以使对比组之间具有可比性;
1、分子是分母的一部分,其数值在0到 1之间变动,它们是概率的估计值, 符合二项分布,可以计算可信区间和 进行差别的假设检验;
2、事物内部各组成部分的构成比之和 为100%或1;
3、事物内部某一组成部分的构成比发 生了变动,其它组成部分的构成比也 必然发生相应的变动。
率(rate)
率是表示某现象在一定条件下,
第二节 率的标准化法
标准化率
(standardized rate)
标准化率简称标化率,又称调整率 (adjusted rate)是由于客观的和已知 的影响因素,如年龄、性别、工龄等, 可以影响率的大小。若比较两个或多个 总率时,这些因素应齐同一致。如果这 些因素不一致,应对率进行标准化,即 选取某个标准组,作为影响因素的标准 人口或标准人口构成,把被比较的率按 标准组的人口数或人口构成进行调整, 算得的率称为标准化率。
p(1 n
p)
作为σp 的估计值。
率标准误的应用
(一)说明率的抽样误差大小及样本率的可靠性,表示为p±Sp。 (二)率的标准误结合样本率p推断总体率π的可信区间
1、大样本——正态近似法
适用条件:n足够大,且p和(1-p)均不太小,如np或
n(1-p)均≥5,样本率p的抽样分布近似服从正态分布。 方法:
2、比较两个(或多个)标准化率,应选用同一个 标准,选用的标准不同,算得的标准化率也不 同,因此,标准化率只反映对比资料间的相对 水平,不能反映某现象发生的实际水平;
相关文档
最新文档