第八章 调查资料的统计分析
第八章 数据的收集与整理
第八章数据的收集与整理1 数据的收集收集数据的方法(1)调查或试验:通过设计等方式得到想要的信息,然后对数据进行整理、描述.(2)查资料:当调查或试验项目很大,我们个人无法完成时,还可以通过查阅报纸、相关文献或上网的方式,获得数据信息.数据的收集[典例]在数学、外语、语文3门学科中,某校七年级开展了同学们最喜欢学习哪一门学科的调查.(七年级共有200人)(1)调查的问题是什么?(2)调查的对象是谁?(3)在被调查的200名学生中,有40人最喜欢学语文,80人最喜欢学数学,60人最喜欢学外语,其余的人选择其他,根据调查情况,把七年级的学生最喜欢学习某学科的人数及其占学生总数的百分比填入下表:(4)根据以上调查结果,你能得到什么结论?[变式1]某学校课外活动小组为了解同学们最喜欢的电影类型,设计了如下调查问卷(不完整):准备在“①国产片,②科幻片,③动作片,④喜剧片,⑤亿元大片”中选取三个作为该问题的备选答案,选取合理的是( )A.①②③B.①③⑤C.②③④D.②④⑤[变式2]某校篮球队员的身高(单位:cm)如下:167,168,167,164,168,168, 163,168,167,160.获得这组数据所用的方法是( )A.问卷调查B.查阅资料C.实地调查D.试验[变式3]小明调查全班45名同学对绘画的喜欢程度,其结果如下:A B B B D B B A B B B D A B BB A B B BC A BD C B B C B CB C B A C B C D B C C A C C A其中A代表特别喜欢,B代表比较喜欢,C代表无所谓,D代表不喜欢. 请填写表格(百分比四舍五入精确到个位).全班同学对绘画喜欢程度的人数分布表[变式4]有关部门规定:初中学生每天的睡眠时间不得少于9 h,请对你班的同学作一次调查,了解有多大比例的学生每天睡眠不足9 h.(1)调查的问题是什么?(2)调查的对象是谁?(3)共调查多少人?每天睡眠时间不足9 h的有多少人?占多大百分比?2 普查和抽样调查1.普查、总体、个体为某一特定目的而对所有考查对象进行的全面调查叫做,所要考察对象的全体称为,而组成总体的每一个考察对象称为.2.抽样调查、样本、样本容量从总体中抽取部分个体进行调查,这种调查称为,其中从总体抽取的一部分个体叫做总体的一个,样本中个体的数量叫做.总体、个体、样本[典例1]下列抽样调查中的总体、个体、样本分别是什么?(1)为了让学生了解环保知识,增强环保意识,某中学举行了一次“环保知识竞赛”,共有900名学生参加了这次竞赛.为了了解本次竞赛的成绩情况,从中抽取了50名学生的成绩进行统计分析.(2)为了了解一批灯泡的使用寿命,从中抽取30只灯泡进行试验.[变式1]某市今年共有7万名考生参加中考,为了了解这7万名考生的数学成绩,从中抽取1 000名考生的数学成绩进行统计分析.以下说法正确的有( )①这种调查方式是抽样调查;②7万名考生是总体;③每名考生的数学成绩是个体;④被抽取的1 000名考生的数学成绩是总体的一个样本;⑤1 000名考生是样本容量.A.1个B.2个C.3个D.4个普查和抽样调查[典例2]下面调查中,最适合采用普查的是( )A.对全国中学生视力状况的调查B.了解某市八年级学生身高情况C.调查人们垃圾分类的意识D.对某飞船零部件的调查[变式2]下列调查中,最适合采用抽样调查方式的是( )A.对某飞机上旅客随身携带易燃易爆危险物品情况的调查B.对国产航母各零部件质量情况的调查C.对某中学八(1)班数学期末成绩情况的调查D.对全国公民知晓某电视节目的调查[变式3]下列调查中,哪些是用全面调查的方式,哪些是用抽样调查方式来收集数据的?(1)为了了解所在班级的每名同学的身高,在全班范围内进行调查.(2)为了了解所在班级的同学每天的学习时间,选取班级中学号为单号数的所有同学进行调查.(3)为了了解某奶牛场中500头奶牛的产奶量,从中抽取出50头进行分析测量.3 数据的表示第1课时扇形统计图1.扇形统计图是利用圆和扇形来表示和的关系,扇形的大小反映部分占总体的百分比的大小.2.在扇形统计图中,每部分占总体的百分比等于该部分所对应扇形的圆心角的度数与的比.3.扇形统计图可以直观地反映各部分在总体中所占的.4.扇形统计图中各部分所占的百分比之和应等于.5.绘制扇形统计图的一般步骤(1)计算各部分数量占总量的百分比;(2)计算圆心角的度数;(3)画出各个扇形;(4)标上名称.扇形统计图的绘制[典例1]体育老师对六(1)班学生最喜爱的体育项目进行了调查,结果如表所示:请你根据以上数据画出扇形统计图.[变式]以“月球上是否有水”为例,对育才中学七(1)班60名同学的调查结果如表所示:请根据上述调查结果,回答下列问题.(1)计算每种看法的同学人数占全体同学人数的百分比;(2)计算扇形统计图中各种看法对应扇形的圆心角度数;(3)在圆中依次画出各种看法对应的扇形,并标上百分比(如图所示).扇形统计图与条形统计图的综合[典例2]学习了统计知识后,小亮的数学老师要求每名学生就本班同学的上学方式进行一次调查,如图所示是小亮通过收集、整理数据后绘制的两幅不完整的统计图,请根据图中提供的信息,解答下列问题:(1)该班共有名学生;(2)将条形统计图补充完整;(3)在扇形统计图中,求出“乘车”部分所对应的圆心角的度数.第2课时频数直方图1.当遇到大量数据或数据连续取值时,我们通常先将数据适当分组,然后可以制作直方图直观地反映整体状况.2.制作频数直方图的大致步骤(1)确定所给数据的和;(2)将数据适当;(3)统计每组中数据出现的;(4)绘制.绘制频数直方图[典例1]某地某月1~20日中午12时的气温(单位:℃)如下:22 31 25 15 18 23 21 20 27 1720 12 18 21 21 16 20 24 26 19 (1)将频数分布表补充完整:(2)补全频数直方图;(3)根据频数分布表或频数直方图,分析数据的分布情况.[变式]如图所示是某校八(2)班学生的一次体检中每分心跳次数的频数分布直方图(次数均为整数).该班李红同学参加了此次体检,她心跳每分68次,有下列说法:①李红每分心跳次数落在第1小组;②第3小组的频数为0.15;③每分心跳次数低于80次的人数占该班体检人数的3.4其中正确的是( )A.①②B.①③C.②③D.①②③扇形统计图与频数直方图[典例2]某学校就假期“平均每天与父母一起共同干家务所用时长”进行了调查,如图所示是根据相关数据绘制的统计图的一部分,根据上述信息,回答下列问题:(1)在本次随机抽取的样本中,调查的学生人数是多少?(2)求m,n的值.(3)补全频数分布直方图.(4)若该校共有学生3 000人,请你估计“平均每天与父母一起共同干家务所用时长不少于30 min”的学生大约有多少人.4 统计图的选择1.三种常用统计图生活中常用的统计图有统计图、统计图和统计图,频数直方图是特殊的统计图.2.各种统计图的特点(1)条形统计图能清楚地表示出每个项目的.(2)折线统计图能清楚地反映事物的.(3)扇形统计图能清楚地表示出各部分在总体中所占的.统计图的选择[典例1](2021盘锦)空气是由多种气体混合组成的,为了直观地介绍空气各成分的百分比,最适合使用的统计图是( )A.条形统计图B.扇形统计图C.折线统计图D.频数分布直方图[变式1]要反映某市一周大气中PM2.5的变化情况,最宜采用( ) A.条形统计图 B.扇形统计图C.折线统计图D.频数分布直方图[变式2]某校食堂有甲、乙、丙三种套餐,为了解哪种套餐更受欢迎,随机调查了该校200名学生,根据调查数据绘制统计图,为了更直观地表示出喜欢每种套餐的具体人数,应选择( )A.条形统计图B.折线统计图C.扇形统计图D.无法确定统计图的综合应用[典例2]某校数学实践小组就近期人们比较关注的五个话题:A.5G通讯; B.民法典;C.北斗导航;D.数字经济; E.小康社会,对某小区居民进行了随机抽样调查,每人只能从中选择一个本人最关注的话题,根据调查结果绘制了如图所示的两幅不完整的统计图.请结合统计图中的信息,解决下列问题:(1)在这次活动中,被调查的居民共有人;(2)将最关注话题条形统计图补充完整;(3)最关注话题扇形统计图中的a= ,话题D所在扇形的圆心角是度;(4)假设这个小区居民共有10 000人,请估计该小区居民中最关注的话题是“民法典”的人数.[变式3]在某次疫情发生后,根据疾控部门发布的统计数据,绘制出如图所示统计图:图①为A地区累计确诊人数的条形统计图,图②为B地区新增确诊人数的折线统计图.(1)根据图①中的数据,A地区星期三累计确诊人数为,新增确诊人数为.(2)已知A地区星期一新增确诊人数为14人,在图②中画出表示A地区新增确诊人数的折线统计图.(3)你对这两个地区的疫情进行怎样的分析、推断?参考答案:第八章数据的收集与整理1 数据的收集(1)调查问卷[典例]解:(1)调查的问题:在数学、外语、语文3门学科中,你最喜欢学习哪一门学科?(2)调查的对象:该校七年级的全体同学.(4)该校七年级学生最喜欢学习外语的人数最多(答案不唯一).[变式1]C [变式2]C[变式3]解:填表如下:全班同学对绘画喜欢程度的人数分布表[变式4]解:(1)调查的问题:了解有多大比例的学生每天睡眠不足9 h.(2)调查的对象:本班所有学生.×100%=40%.(根据实际情(3)共调查45人,每天睡眠时间不足9 h的有18人,所占百分比为1845况作答即可)2 普查和抽样调查1.普查总体个体2.抽样调查样本样本容量[典例1]解:(1)总体是900名学生参加这次竞赛的成绩,个体是每一名学生参加这次竞赛的成绩,样本是被抽取的50名学生参加这次竞赛的成绩.(2)总体是这批灯泡的使用寿命,个体是每只灯泡的使用寿命,样本是被抽取的30只灯泡的使用寿命.[变式1]C[典例2]D [变式2]D[变式3]解:(1)为了了解所在班级的每名同学的身高,在全班范围内进行调查.属于全面调查.(2)为了了解所在班级的同学每天的学习时间,选取班级中学号为单号数的所有同学进行调查.属于抽样调查.(3)为了了解某奶牛场中500头奶牛的产奶量,从中抽取出50头进行分析测量.属于抽样调查.3 数据的表示第1课时扇形统计图1.总体部分2.360°3.比例4.1[典例1]解:学生总数为18+15+12+9+6=60.最喜爱各体育项目学生人数所占的百分比:篮球:18÷60×100%=30%;乒乓球:15÷60×100%=25%;足球:12÷60×100%=20%;排球:9÷60×100%=15%;其他:6÷60=10%.最喜爱各体育项目学生人数所对应扇形圆心角的度数:篮球:360°×30%=108°;乒乓球:360°×25%=90°;足球:360×20%=72°;排球:360×15%=54°;其他:360×10%=36°.画扇形统计图如图所示.[变式]解:(1)认为“有水”:15×100%=25%;60认为“没有水”:27×100%=45%;60×100%=30%.“不知道”:1860(2)认为“有水”:360°×25%=90°;认为“没有水”:360°×45%=162°;“不知道”:360°×30%=108°.(3)如图所示:[典例2]解:(1)50(2)50-25-15=10(人),补全的条形统计图如图所示.=108°.(3)360°×1550答:“乘车”部分所对应的圆心角的度数为108°.第2课时频数直方图1.频数2.(1)最大值最小值(2)分组(3)次数(4)频数直方图[典例1]解:(1)补充完整的频数分布表如下:划记(2)补全频数直方图如图所示:(3)由频数分布直方图,知气温在17≤x<22的天数最多,有10天.(答案不唯一)[变式]B[典例2]解:(1)在本次随机抽取的样本中,调查的学生人数是60÷30%=200(人).(2)因为20~30 min的人数为200-(60+40+50+10)=40(人),所以m%=40×100%=20%.200×100%=25%.n%=50200所以m=20,n=25.(3)补全的频数分布直方图如下:=900(人).(4)3 000×50+10200答:估计“平均每天与父母一起共同干家务所用时长不少于30 min”的学生大约有900人.4 统计图的选择1.条形折线扇形条形2.(1)具体数目(2)变化情况(3)百分比[典例1]B [变式1]C [变式2]A[典例2]解:(1)200(2)补全的条形统计图如图所示.(3)2536(4)10 000×30%=3 000(人).答:该小区居民中最关注的话题是“民法典”的人数大约有3 000人.[变式3]解:(1)4113(2)分别计算A地区这一周每一天的“新增确诊人数”为14,14,13,16,17,14,14.绘制的折线统计图如图所示.(3)A地区的累计确诊人数可能还会增加,防控形势十分严峻,并且每一天的新增确诊人数在13人及13人以上,变化不明显;而B地区的“新增确诊人数”不断减少,疫情防控向好的方向发展,说明防控措施比较到位.(答案不唯一)。
社会调查研究方法 第八章 数据处理
第一节 资料检查与校订 第二节 资料编码 第三节 数据录入与整理
第一节 资料检查与校订
一、资料检查
〔一〕检查问卷 〔二〕回访 二、资料校订为了提高问卷质量,对那些经过初步检查 的问卷,还要进行校订工作,即从问卷中 找出那些错误或不满意的答案,并对之进 行相应的处理。
第二节 资料编码
一、决定录入方式和软件
数据录入目前大致采用三种方式进行:人 工输入、计算机辅助系统转换和光电输入。
二、人工录入的本卷须知
无论采用何种录入方式、录入软件,都必 须为录入工作设立一套规那么及流程。
三、数据清理 〔一〕可能数值清理 〔二〕一致性清理
四、缺失值的处理
〔一〕缺失值的分析 〔二〕缺失的预防 〔三〕缺失值的估计
资料校订完成后,下一步的工作是将资料 转换成记录在磁带或磁盘上的数据文件 〔data〕。建立数据文件的第一步是对资料 进行编码〔coding〕。编码的目的在于对被 访者的每一种答复,分配一个计算机软件 能够识别的代码,从而使得对被访者答复 的统计分析能用计算机来完成。
〔一〕复选题的编码 〔二〕排序题的编码
复习思考题
1.怎样检查调查资料的完整性和准确性?怎 样通过回访来检查资料的真实性?
2.实际访问中,访问员的违规或舞弊行为主 要表现为哪几种类型?
3.资料的校订过程中需要关注哪些问题? 4.除了确定编码方式,资料编码还需要注意
哪些问题?
复习思考题
第三节 数据录入与整理
资料编码完成后,就可以进行数据的计算 机录入和数据文件的整理工作了。数据录 入是将问卷资料所对应的代码扫描或用键 盘直接输入计算机磁盘,建立起数据文件。 而数据文件整理包括数据清理和缺失值的 处理,前者是利用统计软件查找数据错误; 后者那么是通过分析,有效地对缺失值予 以补救。
第八章 调查研究(《社会研究方法(第五版)》_风笑天)
四、题型及答案的设计
问题的形式 答案的设计
填空式
问题的形式
A1.您的年龄:________ 周岁
A2.请问您家共有几口人?
口人,是几
代人?______ 代人
A3.您家每个月的全部收入大约为_____ 元。
A4.您每月的基本伙食费一般是_________元
A5.您家的住房是_________平方米。
……
是否式
B1.您是否住在本市:
是□ 不是□
B2.科学家发现臭氧层变薄并出现空洞,这件
事您是否知道?
知道□ 不知道□
B3.您是否赞成民主选举厂长?
同意□ 不同意□
单项选式
您的文化程度是(请在合适答案号码上打√ 号)
1.不识字或识字很少 2.小学 3. 初中
4.高中或中专
5.大专及以上
多项选择式
电子邮箱式
三、结构访问法的两种方式——当面访问
调查员不能随意改变问题的顺序和提法 不能随意对问题作出解释 答案的记录也完全按问卷的要求和规定进行
当面访问
优点
能对调查过程加以控 制
回收率可以保证
可对资料质量进行评 估
缺点
更高的调查费用 访问法需时较长 调查范围和规模受限
三、结构访问法的两种方式——电话访问
集中填答法
优点
缺点
节省时间人力费用
调查对象难以集中
保证质量与回收率
团体压力/相互作用
想一想:你怎么办?
二、自填问题的四种方式——网络调查法
研究者利用互联网向特定对象发送调查 问卷,同时也通过互联网将被调查者填 答好的问卷收回的调查方法。
网络调查法
优点
缺点
方便快捷节省费用
高中数学第八章成对数据的统计分析阶段复习课第三课成对数据的统计分析教师用书教案选择性第三册
阶段复习课第三课成对数据的统计分析核心整合·思维导图考点突破·素养提升素养一数学建模角度独立性检验【典例1】某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下"分为两组,再将两组工人的日平均生产件数分成5组:[50,60),[60,70),[70,80),[80,90),[90,100]分别加以统计,得到如图所示的频率分布直方图.规定日平均生产件数不少于80件者为“生产能手",请你根据已知条件写出2×2列联表,并判断在犯错误的概率不超过0.1的前提下能否认为“生产能手与工人所在的年龄组有关”。
【解析】由频率分布直方图可知,在抽取的100名工人中,“25周岁以上(含25周岁)组”中的生产能手有60×0。
25=15(人)。
“25周岁以下组”中的生产能手有40×0。
375=15(人),据此可得2×2列联表如下:生产能手非生产能手合计25周岁以上(含25周岁)组15456025周岁以下组152540合计3070100所以由公式得χ2=≈1。
79,因为1。
79<2.706,所以不能在犯错误的概率不超过0。
1的前提下认为“生产能手与工人所在的年龄组有关"。
【类题·通】独立性检验的一般步骤(1)根据样本数据制成2×2列联表.(2)根据公式,计算χ2的值.(3)比较χ2与临界值的大小关系并进行统计推断.【变式训练】有人发现,多看电视容易使人变冷漠,下表是一个调查机构对此现象的调查结果:冷漠不冷漠合计多看电6842110视少看电203858视合计8880168试问:多看电视与人变冷漠有关吗?【解析】由公式得χ2=≈11.377>10。
资料的统计分析分析
资料的统计分析分析资料的统计分析是指采用统计方法对已收集到的数据进行处理和分析,以得出有关数据特征和规律的结论的过程。
在进行统计分析时,需要先对数据进行整理和概括,然后通过描述统计和推断统计两个方面的分析方法来探索数据的背后信息。
首先,进行数据整理和概括。
在这一步骤中,需要对数据进行清洗和处理,包括检查数据的完整性和准确性,去除异常值和缺失值等。
然后,对数据进行概括,包括计算数据的中心位置(如平均值、中位数)、离散程度(如方差、标准差)和分布形状(如偏度、峰度),以了解数据的基本特征。
接下来,进行描述统计分析。
描述统计是对数据进行总结和描述的方法,通过统计指标和图表等形式对数据进行呈现。
常用的描述统计方法包括频率分布表、直方图、饼图、条形图等。
频率分布表可以展示数据的分布情况,直方图可以直观地显示数据的分布形状,饼图可以反映不同类别数据的占比情况,条形图可以比较不同类别数据的大小关系。
通过这些描述统计方法可以初步了解数据的特征和规律,为后续的推断统计分析提供参考。
最后,进行推断统计分析。
推断统计是通过从样本中推断总体的特征和规律的方法,通过对样本数据的分析,得出对总体的推断或推论。
常用的推断统计方法包括假设检验和置信区间估计。
假设检验可以用来判断总体参数是否满足一些假设条件,置信区间估计可以用来估计总体参数的范围。
通过这些推断统计方法可以更加深入地了解数据的特征和规律,为决策提供科学依据。
总的来说,资料的统计分析是对已收集到的数据进行处理和分析的过程,通过数据整理和概括、描述统计分析和推断统计分析等方法,从不同角度揭示数据的特征和规律,为决策提供支持和参考。
最终的目标是通过统计分析,从海量数据中提取有用信息,为决策提供科学的依据。
调查资料的分析方法
调查资料的分析方法调查资料的分析是指对所收集到的信息进行有条理、系统和科学的处理和研究。
调查资料的分析方法有很多种,下面我将就几种常用的分析方法进行详细介绍。
首先,要了解调查资料的分析方法,就需要清楚调查资料的类型。
通常调查资料可以分为定性资料和定量资料两种类型。
定性资料是指非数值化的描述性资料,包括文字、图片和声音等形式;定量资料则是指数值化的资料,包括数字、统计数据等。
根据不同类型的资料,我们可以采用不同的分析方法。
对于定性资料,可以采用内容分析的方法进行处理。
内容分析是一种定性研究方法,它是以对文本资料进行系统分类和分析为基础,对研究对象的特征和规律进行研究。
内容分析的步骤包括确定研究内容、建立分析单位、建立分析分类系统、进行内容分析以及进行统计分析,通过这些步骤可以对文本资料进行深入的研究和分析,从而获得有意义的结论。
另外,对于定量资料,常用的分析方法包括描述统计分析和推断统计分析。
描述统计分析是指通过对数据的整理、汇总和描述,以便直观地了解数据的分布和特征。
其主要手段包括频数分布、累积频数分布、频数分布图、频率分布、累积频率分布、直方图等。
推断统计分析则是利用样本数据对总体情况进行推论的方法,包括参数估计和假设检验两个方面。
在进行调查资料的分析时,还应当结合研究的目的和问题,选择合适的分析方法。
例如,如果研究的目的是了解某一现象的普遍性和趋势,可以采用描述统计分析的方法进行整理和分析;如果要对研究对象的特征和规律进行深入研究,可以采用内容分析的方法进行处理。
除了以上提到的分析方法外,还可以采用质性研究方法进行调查资料的分析。
质性研究是指通过对被调查对象的深入、细致、全面的描述和解释,来揭示事物的本质和内在联系的一种研究方法。
质性研究的分析方法包括模式识别、主题分析、范畴分析、情景分析、比较分析等。
总的来说,调查资料的分析方法有很多种,我们应当根据研究的目的和问题来选择合适的分析方法,从而得出科学、准确的结论。
医学统计:调查设计
调查的结果显示,Lambeth公司供水的居民,霍乱的死亡率远低于
SV公司供水的居民,提示水污染与霍乱流行有关。
3
两个明显的特点:
(1)研究者只能“被动”地观察两公司供水的居民的霍乱死亡率, 不能主动地对人群进行随机分组或采取其它保证均衡可比的措施;
(2)居民接受哪个公司供水是客观存在的,不能象做动物实验那样 强迫对象接受某公司的供水而不接受另一公司的供水。研究者不能 主动地施加处理因素只能“被动”地观察客观存在的现象。具有这 些特点的研究统称为观察性研究。
15
五、设计调查问卷
采用问卷调查的方法称为问卷调查(questionnaire survey)
16
六、确定调查方式
1、直接观察法:在现场进行调查、收集资料。资料真实可靠, 但成本较高。
2、直接采访法:调查员通过对调查对象的面对面采 访来获 取资料:访问调查(资料准确但人力物力成本高)和自填 调查(成本较低且保密,但调查质量稍差)
19
(四)数据的计算机录入
通常采用数据库系统如FoxPro、Excel等,建立数据库结构 后输入原始数据。
录入时,录入员应作简要的培训,并提供每个录入员一份 统一的录入说明书。
数据输完后应作数据核查,如有可能应作全面核查,否则 可采用抽查的方法。
20
(五)拟定整理表
根据研究目的和预期分析指标拟定整理表,使调查目的和 预期分析指标更加具体和明确。
观察性研究的定义:有目的地观察或测量自然接触不同因素 人群的结果事件的发生状况,通过对比分析发现事件的分布 特点与差异而获得有关因果假设的启示,为进一步研究提供 线索。
4
第一节 调查研究的特点
横断面研究cross-sectional study
调查数据的分析与统计
调查数据的处理与分析一、数据处理1.数据录入。
数据录入是将在问卷编码部分所标记的符码及文字输入到计算机中,形成可供统计软件处理的文件格式的过程。
因此,保证这一过程的完整性、准确性及标准化是其最基本的原则。
遗漏问卷信息、录入错误、变量赋值不统一等问题是问卷录入中比较容易犯的错误,它在很大程度上影响了后续研究的科学性。
在数据录入前,首先要检查回收的问卷,看问卷、访问记录与各项表格是否有缺漏。
然后创建编码手册,以便为录入工作提供一个统一的标准,也为此后的数据核查及研究工作提供依据。
此外,我们要对问卷进行审核和编码,尤其要在审核中检查跳答或其它特殊编码的一致性。
实际录入时,可以通过试录,检查编码手册及录入程序等的周全无误;并编写录入说明,建立标准工作流程;录入前要对录入人员进行培训,以统一操作规范;在录入中要设计工作记录表,使录入工作责任到人,避免重复作业和掌握进度。
目前许多大型社会调查还采用双录核查,即对一份问卷由不同的录入员录入两次,比对两次录入数据并核对问卷,找出错误原因。
双录入的方法基本上可以消除了录入环节的手工误差。
2.数据清理与校验。
一份调查数据的产生,经过较多环节,各环节的错误都会反映在数据中。
所以当录入完成后,必须对数据进行核查,既要发现录入中存在的问题,检查数据与问卷记录的信息是否一致,也要检查其他原因造成的错误。
数据核查包括:检查录入的原始数据文件的记录数与问卷份数是否一致;检查原始数据文件变量顺序与问卷题目顺序是否一致;核查样本编号;不合理值核查;逻辑一致性核查。
其中,重点是检查样本编号、非法值、极值和变量间的逻辑。
3.数据归档。
一项调查结束后,在研究人员进行分析数据以前,还需要对调查的数据建立相应的“档案”资料,同数据一起交给研究人员。
这样,随着时间的推移,其他研究人员可以通过原始数据及其数据档案了解相应数据的背景信息,这项工作也称为“数据归档”。
另外,随着研究的展开,可以将与该项调查有关的研究报告、发表论文等相关信息也逐渐补充到数据档案中,为进一步研究提供翔实的信息。
现代社会调查方法第八章、资料处理PPT课件
工作打下较好的基础。
资料审核工作的内容:一是检查出问卷资料中的问
题;二是重新向被调查者核实。
资料审核的方法:
➢ 实地审核
➢ 系统审核
.
2
一、资料的审核与复查
资料的复查:
研究者在调查资料收回后,又由其他人对所调查的 样本中的一部分个案进行第二次调查,以检查和审核第 一次调查的质量。
资料审核的基本方法 :重新选择调查员,随机抽
.
7
二、资料的转换与录入
先转录再录入:
.
8
二、资料的转换与录入
Excel数据录入
旭日升冰茶 露露 旭日升冰茶 可口可乐 百事可乐 可口可乐 汇源果汁 可口可乐 露露 可口可乐
可口可乐 旭日升冰茶 可口可乐 百事可乐 露露 旭日升冰茶 旭日升冰茶 百事可乐 可口可乐 旭日升冰茶
旭日升冰茶 可口可乐 可口可乐 旭日升冰茶 露露 旭日升冰茶 可口可乐 露露 百事可乐 百事可乐
.
11
三、数据清理
1、有效范围清理
数据中的某些数值超出了编码值的范围 这种错误发 生的情况有:
原始数据本身的问题 编码的错误
录入人员的错误
检查的方法 在SPSS软件中执行一条统计各统计变量
频数分布的命令,当我们发现频数分布表中的变量的取 值超出了编码手册所规定的赋值范围,就需要将这些问 卷找出同原始问卷核对
取5-15%个案重新进行调查。
资料复查所需要的条件:了解被调查者的姓名、
住址等相关信息
.
3
二、资料的转换与录入
1.问卷资料的转换
资料转换的必要性 资料转换的方法
编码手册(节选)
.
4
二、资料的转换与录入
表
2016 第八章 四种研究方式
问题与答案:开放式问题(open-ended question,只提出问题,不为回答 者提供具体答案,由其根据自己情况自由填答)和封闭式问题(closedended question,提出问题的同时,给出若干个答案,要求回答者根据 实际进行选择回答)。探索性调查常用开放式问题,而在大规模的正式调 查中,则主要是以封闭式问题构成的试卷。
问卷设计的步骤:探索性工作(围绕所要调查的问题,自然 地、随便地与各种对象交谈,并留心观察他们的特征、行为 和态度);设计问卷初稿(卡片法、框图法);试用(客观 检验法:用小样本检验,看回收率、有效回收率、填写错误、 填答不完全;主观评价法(由该领域的专家、研究人员以及 典型的被调查者);修改定稿并印制(无论是版面安排上的 不妥,还是文字上、符号上的印刷错误,都将直接影响到最 终的调查结果。
缺点:回收率难以保证;对被调查者的文化水平有要求;调 查资料的质量得不到保证(信度)。其中最常用个别发送法, 具有邮寄填答法和结构访问法的优点。
邮寄填答法在西方国家比较普遍。方便、便宜、代价最小的 资料收集方法。 缺点:难以获得框架;回收率低(提高措施:关于调查主办 者的身份要经过慎重考虑,尽可能采用比较正式、非营利、 给人以信任感的身份;寄问卷的封面信最好单独打印,并用 一个小信封单独封装;应该考虑寄问卷的时间;采用跟踪信 或电话。 集中填答法的优点:更节省时间、人力和费用;比邮寄法更 能保证问卷填答的质量和回收率。 缺点:许多调查研究的样本根本就不可能集中;存在“团体 压力”或“相互作用”。
封面信(cover letter):向被调查者介绍和说明调查的目的、调查单位或 调查者的身份、调查的大概内容、调查对象的选取方法、对结果保密的 措施等。封面信的语言要简明、中肯,篇幅宜短不宜长,短短两三百字 最好。对于邮寄填答式的社会调查,封面信的好坏影响很大。 指导语:指导被调查者填答问卷的各种解释和说明,相当与仪器的使用 说明。
第八章 调查数据的基本统计分析
K 1
lg N lg 2
,N为总体单位数 (8-5) 可根据全部数据的最大值和最小值及上式求得的组数来确定组距,即 组距=( 最大值 - 最小值)÷ 组数 (8-6) ⑶组中值。
组中值
ห้องสมุดไป่ตู้
上限+下限 2
(8-7)
市场调研原理与应用
⑷开口组的组距与组中值。
组中值 上限 相邻组的组距 2
(3-8)
市场调研原理与应用
⒉柱状图
图8-2 社区家庭拥有孩子数分布图 ⒊直方图
图8—3 某百货公司商品销售额分布图 市场调研原理与应用
• (二)统计表的设计注意的事项: • ⒈统计表应设计成由纵横交叉线条组成的长方形 表格,长与宽之间保持适当的比例。 • ⒉线条的绘制。 • ⒊合计栏的设置。 • ⒋标题设计。 • ⒌指标数值。 • ⒍计量单位。 • ⒎注解或资料来源。
市场调研原理与应用
单项式分组 表8-5 某社区家庭户拥有孩子数情况表 孩子数 (个) 0 1 2 3 合计 户数 150 200 100 50 500 百分比(%) 30 40 20 10 100
市场调研原理与应用
表8-6
某村庄家庭户拥有孩子数情况表 户数 150 200 100 50 500 百分比(%) 30 40 20 10 100
市场调研原理与应用
表8-2 某地区不同文化程度的平均收入水平
文化程度 小学及以下 初中 高中 大学 研究生
月平均收入(元) 800 1200 2000 3500 5000
市场调研原理与应用
四、调查资料分组的方法 • (1)正确选择分组标志 • 第一,根据研究目的选择分组标志 • 第二,选择最能够反映现象本质特征的标志作为 分组标志 • 第三,根据经济发展变化及历史条件选择分组标 志
调查资料的统计分
▪ 2.用模型计算值替代
▪ 是指利用某些统计模型计算得到的比较合理的值来代替。 例如利用回归模型、判别分析模型等。比方说,“产品 的使用程度”可能与“家庭规模”和“家庭收入”有关 系,利用回答了这三个问题的被访者的数据,可以构造 出一个回归方程。对于某个没有回答“产品使用程度” 的被访者,只要其“家庭规模”和“家庭收入”是知道 的,就可以通过这个回归方程计算出其“产品使用程 度”。考虑到这种替代是基于科学的统计方法,所以用 模型计算值替代较之平均值替代更准确些。
并对这些不满意答案进行处理的过程。
▪ (一)检查不满意的答案
▪ 找出任何属于下列情况之一的答案。
▪ 1.字迹模糊或答案不完全的。(开放式问题的记录;有些 问题没回答)
▪ 2.不一致的。
▪ 3.模棱两可的。(单一问题的封闭题出现选了多个答案)
▪ 4.分叉错误的。如:“如果是这样的话,那么…,否则 就…”
系列问答题中,只选了答案3) ▪ (5)调查对象不符合调查设计的要求。(由不符合要求
的其他人填写的问卷)
▪ (6)问卷是在事先规定的截止日期以后回收的。 ▪ (7)由于调查人员的记录不准确而造成的模糊不清。
(特别是开放式问题)
▪ (8)答案前后不一致。(年龄50岁,职业为中学生)
注意:
▪ 一般情况下,会有一些检查人员难于判断的问卷,这些 问卷应该先放在一边,通知研究人员来检查以决定取舍。 因此,通常最好建议检查人员将原始问卷分成三部分: 可以接受的;明显要作废的;对是否可以接受有疑问的。
▪ 又如:这是您第一次来这个超市购物吗?
▪ 是—1 继续回答
调研资料的统计分析
案例二
• 1960年美国总统大选,选前盖洛普调查,样 本1500预测肯尼迪得票率51.0%,实际得 票率50.1%. • 问题:预测结果与实际结果是否有显著差 异
案例三
• A品牌针对G1和G2两个消费群体,现想知 道,两个群体对A品牌的偏好,是否存在显 著差异为此做抽样调查.偏好得分按五级 量表评定. • 对G1样本200均值3.16,样本方差1.2 • 对G2样本120个正态总体的均值的检验 2: 两个正态总体的均值的检验 3: 单个总体的百分数检验 4: 两个总体的百分数检验
案例一
• 某电视机厂生产显像管,最近采用新工序 生产.已知旧工序生产平均寿命1200小时 现要判断新工序能否提高寿命,为此做调 查:随即抽取样本100个.平均寿命1265小 时.标准差300.根据以上调查资料做显著 性检验
案例四
• 某酸奶连锁店现欲继续扩张,面临店址选 择的问题,根据以往经验,一个地区过去10 年中去酸奶店的人口百分比是决定是否 开店的重要因素.现有2个备选地点,A和B 其他方面都不错.经调查(样本500)A地过 去10年有220人曾光顾酸奶店.B地过去10 年有245人曾光顾酸奶店.请分析调查结果 并提供建议
市场调研中统计分析的类型
• • • • • 1,描述分析 2,推理分析 3,差别分析 4,关联分析 5,预测分析
假设检验
• 假设检验--指先对总体提出某项假设, 然后利用从总体中抽样所得的样本来检 验所提假设是否正确,从而作出接受或 拒绝的决策,使营销决策更加科学。
假设检验的基本步骤
• 1,根据实际情况提出零假设和备选假设 • (1) 零假设通常表示没有差异的假设 • 如:H0:在广告战役前后,男性消费者中知 道该品牌的比例没有显著差异. • 或以公式形式表示: • H0: A=
社会调查方法8项目八 调查资料统计与分析
• 通常用统计表或统计图的形式来呈现变量的频次分布 与频率分布。
统计表
• 统计表有比较固定的规范格式,从其结构上看, 通常由表号、总标题、横行标题、纵栏标题、数 字、注释与资料来源等要素构成。
• 制作统计表应当遵循科学、规范、简明、实用、 美观等基本规范。
• 统计表举例
统计图
• 统计图主要用于描述调查资料的初级统计结果, 特别是描述调查总体的内部构成,展示不同现象 的分布或某种现象的变化趋势,具有直观、形象 和一目了然的优点。制作统计图时,一般将图号 与标题置于图的下方。
• 用于呈现变量频次分布与频率分布的统计图主要 有条形图、饼形图和直方图。
• 统计图举例
全距
• 全距,也称极差,是指一组数据中最 大值与最小值之差。
• 全距越小,表明集中量数的代表性越 好;全距越大,表明集中量数的代表 性越差。
标准差
• 标准差是指一组数据中的各个数值与这组 数据的平均值之差的平方和除以该组数据 个数所得的值的平方根。
• 标准差适用于定距和定比测量,用于补充 说明均值的代表性。标准差越小,表明均 值的代表性越好;标准差越大,表明均值 的代表性越差。
统计量”对话框,
在“百分位值”选
项框中选中“四分 位(Q)”,在 “集中趋势”选项
框中选中“均值 (M)”和“中位 数”,在“离散”
• 平均数的计算公式,因资料形式的不同而不同 适用于原始数据 适用于单值分组资料
适用于组距分组资料
• 举例:求表8-5 、8-6中的平均数
三、离散趋势分析
• 离散趋势分析就是用表示离散程度的统计 量(即离散量数)来反映一组数据的各个 数值距离它的代表值的差异程度。离散量 数越大,说明典型值的代表性越差;离散 量数越小,说明典型值的代表性越好。
统计学第八章 单因素方差分析(1)
称为处理平方 处理平方 和,记为 SSA
总平方和SST=处理平方和SSA+误差平方和SSe
即, ( y ij − y •• ) = n∑ ( y i • − y •• ) + ∑∑ ( y ij − y i• ) 2 ∑∑
2 i =1 j =1 i =1 i =1 j =1 a n 2 a a n
i =1 j =1
a
n
= n∑ ( y i• − y •• ) + 2∑ [( y i• − y •• )∑ ( y ij − y i• )] + ∑∑ ( y ij − y i • )
2 i =1 i =1 j =1 i =1 j =1
a
a
n
a
n
j =1
∑ ( y ij − y i • ) = 0
换句话说,采用两两t检验法,要进行45次t检验,程序太繁琐。
原因(2):检验的I 型错误增大,从而检验的 可靠性低
a = 2 时, H 0 只有一个,即
µ 1= µ 2
a = 3 时, H 0 有 3 个,即 µ 1= µ 2, µ 2= µ 3, µ 1= µ 3
a = 5时,H 0 有10个,即µ1=µ 2,µ 2=µ3, , µ 4=µ5 L
二、方差分析的几个概念
1、方差分析(analysis of variance):将试验数据的总变异分 解成不同来源的变异,从而评定不同来源的变异相对重要性 的一种统计方法。 2、试验指标(experiment index):为衡量试验结果的好坏或 处理效应的高低,在试验中具体测定的性状或观测的项目。 3、试验因素(experiment factor):试验中所研究的影响试验 指标的因素:单因素、双因素或多因素试验。 4、因素水平(level of factor):因素的具体表现或数量等级。
第八章研究资料的分析
(3)结 合 : 一个类属可以有自己的情境和 叙事结构,一个情境故事也可以表现一 定的意义主题。
类属分析和情境分析结合运用示例分析
以《“我”的试读——北京大学试读学生个案研 究》为例
虽然平均分都是76,但离散的程度却不同。
表示一组数据变异程度或离散程度的量称为差异量。 差异量越大表示数据分布范围越广、越不整齐;差异 量越小,表示数据分布得越集中,变动范围越小。
方差和标准差是使用最广 泛的差异量。方差是离 差平方和的算术平均数 。其定义式为:
标准差是方差的平方根。 其定义式为:
三、Z检验、t 检验、x2检验
统计检验是为了确定统计量的差异是由 于什么原因引起的。有两种原因可以引 起统计量之间的差异:一种是由于它们 来自两个不同的总体,另一种原因是由 于抽样误差引起的,不是本质的差异。
(一)平均数的差异显著性检验是常用 的参数检验方法,分两种情况:
一是关于样本平均数与总体平均数差异的显著 性检验:在大样本前提下(样本总数超过30 列),且总体服从正态分布,总体方差已知的 情况下,用z检验;而在小样本前提下,总体 方差未知的前提下,则用t 检验。
2 情境分析的结构可以有不同的方式:可以是时间 的先后次序,也可以是逻辑上的意义联系,可以 把一次观察或访谈写成一个情境片段,也可以把 几次获取的材料写成一个故事,还可以把几个故 事连成一体,组成一个综合个案。
(3)情境分析的具体步骤
①通读资料,发现资料中的核心叙事、故事 线和组成故事的主要内容。
二、编码登录
编码登录是资料分析中一项最基本的工作。 编码登录是设置数字或字母码号表示资 料分析中一个最基础的意义单位,把相 应码号标注在资料中有关内容旁边,就 是对资料进行了登录。登录过的资料可 以按照码号所代表的概念、意义重新组 合。
调查资料的统计分析教学课件
数据收集和处理
通过问卷调查、访谈、观察等方式收集数据,并对数据进 行清洗、整理和分类。
数据分析
运用统计分析方法对社会数据进行分析,包括描述性统计、 相关性分析、回归分析等,以揭示社会现象之间的联系和 规律。
结果解释和应用
将分析结果与实际相结合,解释社会现象的内在原因和影 响,提出相应的政策和措施建议。
了解市场需求
通过调查了解目标市场的需求、消费者偏好以及潜在的商业机会。
评估产品或服务质量
通过收集客户反馈,了解产品或服务的优势和不足,以便改进。
监测市场变化
定期进行市场调查,监测市场趋势和竞争对手动态,以便及时调整 策略。
调查方法
01
02
03
定量调查
采用问卷、电话访问等方 式收集大量数据,进行统 计分析。
报告撰写
将分析结果整理成报告,以图表、文字等形式呈现,便 于决策者理解和使用。
社会调查分析
总结词
社会调查分析是对社会现象进行系统研究的手段,通过对 社会数据的收集、整理、分析和解释,以了解社会状况、 问题和发展趋势。
确定调查目的和主题
明确研究的目标和主题,确定所需收集的数据类型。
设计调查方案
根据调查目的和主题,制定合适的调查方案,包括调查方 法、样本选择、问卷设计等。
值的记录。
处理异常值
识别并处理异常值,以避免对 统计分析结果造成影响。
数据标准化
对数据进行标准化处理,确保 不同量纲的数据具有可比性。
数据检验
对数据进行基本的统计检验, 如正态性检验、齐次性检验等,
以确保数据满足统计分析的前 提条件。
04
统计分析方法
描述性统计
描述性统计
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
二、统计分析的特点
1.统计分析要以定性分析为基础。 2.统计分析必须与理论分析方法相结合。
§2单变量描述统计
一、频数分布与频率分布 二、集中趋势分析 三、离散趋势分析
一、频数分布与频率分布
所谓频数分布,就是指一组数据中取不同 值的个案的次数分布情况,它一般以频数表的 形式表达。 例如,某班有25名学生,其年龄情况如下:20, 19,18, 19,18,20, 21, 17, 18, 18, 19,19, 20,19,19, 17, 18, 20, 19, 19,21,21,19,20, 19。 则该班学生的年龄分布则为下表(见表1)
用组中值法求众数分为三步:
首先也是通过直接观察找出最高的频数; 然后根据最高的频数找到它所对应的组; 最后求出该组的组中值即是众数。
以例3为例来求众值,我们首先在职工数(即额 数)一栏中,找到最大的频数40;然后找到40所 对应的组:180~220;最后计算该组的组中值, 计算结果为200元。 因此,该例中的众数为200元。
频率分布表除具备频数分布表的 优点外,还能反映各类所占的比重, 便于不同总体或不同类别之间的比较。 这种分布的应用更为普遍。
二、集中趋势分析
所谓集中趋势分析,指的是用一个典型 值或代表值来反映一组数据的一般水平, 或向这个典型值集中的情况。 最常见的集中趋势统计量有平均数、众 数和中位数三种。 1.平均数(算术平均数) 是用总体各单位数值之和除以总体单位总 数的商。平均数又称为均值或均数。
20
100
100
2
f
100 50 2
然后累计频数栏中找到中位数所在组为180-220那一组;
最后用公式计算:
f
Md L 2
Cf m 1 fm Xi
50 20 180 40 40 210(元 )
三、离散趋势分析
与集中趋势分析相反,离散趋势(又称离中趋势) 分析指的是用一个特定的数值来反映一组数据相互之 间的离散程度。
频数分布表的作用主要有两方面:
一是简化资料,即将调查所得到的一长串 原始数据,以一个十分简洁的统计表反 映出来; 二是从频数分布表中,我们可以更清楚地 了解调查数据的众多信息。
所谓频率分布,则是指一组数据中不同 取值的频数相对于总数的比率分布情况,这 种比率通常以百分比的形式表达,而频率分 布情况同样以频率表的形式出现。表2就是 上例对应的频率分布表。
无论是从团体总分来看,还是从平均得分来看,这 三个系代表队的成绩都是相同的。因此,如果仅以集中 趋势统计量(平均数)来衡量,那么,三个系代表队的 水平一样高,不存在什么差别。但从直观上我们不难发 现,三个代表队中五名队员的成绩相互之间的差跟程度 (离散程度)很不一样。中文系成绩十分接近;数学系 成绩比较分散;而政治系队成绩则相差十分悬殊。不难 理解,这个80分对中文系队同学的代表性最高,而对政 治系队同学的代表性最低。
即中位数在第三个数值与第四个数值之间,取二 者的平均数得:
500 800 1300 650 (人) 2 2
即中位数为650人。
②由单值分组数据求中位数
方法与从原始数据计算中位数的方 法大致相同,首先也是求出中间位置, 然后找出对应的数值。只不过寻找的方 式有所不同。 首先由公式计算中间位置:
中位数的位置 =
n +1 150 +1 = = 75.5 2 2
即中间位置在第75个数值与第76个数值之间。 为了找到这个位置,需要先列出累计频数。
年龄(岁) 人数(f) 累计人数(cf)
17 18 19 20 21 22 合计 10 25 50 40 20 5 150 10 35 85 125 145 150
第八章 调查资料的统计分析
§1 统计分析概述 §2 单变量统计分析 §3 推论统计
§1统计分析概述
一、统计分析的含义与作用 二、统计分析的特点
一、统计分析的含义与作用
统计分析,就是指运用统计学的方法,对 调查所得资料的数量特征进行描述,并用各种 数学模型揭示调查资料中所隐含的关系、规律 及发展趋势。 统计分析就是从量的方面来分析事物之间的相 互关系和相互作用,并通过对事物量的规定性 的分析,来把握和认识事物质的规定性。 事实说明,正确恰当的统计分析,已成为现代 社会调查研究中不可缺少的一个环节,成为人 们认识社会现象的一种重要分析手段。
以下是计算公式及应用举例: ①由原始数据计算平均数。 设总体单位总数为n,总体各单位的数 值为xi(i=1, 2, … , n),则计算公式为:
X
x
i 1
n
i
n
例1 某班10名学生的年龄分别为20岁、21 岁、19岁、19岁、20岁、20岁、21岁、 22岁、18岁、20岁,求他们的平均年龄。 [解]根据平均数的定义有:
作用:它与集中趋势一起,分别从两个不同的侧面描 述和揭示一组数据的分布状况,共同反映出资料分布 的全面特征;同时,它还对集中趋势的统计量(如平 均数、众数、中位数)的代表性作出补充说明。
例6
某校三个系各选5名同学,参加智力竞赛,他们 的成绩分别如下: 中文系: 78 79 80 81 82 数学系: 65 72 80 88 95 政治系: 35 78 89 98 100
xf
③由组距分组资料求平均数。先计算出各组的
组中值Xmid ,然后再按照单值分组资料计算 平均数的公式计算。也就是说,用组距分组资 料求平均数的公式与用单值分组资料求平均数 的公式基本相同,只是需要事先将组距转化成 单值。
计算公式为:
X
x
i 1 m
m
m id
fi
i 1
x
i 1
以例2为例,首先我们在人数(频数)一栏 中找出最大的频数50,再从50找到所对应 的年龄19岁。则例2资料中的众数为19岁。 需要注意的是,众数是最大的频数所对 应的那个标志值,而不是最大的频数本身。
②由组距分组资料求众数。
由组距分组资料求众数的方法有两种: 一种是组中值法,另一种是摘补法。 前者比较简单,后者较为复杂。由于 众数在社会调查研究中的使用远不象 平均数那样广泛。故我们只需了解组 中值法即可。
需要注意的是,计算中位数时常常
要求数据是定距以上的变量。而对 定序的或定类的变量通常不用来计 算中位数。
中位数的计算:
①由原始数据求中位数
例4 调查五个工厂的职工人数,按规模由小到大依次为 200人、300人、500人、800人、1000人,求其中位数。 [解]由于原始资料已按人数的多少排好了序,所以只需先 求出中间位置,由下列公式得:
1.全距
也叫极距,它是一组数据中最大值与最
小值之差。 全距是离散趋势统计量中最简单的一种。 在原始数据资料条件下,只需将全部数 据按大小颀序排列,然后用最大值减去 最小值即可。
如上面所举例6,三个代表队成 绩的全距分别为:
中文系:82-78=4(分) 数学系:95 - 65=30(分) 政治系:100 - 25=65(分) 在组距分组资料的条件下,只需将最 大组的上限减去最小组的下限即可。 如前面例3中的全距为:300-100= 200(元)
根据不同资料,众数的求法分为以下两种形式:
①由单值分组资料求众数。由于单值 分组资料中已将各标志值及其所对应 的频数都一一列出,故我们只需采用 直接观察的方法就可求得众数。具体 做法是,首先在频数一栏中找出最大 的频数,假定为 fm ;然后根据fm找到 它所对应的标志值 Xm ,则众数即为 Xm。(例2)
X
X 20 21 19 19 20 20 21 22 18 20
n 10
200 20 (岁) 10
②由单值分组资料计算平均数。首先要将每 一个组的量值乘以所对应的频数(得出各组 的数值之和);然后将各组的数之和全部相 加,最后除以单位总数(也即各组频数之和 ∑f)得出平均数。其计算公式为:
L为中位数所在组的下限值;
cfm-1为中位数所在组以上的累计次数;
fm为中位数所在组的次数;i为中位数所在组的组距;
先列出累计频数:
收入(元) 100-140 职工数(f) 10 累计频数(cf) 10
140-180
180-220 220-260
10
40 20
20
60 80
260-300
合计 再求出中间位置
n 1 5 1 中位数的位置 3 2 2
即第3个数值500人为其中位数。
例5 调查六个工厂的职工人数,按规模由小到 大依次为200人、300人、500人、800人、 1000人、1200人,求其中位数。 [解]先由公式求中间位置:
n 1 6 1 中位数的位置 3.5 2 2
因此,离散趋势的各种统计量,一方面揭 示出数据相互分离的程度;另一方面又对相应 的集中趋势统计量的代表性作出判断。 结论:集中趋势统计量的代表性与所对应 的离散趋势统计量是反比关系,即离散趋势统 计量越大,则所对应的集中趋势统计量的代表 性就越小;反之,则越大。
常见的离散趋势统计量有全距、标准 差、异众比率、四分位差、离散系数等。 其中,标准差、异众比率、四分位差分别 与平均数、众数、中位数相对应。
m
m id
fi
fi
n
例3 调查某厂100名职工的收入情况如 下,求他们的平均收入。
收入(元) 100-140 140-180 180-220 220-260 260-300 合计 职工数(人) 10 10 40 20 20 100
[解]先求出各组的组中值:
100 140 120 2 160 220 200 2 260 300 280 2 140 180 160 2 220 260 240 2
X
x