置信区间与置信水平
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
“置信区间与置信水平、样本量的关系
置信水平Confidence level
置信水平是指总体参数值落在样本统计值某一区内的概率;而置信区间是指在某一置信水平下,样本统计值与总体参数值间误差范围。
置信区间越大,置信水平越高。
一、置信区间的概念
置信区间又称估计区间,是用来估计参数的取值范围的。
常见的52%-64%,或8-12,就是置信区间(估计区间)。
置信区间是按下列三步计算出来的:
第一步:求一个样本的均值
第二步:计算出抽样误差。
人们经过实践,通常认为调查:
100个样本的抽样误差为±10%
500个样本的抽样误差为±5%
1,200个样本时的抽样误差为±3%
第三步:用第一步求出的“样本均值”加、减第二步计算的“抽样误差”,得出置信区间的两个端点。
举例说明:
美国Gallup(盖洛普)公司就消费者对美国产品质量的看法,对美国、德国和日本三国共计3,500名消费者(每个国家约1,200名)分别进行了调查,调查结果:有55%的美国人认为美国产品质量好,而只有26%的德国人和17%的日本人持同样看法。
抽样误差为±3%,置信水平为95%。
则这三个国家消费者的置信区间分别为:
国别样本均值抽样误差置信区间
美国55% ±3% 52%-58%
德国26% ±3% 23%-29%
日本17% ±3% 14%-20%
二、关于置信区间的宽窄
窄的置信区间比宽的置信区间能提供更多的有关总体参数的信息。
假设全班考试的平均分数为65分,则
置信区间间隔宽窄度表达的意思
0-100分 100 宽等于什么也没告诉你
30-80分50 较窄你能估出大概的平均分了(55分)
60-70分10 窄你几乎能判定全班的平均分了(65分)
三、样本量对置信区间的影响
影响:在置信水平固定的情况下,样本量越多,置信区间越窄。
下面是经过实践计算的样本量与置信区间关系的变化表(假设置信水平相同):
样本量置信区间间隔宽窄度
100 50%—70% 20 宽
800 56.2%-63.2% 7 较窄
1,600 57.5%—63% 5.5 较窄
3,200 58.5%—62% 3.5 更窄
由上表得出:
1、在置信水平相同的情况下,样本量越多,置信区间越窄。
2、置信区间变窄的速度不像样本量增加的速度那么快,也就是说并不是样本量增加一倍,置信区间也变窄一倍(实践证明,样本量要增加4倍,置信区间才能变窄一倍),所以当样本量达到一个量时(通常是1,200,如上例三个国家各抽了1,200个消费者),就不再增加样本了。
通过置信区间的计算公式来验证置信区间与样本量的关系
置信区间=样本的推断值±(可靠程度系数×)
从上述公式中可以看出:
在其他因素不变的情况下,样本量越多(大),置信区间越窄(小)。
四、置信水平对置信区间的影响
影响:在样本量相同的情况下,置信水平越高,置信区间越宽。
举例说明:美国做了一项对总统工作满意度的调查。
在调查抽取的1,200人中,有60%的人赞扬了总统的工作,抽样误差为±3%,置信水平为95%;如果将抽样误差减少为±2.3%,置信水平降到为90%。
则两组数字的情况比较如下:
抽样误差置信水平置信区间间隔宽窄度
±3% 95% 60%±3%=57%-63% 6 宽
±2.3% 90%60%±2.3%=57.7%-62.3% 4.6 窄
由上表得出:
在样本量相同的情况下(都是1,200人),置信水平越高(95%),置信区间越宽。
五、样本量对置信水平的影响
影响:在置信区间不变的情况下,样本量越多,置信水平越高。
举例说明:
置信区间样本量置信水平
52%-58% 1,200 95% (前面美国盖洛普公司的例子)”
/magazine/0252-3116/2008/03/.htm
图书馆用户满意度测评流程与技术分析
推荐到首页
□ 杨广锋韩新月王秀华《图书情报工作》2008年第03期
1/4页1234
[摘要]用户满意度测评的可靠性、有效性和实用性直接来源于测评的流程与技术应用,其中,调查方式、抽样技术以及调查邀请与督导构成了调查对象的控制技术,是数据采集范围的保证。
指标体系、量表设计、问卷形式与处理构成了调查数据的控制技术,保证了数据采集的形式和质量。
最后,数据统计分析和制图技术展现了测评的具体结果。
[关键词]用户满意度服务质量图书馆评价
[分类号]G251 G252
随着图书馆由资源范式向服务范式转型,服务质量和用户满意度成为图书馆评价关注的重点。
满意度测评(satisfaction measurement)是一种定量评价,其测评内容必须具有度量意义并且可以度量,测评指标体系的构建是首当其冲的研究重点,但测评流程和技术也是至为关键的。
因为无论多么完善的指标都只有经过严密的测评流程控制才能保证其可靠性、有效性和实用性。
1用户满意度概述
1.1图书馆用户满意度
用户满意是用户对其需求已被满足程度的感受。
满意度是这种感受的定量化描述,是用户接受产品和服务的实际感受和其价值感与期望值之间的差异函数。
满意度是在服务接触过程中具体形成的,不同行业的服务内容、服务方式决定了用户满意度各有特点。
随着信息技术的发展、信息自由和平等获取价值观的确立,任何具有信息需求的个体和群体都可能成为图书馆的用户,图书馆的服务范围得到空前拓展。
但同时,图书馆服务仍然具有不同于市场服务的特性:①多数图书馆尚不具备对所有用户群提供均等服务的经济力量,还必须在兼顾所有用户群的前提下寻求资源的合理配置;②图书馆需要保证最大程度地服务于母体机构的战略目标,也常常要为不同用户群提供质量不等的服务;③用户自身也并不能完全自由地选择图书馆服务的来源和内容,图书馆之间的用户争夺并不明显,网络、书店、咨询公司等才是图书馆用户转移的方向。
1.2测评一般流程
用户满意度测评是一种以用户为主体、以满意度为对象、兼具鉴定性和发展性的评价方法,具体包括比例法、均值法和结构方程模型法三种方法。
满意度测评是对用户的态度进行量化和对用户满意状况数据进行统计分析的过程,需要从样本数据中提取有统计价值的信息,并利用这些信息推断总体信息(见图1)。
从技术的角度看,可以把整个流程分为调查对象控制、调查数据控制和数据分析与展示三个方面。
图书馆服务的特点又决定了其具有不同于一般满意度测评的技术方法。
2调查对象的控制技术
调查对象即图书馆用户中参加测评的对象,是测评数据的具体来源。
选择调查对象既要照顾到各种用户群,又要考虑到图书馆服务的重点,既要照顾到调查的全面性,又要考虑调查的效率和可行性。
在满意度测评中,主要通过控制调查方式、抽样技术和调查邀请与督导来调节这几方面的平衡。
2.1调查方式
用户的调查方式有许多种,适用于满意度测评的方式主要有以下三种:
·面访调查。
面访调查即调查员持纸质的调查问卷进行当面调查。
面访调查中调查者具有主动性,可以有意识地按照调查意图控制样本和问卷的质量,在调查中也可以获取较多的信息内容。
但面访调查的成本较高,调查的客观性受调查员的影响也比较大。
·邮件调查。
最常见的邮件调查是邮寄调查和电子邮件调查。
另外,留置问卷调查也属于此种类型,即调查者将问卷发放到用户手中、邀请或要求其在一定时间内填写问卷后予以回收。
邮件调查的保密性好,没有调查员影响偏差。
但问卷回收率比较低,调查的可控性不强。
·网站调查。
网站调查就是把设计好的调查问卷放在机构主页上,让用户自主进行填写。
有时调查者也会向目标用户发出一份解释调查性质并邀请他们参加的电子邮件,邮件中包含调查问卷的超级链接。
网站问卷调查的结果可以自动进入数据库,便于快速处理。
网站问卷调查受用户主导,成本低、速度快,但调查对象、回答率比较难以控制。
目前,较为典型的网站调查方式的实例就是ARL的LibQUAL+TM。
2.2抽样技术
受测评成本、用户分布等限制,不可能对所有的用户都进行调查。
实际上,完全调查不会比随机抽样提供更多的信息。
用户抽样就是从总体中抽取若干个体作为调查样本,通过对样本的调查分析达到对总体情况了解的方法。
常见的抽样方法有:
·概率抽样。
也称随机抽样,就是按照随机原则进行抽样,总体中的每个个体都有一定的机会被抽中。
概率抽样能够保证样本数据对总体参数的代表性,而且它能够将调查误差中的抽样误差限制在一定范围之内。
但严格的概率抽样操作复杂、成本较高,对抽样设计人员的专业技术要求也较高。
·判断抽样。
判断抽样是指调查者根据实际情况人为地确定样本,或由了解情况的专家圈定样本的抽样方法。
判断抽样不利于对总体参数进行估计,也不能从概率的意义上控制误差。
因而理论上不具备由样本对总体进行推断的依据。
但判断样本对于图书馆用户满意度测评是非常有用的,因为图书馆用户呈现出较强的群体特征,如科研人员、研究生等身份用户群,或者理工、文史、医学等学科用户群。
有意识的判断抽样有利于更准确地反映图书馆的发展状况。
·自愿样本。
自愿样本不经过调查者的抽取,而是由自愿接受调查的用户直接组成样本,网站调查就是采取自愿样本的方法。
自愿样本组织方便、成本低廉,而且参与者大多是对调查内容的关心者,他们态度的分析更具价值性。
但自愿样本往往集中于某些特定的用户群,与总体结构相距较远,调查结果不能完全反映总体状况。
2.3调查邀请与督导
满意度测评往往需要综合应用多种调查方式和抽取技术。
同时,为了充分争取用户的配合,还会根据测评意图主动控制样本数量和规模。
面访调查时可以直接控制样本情况,而在邮件调查和网络调查时,则需要向目标用户主动发出“调查邀请函”。
在测评过程中,当样本结构出现偏差时还应适时发出及时“提醒信”。
邀请函和提醒信的内容基本相同,主要说明调查的内容、目的和意义,并申明调查资料的保密性,以充分争取用户的合作。
提醒信中还应重点标明调查的结束日期,提醒用户尽快填写问卷。
为方便用户,采取邮件调查时会直接附带问卷,网站调查时则直接在E-mail中标明调查问卷的超级链接。
3调查数据的控制技术
3.1指标体系设计
满意度比例法测评和均值法测评的指标体系设计采用的是层次化构建方法,即将用户满意度分解为几个方面,再将该方面具体化为若干具体指标。
在层次化指标体系中,同样涉及信息资源、信息人员、服务内容和图书馆环境四个方面,与传统的测评只是测评目的、出发点和主体上的区别。
层次化指标体系的构建不是一个逻辑思维的产物,而是需要使用德尔菲法、主成因法、因子分析法等多种方法,经过目标分解、指标简化、权值确定等多个环节以及局部试调、修正完善的严格实践验证过程。
完善的指标体系应具有的特征:①可以测量,具有统计分析意义和可操作性;②来源于用户,是用户认为重要的,具有实用性;③能够为图书馆所控制,对工作改进具有实际指导意义;④考虑到与竞争者的比较,便于基准检验、横向比较和学习,体现前瞻性。
但由于不同图书馆的服务方式、服务内容各有特色,具体测评的意图和目的也有所区别,层次化指标体系呈现很大的个体性和人为性。
结构方程法指标体系的设计则克服了这些缺点,它深入满意度形成的具体过程,从服务期望、服务感知、用户价值、满意度、忠诚度、抱怨度等前因后果上构建指标体系。
商业营销领域通用的满意度测评CSI(Customer Satisfaction Index)便采用了路径性指标体系构建方法和结构方程模型测评法。
3.2量表设计
指标体系确定了测评的内容,量表则规定了测评数据的形式。
满意度的测评尺度属于对于调查者心理状态和情感测度的态度量表,常有的形式有:
·李克特量表。
李克特量表用于测量对一句陈述的认同程度,一般设5级备选答案,范围从非常赞成到非常不赞成,中间为中性类。
例如“很满意、比较满意、一般、不满意、很不满意”。
在转化成量化数据时,通常需要人为赋值。
李克特量表的优点是简单易懂,但其结果不太精确,对于满意状态的覆盖面比较有限。
·语义差异量表。
语义差异量表以形容词的正反意义为基础,一般包含一系列形容词及其反义词,在每一个形容词和反义词之间有约7-11个区间,较多的级数可以更为精确地表示用户的态度。
同时,语义差异量表可以是对称量表,也可以具有某种倾向。
如表1所示的就是具有肯定倾向的语义量表,适合对服务表现比较好的图书馆进行用户满意度测评。
对于那些不太满意的用户,由于人数不多,可以逐一询问,探查他们不满意的原因,并及时予以补救。
·数字量表。
数字量表就是要求被访者对自己的态度直接给出一个分数的方法。
分数的级别大小没有严格限制,常用的有五分制、十分制和百分制。
数字量表将对态度强度的量化过程直接交给了用户,在一定程度上避免了对不同答案进行分级量化的主观偏差。
数字量表反映的信息较多,但填写难度比较大。
LibQUAL+TM采用的是用户选择打分的9级数字量表。
3.3问卷形式
·一列问卷表。
只调查用户的满意度,要求用户根据自己的实际感知与期望质量直接判定服务质量。
各项目的权重用户不予考虑,分析过程中可以忽略,也可以由专家赋值。
·两列问卷表。
同时调查用户满意度和关注度,用户在确定自己对于某项目的满意程度时,要同时判定该项目的重要性。
用户关注度的调查是把项目权重的赋予权交给了用户(见表2)。
3.4问卷处理
满意度调查一般持续一个月左右。
在调查期间,要及时回收问卷。
问卷回收工作的要点是:①及时掌
握每天完成的问卷数和接受的问卷数,以掌握测评的进度;②对接受的每一份问卷都要记录一个唯一的、有顺序的识别号码,作为原始的文件,以方便随时查找原始资料;③问卷回收必须保证原始问卷的良好保存。
问卷处理时还需要鉴别有效问卷,即具有数据统计分析意义、并且符合测评目的的问卷。
不符合要求的问卷便视为无效问卷,弃而不用。
无效问卷通常有这样几种情况:①回答不完全,即有相当多的问卷没有填写答案。
例如,清华大学的调查中超过1/3的问题没有回答的即视为无效㈣;②回答没有变化的问卷,例如在7级的量表中,其回答全是4,完全没有正向或者反向的看法;③在截至日期之后回收的问卷;④前后矛盾或有明显错误的问卷,例如具体项目都比较满意但总体满意度很差的问卷;⑤纸质问卷调查中有明显缺损的问卷。
4调查数据分析与展示
4.1数据分析
数据统计分析是应用SAS、SPSS等软件对采集到的原始数据进行运算处理,并由此对研究总体进行定量描述与推论,从而得出最后的测评结果。
统计分析的方法包括:
·描述统计分析。
描述统计是对其调查数据的集中趋势(众数、中位数、平均数)和离散趋势(标准差、方差、离散系数)进行数量描述的分析方法,着重于对数量水平或其他特征的描述,而不具有推断性质。
·推论统计分析。
满意度测评是通过抽样调查推断用户总体的方法,这种推断成立的前提包括问卷设计的科学性和样本抽取的有效性。
前者需要进行相关的信度和效度检验,信度检验保证调查结果的一致性、稳定性和可靠性;效度检验保证问卷能够真实地测量到所有测量的东西,达到测评的目的。
样本抽取的有效性需要进行必要的参数估计,通过推断总体参数的置信区间来判断。
·多元统计分析。
多元统计是对多个变量进行分析的技术,诸如判别分析、因子分析、聚类分析等具体方法。
在用户满意度测评中,多元统计分析是判断测评指标稳定性的重要工具。
LibQUAL+TM测评方面变化的依据就是多元统计分析,特别是因子分析的结果。
4.2制图技术
满意度测评的结果一般需要利用图形来予以形象化的展示。
除传统的圆饼图、线图、条形图外,还有一些针对不同问卷调查形式的专门制图技术:
4.2.1 满意度对比图如果满意度测评采用李克特5级量表和一列问卷表的形式,满意度对比图就是最适用的图解方法(见图2),其方法是:将“比较满意”和“很满意”的百分数相加或叠加在一起,称为满意度;将“很不满意”和“不满意”的百分比合并,称为不满意度,将满意度和不满意度分别按直方图的形式做成对比图;中立的态度“一般”在图中不出现。
满意度对比图可以直观地表示出用户对各项项目的满意程度。
br> 4.2.2关注度/满意度矩阵关注度/满意度矩阵是两列问卷表的图示工具。
如图3所示,矩阵图中纵轴表示用户的关注度(重要性),横轴表示用户的满意度,从而形成四个象限。
根据测评的结果将各项目在此矩阵中进行定位。
关注度/满意度矩阵的优点在于能够对各项目进行分析,如落在图中的阴影部分的项目即表示用户关注度高但图书馆表现比较差的环节,是今后工作中需要重点改进的部分。
4.2.3容忍阈图和雷达图三列问卷表形式的制图技术有容忍阈图和雷达图两种。
容忍阈图如图4所示,用户的最低服务期望和理想服务期望之间会形成一个服务容忍区域,也就是容忍阈;用户实际感知与最低服务之间的差距构成服务的合格度,实际感知与理想服务之间的差距构成服务的优秀度。
将这些指标统一到一个坐标系中就形成了容忍阂图。
容忍阈图的优点在于可以同时表示项目的重要程度、合格程度和优秀程度。
如果指标比较多,雷达图(Radar Chart)就是较好的图示工具。
雷达图又称为蜘蛛网型图(SpiderChart),是将分值转化为一组同心圆,各项目或测评指标构成从圆心散射的若干轮辐,然后根据测评的结果在其间
进行标识。
当把各指标的理想期望、最低期望和实际感知分别连结后,就会形成不同的区域。
灰色的区域表示实际感知高于理想服务水平,是图书馆服务的强势;而黑色的区域表示实际感知低于最低期望,是以后工作改进的重点。
5结语
调查对象的控制确保了数据采集的范围,调查数据的控制保证了数据采集的形式和质量,数据的分析与展示反映了测评的具体结果,三者相互影响、互为因果,需要根据具体情况密切配合才能取得良好的测评效果。
当然,完整的满意度测评还需要辅之以定性方法,并在测评的有效性和实用性、测评成本和信息价值之间取得平衡。