敏感问题调查方法研究综述
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
敏感问题调查方法研究综述
摘要:本文梳理总结了敏感问题抽样调查方法自首次提出以来的研究成果,包括随机化回答技术和非随机化回答技术两大类,前者需要使用随机化装置而后者不需要。
不同调查模型间的科学比较是在相同保护度的前提下比较效率,或在相同效率下比较保护度,讨论了如何科学定义隐私的保护度。
最后,归纳出了敏感问题抽样调查方法存在的问题及未来的发展方向。
关键词:敏感性问题;随机化回答技术;非随机化回答技术;保护度
一、引言
在抽样调查中,经常会遇到敏感性问题,即所调查的内容涉及商业机密或个人隐私而不便向外界透露的问题。
如考生考生作弊、企业偷税漏税及其数额、个人的不良嗜好或行为等等。
敏感性问题按问题指标特征可分为定性特征问题和定量特征问题两类。
定性的敏感性问题反映敏感特性的性质和类别,其调查目标是得到具有敏感特征的人在总体中的比例。
定量的敏感性问题反映了敏感特性的数值大小,其统计指标主要是均值。
定性的敏感性问题又可进一步分为二项选择(二分类)敏感性问题和多项选择(多分类)敏感性问题。
对于敏感性问题,调查中若采用直接调查的方式,很难取得被调查者的信任和配合,往往会引起被调查者的抵触而拒绝回答或故意做出错误的回答,从而大大增加调查中的非抽样误差。
因此对这一类调查必须采用经过特别设计的调查方法,以消除被调查者的顾虑,使他们能够如实回答问题。
这种特别设计的非直接提问方式能够使得被调查者提供的信息看上去不敏感,从而保护被调查者的隐私,但调查者却可以从被调查者的回答中提取出所需信息。
经过几十年的发展,国外学者对敏感性问题抽样调查的理论和应用研究都取得了重要进展,然而在我国,理论研究虽有涉及但以学习介绍为主,实践方面虽有运用但范围有限。
笔者在详细回顾国内外相关文献的基础上,对敏感性问题抽样调查理论进行系统的梳理和综述,并总结存在的问题及未来研究的趋势,为后续的理论和应用研究提供参考。
二、随机化回答技术
考察国内外关于敏感性问题抽样调查研究方面的文献资料可知,最近50多年来很多学者针对不同类型的问题,从随机化回答技术(Randomized Response Technique, RRT )和非随机化回答技术两方面进行了广泛而深入的研究,前者需要使用随机化装置而后者不需要。
本节介绍随机化回答技术,该方法已经取得了丰富的理论研究成果,代表性的有:
(一)定性的随机化回答技术
1.Warner [1]模型
美国统计学家Warner 于1965年首次提出随机化回答模型,开创了敏感性问题调查的先河。
该模型的调查设计是向被调查者展示两个与敏感性问题(具有特征A )有关但完全对立的问题:一个问题是“你具有特征A 吗?”,另一个问题是“你不具有特征A 吗?”。
对两个问题的答案都只有“是”与“否”两种。
实施随机化回答需要设计一种随机化装置,使被调查者以已知概率p 回答第一个问题,而以概率1-p 回答第二个问题。
重要的是调查者不知道被调查人回答的是哪一个问题,从而保护了被调查者的隐私。
设总体中具有特征A 的比例为A π,则样本中回答“是”的概率为
()=+(1)-A A P p p ππ-是(1)(1)
考虑一个放回简单随机样本,若n 个被调查者中有m 个回答“是”,则A π的一个
估计ˆA π
满足 ˆˆ=+(1)-A A m p p n
ππ-(1) 当12p ≠时,有
1ˆ(1)21A m p p n π
⎛⎫=-- ⎪-⎝⎭
其方差为 2-(1)ˆ()(21)
A A A p p V n n p πππ
-=+-(1) 它的一个无偏估计为
2ˆˆ-(1)ˆ()1(21)
A A A p p v n n p πππ-=+--(1) 2.Simmons [2]模型(无关问题模型)
由于Warner 模型中两个调查问题都是敏感性问题,只是提法相反,对此被调查者可能仍有疑虑而不愿合作,另外Warner 模型要求12p ≠,且当p 接近12时估计量的方差增大,而当p 离12太远,即接近0或1时,又会增加被调查者的顾虑。
为克服Warner 模型的上述缺点, Simmons (1967)将敏感问题的对立问题改成了与调查问题毫无关联的非敏感性问题,总体中具有非敏感特征B 的比例B π在设计时已知。
样本中回答“是”的概率为
()=+(1)(2)A B
P p p ππ-是
A π一个估计ˆA π
满足 ˆ=+(1)A B m p p n ππ- 这样
1ˆ(1)A B m p p n π
π⎛⎫=-- ⎪⎝⎭
其方差为 222-(1)(1)(1)(2)ˆ()A A
B B A B A B A p p p V n np np
πππππππππ---+-=++(1) 它的一个无偏估计为
21ˆ()(1)(1)A m m v n p n n
π
=-- 3.Greenberg [3]模型 Greenberg 等人(1969)详尽的讨论了Simmons 模型,将其推广到B π未知时的情形,由于有两个未知数,此时需要两个样本。
设从总体中抽取两个独立的样本,其样本量分别为1n 和2n ,12n n n =+。
两个问题在两套随机化装置中出现的
比例为:(1)1,2i i p p i -=,其中12()i p p p ≠已知,则两套随机化装置中回答“是”的概率为
(1)1,2(3)i i A i B p p i λππ=+-=
设若两个样本中回答“是”的人数分别为1n '和2n ',令111ˆn n λ'=和222
ˆn n λ'=,于是A π的无偏估计为:
1221
12ˆˆ(1)(1)ˆA p p p p λλπ---=-
它的方差为
221122*********
(1)(1)(1)(1)1ˆ()[]()A p p V p p p p n n λλλλπ----=+≠-
它的一个无偏估计为 2211222121212
ˆˆˆˆ(1)(1)(1)(1)1ˆ()[]()A p p v p p n n λλλλπ----=+- Greenberg 指出B π已知时的精度比B π未知时的精度高,这是因为B π未知时需要牺牲一部分样本信息去估计B π,并给出了几个选择参数的建议:
1)当B π已知时如何选择B π:如果根据以往的信息能够大致估计出A π的值,则让B π与A π在0.5的同一边并尽量让0.5B π-大一些。
如果对A π一无所知,则让B π介于0.25和0.75之间。
2)如何选择12p p 、:首先在不增加被调查者的顾虑下选择1p (一般使1p 在0.2或0.8附近),然后选择2p ,使得21=1p p -。
3)如何选择1n 和2n :精度最高时样本量分配公式(最优分配)为
12n n =4)在选择B π和12p p 、时不应只考虑估计量的方差,还应考虑被调查者的合
作度,否则虚假回答或拒绝回答所造成的非抽样偏差将在均方差中占有很大比重。
当问题高度敏感时,即使采用随机化回答模型,人们仍然可能不如实回答。
当人们不完全真实回答时,Greenberg 等人给出了Warner 模型和Simmons 模型的有偏估计量并指出,由于Simmons 模型中的第二个问题是与调查问题毫无关联的非敏感性问题,其真实回答率比Warner 模型高,因此Simmons 模型的精度要比Warner 模型高很多。
即使两个模型的真实回答率一样,如果Simmons 模型中两个样本的样本量采取最优分配,Simmons 模型的精度仍然要比Warner 模型高。
而且只要真实回答率上升一点点,这两个模型中的偏差(bias )在均方差中的比重便会迅速下降,仅从这一点看,Simmons 模型要比Warner 模型好很多。
4.Kuk [4]模型
大多数随机化回答模型都有一部分被调查者要直面敏感性问题回答“是”或“否”,被调查者可能仍会有疑虑,为了克服这个缺点,Kuk (1990)提出一种新的模型,他给每个被调查者提供两个装有红白两种卡片的盒子,红卡片的比例分别为1θ和212θθθ≠()
,若被调查者具有敏感性特征A ,则从第一个盒子中随机抽取一张卡片并回答卡片的颜色,否则从第二个盒子中随机抽取一张卡片并回答卡片的颜色。
设总体中具有敏感性特征A 的比例为A π,则对任意一个被调查者,抽到红色卡片的概率为
12()=+-A A P θπθπ红(1)(4)
若样本中回答红色卡片的比例为r ,则A π的一个估计ˆA π
为 212
ˆA r θπ
θθ-=- 其方差为 2
12()(1())ˆ()()A P P V n π
θθ-=-红红 它的一个无偏估计为 212()(1())ˆ()(1)()
A P P v n πθθ-=--红红
因此,若12=,1p p θθ=-,则该模型的精度等同于Warner 模型;而若1=(1),B p p θπ+-2(1)B p θπ=-,则该模型的精度等同于Simmons 模型。
Kuk 模型的另一个优点是可以重复,从而可以在不增加调查费用的前提下获得更多数据提高精度:若被调查者具有敏感性特征A ,则从第一个盒子中以放回简单随机抽样方式抽取K 张卡片并回答所抽到的红卡片数,否则从第二个盒子中以放回简单随机抽样方式抽取K 张卡片并回答所抽到的红卡片数。
若样本中回答红色卡片的比例为k r ,则A π的一个估计ˆA π
为 212
ˆk A r θπ
θθ-=- 其方差为 212(1)1()(1())1ˆ()(1)()A A A P P V k n k n
πππθθ--=+--红红 因此,K 越大,精度越高。
5.Mangat 模型
Mangat (1990)[5]提出了一个需要两个随机化装置的模型,在该方法中,所有被调查者首先经历第一套装置,以概率T 回答敏感性问题,以概率1T -抽取第二套随机装置,在第二套随机装置中,以概率p 回答敏感性问题,以概率1p -回答无关问题,即第二套装置与Warner 模型的相同。
于是对任意一个被调查者,回答为“是”的概率为
[(1)](1)(1)(5)A B T p T T p λππ=+-+--
因此,Mangat (1990)模型介于直接提问模型和Warner 模型之间,T 越大,直接回答的比例越大,精度越高。
当121p T p
->-时,该模型的精度高于Warner 模型。
当1T =时,该模型等同于直接提问模型。
当0T =时,该模型等同于Warner 模型。
1994年,Mangat [6]对1990年的模型进行了简化,其调查设计是让具有敏感特征A 的被调查者回答“是”,否则运用与Warner 模型相同的装置随机回答,于是有
()(1)(1)(6)A A P p ππ=+--是
即回答“是”的人有属于A 的也有不属于A 的,而回答“否”的人则全部来自于没有敏感特征的人群,Mangat 认为这样能提高被调查者的合作度,而且当1>p 时,此模型的精度比Warner 模型高,此外,该模型比Mangat (1990)模型操作简单。
6.贝叶斯模型
Warner 模型中所得到的无偏估计量ˆA π
并不是最大似然估计,这是因为ˆA π有可能不属于区间[0,1],它有可能为负数也有可能大于1,最大似然估计应为
ˆmin{max{0,},1}A π
,但该估计量是有偏的。
由于这个原因,同时也为了尽可能地利用一切已有信息(尤其对于随机化回答的样本来说,先验信息即抽样前就已知了的有关A π的信息更是宝贵,因为为了换取真实回答已经牺牲一部分样本信息了), Winkler 和Franklin [7]于1979年首次提出了随机化回答模型下的贝叶斯估计(基于Warner 模型)。
在Warner 模型中,回答“是”的概率为
(=+(-)(1-)A A P p p ππ是)1
因此, -(p P p ≤≤1是)
样本中回答“是”的人数服从参数为(),(n P 是)的二项分布,而二项分布和贝塔分布是一对共轭分布,由于共轭分布能极大简化贝叶斯推断,使得后验分布和先验分布具有相同的形式,他们假定待估参数A π的先验分布为贝塔分布(选择贝塔分布的另一个原因是根据往年的信息,A π的分布可能接近贝塔分布)。
由于在随机化回答模型下不是全部样本信息有用(或者说由于-(p P p ≤≤1是),而非0(1P ≤≤是)),因而A π的后验分布是1(n n +为样本容量)个不同贝塔分布的混合而非单一的贝塔分布(如果是通常的直接提问模型,则得到单一的贝塔分布),为简化计算,Winkler 和Franklin 将似然函数作了近似处理,仍然得到了较准确的贝叶斯估计。
Pitz [8](1980)则对Simmons 模型给出了贝叶斯分析, 他考虑的是抽样前
对A π一无所知的情况,于是假定先验分布为[0,1]上的均匀分布,由于均匀分布是贝塔分布的一个特殊情况,他得到了与上面类似的结论。
O ’Hagan [9](1987)给出了更稳健且计算更简单的线性贝叶斯估计,将其用于Warner 模型和Simmons 模型,并与前面两篇论文的结果作了比较。
该贝叶斯方法不要求完全知道先验分布,只需要知道先验分布的一阶和二阶矩。
从比较的结果来看,只要先验分布不要太偏离正态分布,就能得到较准确的估计。
这样当人们对先验分布不确定时,该方法就很有优势了。
Wakeel 等人[10](2013)用Simmons 模型估计总体中具有稀有敏感特征的比例A π,为提高精度,选择了一个无关问题使B π也很小,这样当样本容量较大时 ,回答“是”的人数近似服从参数为(1)A B p P λλλ=+-(,A A n λπ=其中 )B B n λπ=的泊松分布。
由于泊松分布与伽马分布是共轭分布,他们假设λ的先验分布为伽马分布,算出后验分布为复合伽马分布,从而得到A λ的贝叶斯估计量,并用数据模拟的方法证实了该贝叶斯估计量比古典方法得到的估计量更有效。
(二)定量的随机化回答技术
1.Greenberg [11]模型
该模型(1971)直接来源于定性的无关问题模型,其操作与定性的特征时一样,被调查者以概率p 回答敏感性特征问题,以概率1p -回答不相关特征问题。
不管回答的是哪个问题,调查结果都用变量Z 表示,令X 为敏感性特征变量,Y 是从已知的无关特征变量的分布中产生的随机值,假设X Y 和相互独立,则
(1)(7)Z pX p Y =+-
(1)EZ pEX p EY =+-
设从总体中有放回地抽取容量为n 的简单随机样本,记获得的调查数据为1,,,n z z 且
1
1n
i i z z n ==∑ 则EX 的一个无偏估计为
1[(1)]EX z p EY p =--
其方差为 22
1()[()(1)[()()](1)()]V EX V X p V Y V X p p EY EX np =+--+--为了提高精度,一般选择Y 使得()()V Y V X =和EY EX =,当然这里EX 和()V X 是不知道的,只是根据以往的信息得到的一个估计值。
2. Himmelfarb 等人[12]的模型
也叫加法模型,在该方法(1980)中,被调查者给出的回答是敏感特征的值和无关特征的值之和,其目的是用无关的随机数据来干扰真实的数据,使得调查者无法知晓敏感性特征的真实值,从而达到消除被调查者顾虑的目的。
采用上面的记号,记调查结果为:
+(8)Z X Y
=
则 +EZ EX EY =
设从总体中有放回地抽取容量为n 的简单随机样本,记获得的调查数据为1,,,n z z 且
1
1n
i i z z n ==∑ 则EX 的一个无偏估计为 -EX
z EY =
其方差为 1()[()()]V EX V X V Y n =+
加法模型EY 和()V Y 的选取和Greenberg 模型一样,即选择Y 使得()()V Y V X =和EY EX =。
当0.7p ≤时,加法模型精度更高。
而一般情况下0.7p ≤是成立的,否则被调查者不愿意合作。
因此,加法模型优于Greenberg 模型。
3. Eichhorn 等人[13]的模型
也叫乘法模型(1983),与加法模型类似,所不同的只是被调查者给出的回
答是敏感特征的值和无关特征的值之积,即
(9)Z XY
=
则 EZ EXEY =
设从总体中有放回地抽取容量为n 的简单随机样本,记获得的调查数据为1,,,n z z 且
1
1n
i i z z n ==∑ 则EX 的一个无偏估计为 z EX EY
=
其方差为 221()()[()()]E X V X V EX V X V Y n E Y +=+
因此,当EY >
从上述讨论还可看出,加法模型估计量的方差只取决于()V X 和()V Y ,而另外两个模型(Greenberg 模型和乘法模型)还取决于EX 和EY 。
4.Gupta [14]模型
很多时候,对于同一个问题,有的人认为敏感而有的人并不觉得敏感。
例如最低工资问题,那些最低工资水平低于当地最低工资标准的用人单位会认为敏感,而那些最低工资水平高于当地最低工资标准的用人单位则并不认为这是什么敏感性问题。
由于这个原因,Gupta (2002)等人觉得可以让不认为问题敏感的人直接回答,而那些认为问题敏感的人可以用无关的随机数据来掩饰,于是在乘法模型的基础上引入敏感性水平w ,即被调查者中认为问题敏感的比例,该值未知,也需要通过样本估计,记调查结果为:
,1(10),X w Z XY w -⎧=⎨⎩
调查过程中调查者并不知道调查对象直接回答与否,由于有一部分人直接回
答,该模型的精度比乘法模型高。
近来有很多人投入到这一类模型的研究中。
从以上丰硕的关于随机化回答技术的成果可以看出,通过随机化回答技术,虽然使估计量的方差增大、估计精度有所下降,但能够得到真实回答,消除了虚报和瞒报的现象,从而减少了非抽样误差。
这种以牺牲一定的估计精度换取真实回答的做法还是值得的。
另一方面,但随机化回答技术的缺点也不少,主要有:
1)需要在现场实施,不方便将随机化装置与问卷结合,而问卷调查是抽样调查中应用最为广泛的一种调查方式。
2)不易被一般的被调查者理解,必须对调查人员进行培训,使之充分理解随机化回答技术的原理,这样才能很好地向被调查者进行解释。
3)在对调查资料进行核对时,如果发现异常想要再次调查很困难,因为随机化回答本身的特殊性,再来一次随机抽取可能会给出不同的答案。
三、非随机化回答技术
由于随机化回答技术有不少局限,人们又提出了敏感性问题的不需要装置(只是不需要装置,这并不表明没有随机性,仍有可能是随机化回答)的特殊调查方法,我们统称为非随机化回答技术,意为除随机化回答技术之外的其他方法,代表性的有:
ler等人 [15]的模型
该方法(1986)容易理解,方便采取问卷调查的方式,因而可以用于大规模调查。
从总体中有放回地随机抽取两个独立样本,第一个样本面对的是含有m个无关的非敏感性问题的问卷,第二个样本所面对的问卷除了含有与第一个样本相同的m个问题之外,还有一个敏感性问题,共1
m+个问题。
对于定性的敏感性问题,被调查者给出回答“是”的问题数目。
设总体中具
π,则它的无偏估计量为第二个样本与第一个样本的回答有敏感特征的比例为
A
“是”的问题数目均值之差。
对于定量的敏感性问题,被调查者给出所有问题答案的和。
设X为敏感性特征变量,则其均值的无偏估计量为第二个样本与第一个样本的样本均值之差。
此模型与随机化回答技术中的加法模型、乘法模型类似,也是用无关的数据来干
扰真实的数据,但这里无关数据的均值不必知道。
选择m 要合适,太小人们不愿意合作,太大则精度低且费时费力,被调查者也容易不耐烦。
2.Droitcour 等人[16]的模型
Droitcour 等人(2001)提出的模型需要三个独立的样本,设A 表示具有敏感特征的人群,B 、C 和D 分别表示其他三个具有不相关非敏感特征的人群,这四个人群互斥。
估计目标是总体中某人属于A 的概率A π。
给第一个样本提供如下三种卡片:
卡片1:我属于B ;卡片2:我属于C 或D 或A ;卡片3:我既不符合卡片1也不符合卡片2。
给第二个样本提供如下三种卡片:
卡片1:我属于C ;卡片2:我属于B 或D 或A ;卡片3:我既不符合卡片1也不符合卡片2。
给第三个样本提供如下三种卡片:
卡片1:我属于D ;卡片2:我属于B 或C 或A ;卡片3:我既不符合卡片1也不符合卡片2。
被调查者回答符合自己情况的卡片数字。
令B π表示总体中某人属于B 的概
率,则其估计值ˆB π可用第一个样本中回答卡片1的比例来表示,同理ˆC π和ˆD π
分别用第二、三个样本中回答卡片1的比例来表示。
设1ˆACD π
表示第一个样本中回答卡片2的比例,则
11ˆˆˆˆ=(11)A ACD C D π
πππ--
类似地,有 22ˆˆˆˆ=(12)A ABD B D π
πππ-- 33ˆˆˆˆ=(13)A ABC B C ππππ--
将12ˆˆA A π
π、和3ˆA π这三个估计量适当组合以使方差尽可能小。
这篇文章中A 、B 、C 和D 分别为非法滞留在美国的人群、有美国绿卡的人群、美国公民和有学生签证或工作签证的人群,但在实践中,对于其他敏感问题,找四个互斥的人群很难。
3.Yu 等人[17]的模型
Yu 等人(2008)提出了一种不需要任何随机化装置但又不失随机化特性的方法。
现有相互独立的敏感特征A 和非敏感特征B ,如果被调查者至少具有其中一个特征则回答“是”,否则回答“否”。
于是回答“否”的概率为
(=(-)(-)(14)A B P ππ否)11
或如果被调查者只具有A 或B 则回答“是”,否则回答“否”。
于是回答“是”的概率为
(=(-)+(-)
(15)A B B A P ππππ是)11
两个方法中B π均已知。
4.Esponda 等人[18]的模型
考虑问题
1.我的月收入为() A .低于5000元; B.5000~10000元 C.高于10000元
这三个选项互斥且完备,因此对于任何人来说,只有一个选项符合,于是其对立问题
2.我的月收入不是()
A .低于5000元; B.5000~10000元 C.高于10000元
则有多个选项符合,如果被调查者只需选择其中一个答案,则隐私能够得到保护,这就是Esponda 等人(2009)提出的方法。
例如,若问题1中被调查者符合C ,则在问题2中该被调查者会选择A 或B 。
对于问题2每一个调查对象都可能在其中两个选项中选择一个,假设二者的概率都是0.5,令X 表示真实选项变量,Y 表示被调查者填写的选项变量,则
(=((((P Y A P Y A X A P X A P Y A X B P X B ====+===)|))|))
((P Y A X C P X C +===|))
0(0.5(0.5(P X A P X B P X C ==+=+=)))
0.5(0.5(P X B P X C ==+=))
(16)
同理
(0.5(0.5(P Y B P X A P X C ===+=)))
(17) (0.5(0.5(P Y C P X A P X B ===+=)))
(18)
我们还有 (+(+(=1P X A P X B P X C ===)))
分别用样本中选择A 、B 和C 的比例替代((P Y A P Y B ==)、)和(P Y C =),解其中任意三个方程,便可以得到((P X A P X B ==)、)和(P X C =)即总体中月收入分别为低于5000元、5000~10000元、高于10000元的估计值。
不过,被调查者在其中两个选项中选择一个的概率未必相等,例如,若问题1中被调查者符合B ,则在问题2中该被调查者会选择A 或C ,但为了不露富,其选择C 的概率很可能会高于A 。
对与如何确定这些概率,有人建议可以引导调查对象让他们以等概率在1k -个(如果总共k 个)答案中选取一个(比如给每位被调查者提供一个有1k -面的均匀骰子),如果想让调查对象选择各选项的概率不相等,则给一个以不同概率产生数字的随机化装置。
不过这里使用上了装置,又回到了随机化回答技术,怎么确定这些概率还需进一步研究。
5.涂光华等人[19]的模型
无论对随机化回答模型如何加以改进,其中必有一个直接的敏感性问题,如果将该敏感性问题不加区分地或未做任何处理地向所有被调查者提出,难免给人以唐突感与厌恶感。
因此,涂光华(2002)提出分层弱化模型,即选择与目标问题相关的非敏感分层标志以划分不同的调查层,再根据各层被调查人群的不同心理特点或性格特征,相应设计每层弱化或非弱化的敏感性问题,达到降低敏感性问题的敏感度、争取被调查者合作的目的。
例如,某企业在对其减肥产品的调查中急需被调查者的体重区间这一数据资料,于是采用被调查者对产品使用效果的评价作为非敏感分层标志,具体提出“您对该产品的效果满意吗?”等诸如此类的问题作为分层标志,将使用该产品的被调查者划分为两类:满意者划入非敏感人群,不满意者划入敏感人群。
对于非敏感人群,可直接提出“您现在的体重是_____公斤”这一敏感性问题或经过略微弱化的敏感性问题。
对于敏感人群,则需将目标问题转化为敏感度较低或非敏感的问题逐步提出,比如“您认为理想的减肥产品应在一月内将体重减少_____公
斤,达到您满意的体重标准疗效应不超过_____月,您理想的体重标准为_____公斤”。
从上述几个方法可以看出,非随机化回答技术容易被调查对象理解,也能改进参与者的合作,且有RRT所没有的优点,但也都有麻烦,例如第一个方法中,对于定性的敏感性问题,如果第二个样本中某个被调查者所有1
m+个问题都符合,那他就肯定具有敏感性特征;第五个方法中非敏感分层标志不好找等等。
RRT 中有很多模型可用于定量的敏感性问题,非随机化回答技术中则很少, 而在实践中定量的信息往往比定性的信息更为重要,如居民的收入水平,企业的利润、纳
税情况等。
限于篇幅,文中有些模型主要阐明其原理而省略了估计量的方差的表达式,感兴趣的读者可参考相关文献。
四、敏感问题调查方法的比较
采用特殊的方法对敏感问题实施抽样调查,至今已有很多可供选择的策略,其中大多数策略是通过选择恰当的设计参数来达到改进效率目的的。
大多数情况下,人们选择策略的方法是比较各种估计量的方差(如果估计量是无偏的)或比较它们的均方差(如果估计量是有偏的)。
但很多学者认为这样比较并不公平,提出应在相同保护度的前提下比较效率,或在相同效率下比较保护度。
二者呈反方向变化,即一个高,另一个就会低。
通常,人们用条件概率来表示保护度,例如,Lanke(1976)[20]定义了如下测度
()
=))
g A P A Y P A N
()max(,(
其中(P A Y)和(P A N)分别表示当个体回答“是”和“否”时该个体属于敏感群A的概率。
()
g A越小,保护度越高。
五、启示与展望
本文对国内外已有的敏感性问题抽样调查方法进行了理论化、系统化的研究综述,并重点总结了各类随机化回答技术和非随机化回答技术,这些非直接提问方法有效地减少了错误回答和拒绝回答带来的非抽样误差。
然而,敏感问题抽样调查方法无论理论研究还是应用研究都还存在尚未涉及的领域和需要改进的地方,对于理论研究和应用研究都相对落后的我国也有学习引进和大力推广的必要。