敏感性问题的调查技术与模型

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。


(1-





p(1-p)
(2p-1)2
从而Var( )的一个无偏估计为 A
Var( )= A
(1-


) A+
p(1-p)
n(2p-1)2
3. 评价
由 Var( )可以看出 P 越靠近 1/2 则 Var( )的值越


大 当 P 比较靠近 0 或 1 时 Var( )就越小 但另一方面 A
不是 却不知对方回答问题的归属 因而不可能直接知道对
方是否具有敏感性特征 如果将抽取卡片和进行回答视作两个
36 北京统计 2001-8 总第 1 3 8 期
研究论坛
步骤 模型设计可图示如下
P 被调查者

卡片 A 1-


1-P 卡片 B 1- A
是 具有卡片 A 的特征 不是 具有卡片 B 的特征 是 具有卡片 A 的特征 不是 具有卡片 B 的特征
性强 必要时还要进行示范 所以在实践中 随机化回答技术
使用范围主要用于访问调查中 而其他调查方法中则较之为

三 基本模型
在选定了随机化回答技术之后 则需构建一定的模型对有
关参数及总体特征进行估计 随机化回答模型包括 沃纳随机
化回答模型 西蒙斯随机化回答模型及其他一些模型
一 沃纳随机化回答模型
查时 由被调查者从盒子里任抽一张卡片 根据卡片上的问题
做出回答 回答完毕再把卡片放回盒子 至于卡片上是什么问
题 调查者无权过问 调查完毕后 调查者再对调查结果进行
汇总 利用概率原理 便可推算出学生总体中具有作弊行为人
数比例的估计值 从理论上讲 随机化回答技术应该有较为广
泛的适用范围 但由于随机化回答问卷的设计较为复杂 专业
1. 基本思想是 根据敏感性特征设计两个相互独立或相
反的问题 让被调查者按预定的概率从中选一个回答 调查者
无权过问被调查者回答的是那一个问题 从而起到了为被调查
者保密的效果
2. 模型的设计及参数估计
设总体有互不相容的两类 A 和A 即总体中具有敏感性特
征的总体单位构成总体A 不具有敏感性特征的总体单位构成
回答 是 的人数为 30 人 试以 95% 的把握程度对作弊学生
的比例进行区间估计
据题已知 n=200 n =30 p=1/2 查阅有关资料有知 7 1
月份出生人数比例
=1/4 y
利用西蒙斯模型则有





1-p



30


40 -
1- 2 1
1 =0.05

的方差估计量为 A
取 100名大学生调查 结果有28 个人回答 是 22 人回答 不
是 试用 95% 的把握程度估计酗酒人数比例的置信区间
依题知 n=100 n1=28 p=75% t=1.96 据沃纳模型
则有

28


-(1-p)
100 -(1-75%)
= = =0.06
参与调查 积极配合 并提供真实情况 另一方面 调查通过
对所有调查结果的汇总 利用概率原理进行推算 就可以得到
总体中具有该特征人数比例的估计值 从而实现调查的目的
例如 在调查学生考试作弊问题中 可设计外形完全一样的卡
片 n 个 其中 n 个卡片上写上 你考试是否作过弊 n 个


卡片上写上另外的问题 n +n =n 然后放在一个盒子里 调 01
当 P 较接近于 1 或 0 时 对被调查者的保护程度就会降低 从
而配合性差 数据收集困难 因而 P 的取值一般介于 0.7-0.8
之间较佳 由Var( )可以看出 方差的第一项就是通常估计 A
总体比例所用的方差 后一项则是由于随机化回答技术所引起
的增加部分 因此 采用随机化回答技术推断总体比例的置信
总体 B 现进行的是简单随机重复抽样 样本容量为 n 采用
随机化模型回答 基本设计方法是 外形相同的卡片上分别写
有 你属于 A 吗
你属于 A 吗 两个相互独立或相反
的问题 并以预定的概率 P 混合放入一个盒子中构成一个总
体 调查时被调查者按照随机原则从盒子中任拿出一卡片 根
据卡片上的问题进行回答 回答后仍把卡片放回盒子 片卡数
抽取卡片 进行回答
在上图中 设具有卡片 A 特征人数的比例为 假设所 A
有被调查者的回答都是真实的 且假设
{x 1 若被调查者回答 是
i 0 若被调查者回答 不是
则有P(x =1)= P+(1- )(1-P) i=1, 2, , n


( ) ( ) 1
Var(
)=

np


1Байду номын сангаас

1-




30
30


2 0 0 (1- 2 0 0 )=0.00255
200 2 2
置信区间为
( ) t Var( ) =0.05 1.96 0.00255


=0.06 0.176
或者说 可以以95%的把握程度推断 某市大学生酗酒人 数比例低于23.6% 二 西蒙斯随机化回答模型 1. 问题的提出 深究沃纳模型 不难发现其两个缺点 一 是要求被调查者可能回答的两个问题存在相关关系 会引起调 查者的怀疑而不予合作 二是设计卡片时 P不能等于1/2 否 则公式无法使用 然而 从消除被调查者的顾虑来看 则要求 P=1/2 最佳 以保证两类卡片机会的均等性 基于此 西蒙斯 在沃纳斯模型的基础上提出了一种修改模型 即西蒙斯随机化 模型 2. 基本思想 在西蒙斯模型中 除了需要调查的敏感性 问题之外 再配合一个与之无关的非敏感性问题 也就是在设 计中用无关的问题代替了沃纳模型中的敏感性问题A的对立问 题 A 这时在卡片 A 上是敏感性问题 在卡片 B 上是无关的非 敏感性问题 3. 模型的设计及参数估计 设有外形一样的两套卡片 1号卡片和2 号卡片 一套卡片 上写上敏感性问题 你属于 A 吗 2 号卡片上写有无关问 题 你属于 Y 吗 将一定数量的 1 号卡片和 2 号卡片按预 定比例混合后放入一盒子中 调查时被调查者只须从盒子中任 意抽取一张卡片 根据卡片上的问题做出真实的回答 调查人 员只能得到 是 或 不是 的回答 而不知道对方回答的是 哪个问题 西蒙斯模型中使用了无相互关联的两个问题 就可 以采用 P=1/2 而不会影响估计过程的展开 一般而言 采用 西蒙斯模型时 具有非敏感性特征无关问题的人数比例有时可 通过某些渠道获得 可设为
则 的极大似然估计为 A

( ) 1 n
1-p
2p-1
1- n 2p-1
1n
2p-1



1-p
(p
1 2

易知
是 的无偏估计 其方差为



{ } Var( )=Var A


-(1-p)
2p-1
[ p+(1- )(1-p)][(1- )p+ (1-p)]





(2p-1)2n2

2p-1
2 75%-1
即有 6% 的人是酗酒者
Var(
)=

(1-


) A+
p(1-2p) n(2p-1)2
0.06 (1-0.06)
0.75
= 1 00 + 100 (2
0.25 75%-1)2
=0.008064 则总体 的置信区间为

( ) t Var( ) =0.06 1.96 0.008064
研究论坛
敏感性问题的调查技术与模型
东方社奇 张文红 / 文
一 敏感性问题 统计调查中 有许多科学的调查方法 但他们都是为正规 调查设计的 随着社会经济的不断发展 在当今的社会调查 中 经常会遇到涉及个人隐私的问题 使我们采用传统常规调 查方法时 无法取得有关总体特征的资料 此类问题就属敏感 性问题 一般而言 所谓敏感性问题是指与个人或单位的隐私或利 益有关而不便向外界透露的问题 例如 个人或单位是否有偷 漏税行为 如果有偷漏税行为 那么偷漏税的数额是多少 考 生在考试中是否有作弊行为 吸毒 赌博人数多少 人人储蓄 几何 公款吃喝消费额若干 同性恋人数及类似的为社会所不 赞成的事件 敏感性问题按总体特征可分为属性总体特征的敏 感性问题和变量总体特征的敏感性问题 属性总体特征的敏感 性问题是指具有敏感性特征的总体单位数在总体中所占比例的 敏感性问题范畴 它一般与品质标志有关 主要表现形式为相 对数 故又称敏感性比例问题 如考生是否作弊及其比例 学 生是否吸毒及其比例当属此类 变量总体特征的敏感性问题是 指为了估计被调查者具有敏感性问题数值多少的敏感性问题范 畴 它一般与数量标志有关 主要表现形式为绝对数和平均数 故又称敏感性均值问题 如个体户或企业偷漏税数额 某人敏 感段时间内吸毒次数问题 职工额外收入多少问题当属此类 很显然 在现代社会经济现象中敏感性问题具有客观性和 普遍性 不容置疑 诸如此类的敏感性问题对我国宏观调控和 微观决策都是必不可少的信息 是我国现行统计体系必不可少 的组成部分 若不进行科学的调查和估计 将无法准确系统全 面地反映总体特征 然而 对于这类敏感性问题 调查中若采 用直接回答的方式 被调查者为了保护自己的隐私或出于其他 目的 往往会拒绝回答或故意做出错误的回答 这样 就破坏 了数据的真实性 而且破坏程度的大小亦无法衡量 可以说 传统的调查方法在敏感性问题面前无能为力 那就是 调查者 将难以控制样本信息 得不到可靠的样本数据 怎么办 为了 得到敏感性问题的可靠的样本数据 我们亟需对此设计出一些 好的调查方法 二 敏感性问题的调查技术 为了实现统计的完整性 弥补传统调查方法的缺陷 一种 科学 可行的统计调查技术 随机化回答技术诞生了 随机 化回答技术是指在调查中使用特定的随机化工具 使得被调查 者以预定的概率来回答敏感性问题的特殊调查技术 它的基本 特征是被调查者对所调查的问题采取随机回答的方式 调查人 员无法从被调查者的回答中得知对方是否具有某种特征 这 样 就可以在一定程度上消除被调查者的担心和顾虑 使他们

P(x =0)=(1- )P+ (1-P) i=1, 2, , n



上图中 样本容量为 n 为设回答 是 的人数为 n 这 1
里既包括抽中卡片 A 回答 是 者也包括抽中卡片B 回答 是
者 于是 回答 是 人数之比例为




+(1-P)(1- )


(2P-1)+(1-P) A
区间一般要比正常比例推断置信区间比例要大些 但是它又可
以获得一般方法所不可能获得的真实数据 所以 这种方法是
用牺牲一定的精度作为代价来换取数据的真实 可靠
4. 案例分析
例 某教育机构研究大学生中的酗酒程度 采用沃纳模型
加以研究 设计了上述两种卡片 60 个装入一个盒子 盒子中
有 45 张卡片写有 酗酒 剩余的卡片写有 不酗酒 现抽



P(x =0)=P(1- )+(1-P)(1- ) i=1,2, ,n




可设回答

的人数为
n= X
1 i=1 i




=p

1-p

的极大似然估计为






1-p



其方差和无偏估计为
( ) ( ) 1 n

Var(
)=

np2


1-


4. 案例分析
例 某学校有关部门欲对学生期末考试中的作弊情况进行
一次调查 采用西蒙斯随机化回答模型 从该样简单随机有效
放回地抽取了200名学生 所用随机化装置为一装有两种卡片
的盒子 一种卡片上写有问题 我在考试中作过弊 另一种
卡片上写有 我是 7 月份出生的 两种卡片各半 调查结果
始终保持不变 被抽中的卡片后边还有可能再被抽中 在技术
处理上 两种卡片的比例是已知的 可设卡片 A 的比例为 P
则卡片 B 的比例为 1-P 一个有敏感性特征的被调查者 样本
单位 如果抽中卡片 A 则真实回答应该为 是 如果抽中
卡片 A 则真实的回答应该是 不是 而一个不具有敏感特
征的人之回答则刚好相反 调查人员得到的回答只有 是 和

现在 设抽样方式是简单随机抽样 样本容量为 n A
是敏感性问题特征 A 之所占比例 是具有无关特性 y 的人 y
数所占比例 P 是 1 号卡片出现的概率 且假设
{x 1 若被调查者回答 是
i 0 若被调查者回答 不是
北京统计 2001-8 总第 1 3 8 期
37
研究论坛
则有 P(x =1)=P +(1-P) i=1,2, ,n
相关文档
最新文档