敏感性问题调查中隐私安全性的探讨

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

敏感性问题调查中隐私安全性的探讨
刘守宗;黄明湛
【摘要】讨论敏感性问题调查中, 常见的沃纳模型和西蒙斯模型设计时在隐私保护方面存在的缺陷, 并给出一些改进的方法.
【期刊名称】《西南民族大学学报（自然科学版）》
【年(卷),期】2010(036)001
【总页数】3页(P163-165)
【关键词】敏感性问题;沃纳模型;西蒙斯模型
【作者】刘守宗;黄明湛
【作者单位】信阳师范学院数学与信息科学学院,河南信阳,464000;信阳师范学院数学与信息科学学院,河南信阳,464000
【正文语种】中文
【中图分类】O212.2
在现代社会中敏感性问题既具有客观性, 又具有普遍性, 对敏感性问题设计调查的核心在于运用有效的方法消除被调查者的担忧与顾虑, 达到提高调查数据质量的目的. 随机化回答技术是针对敏感性问题设计的, 它的主要功能在于使被调查者能对所调查的问题采取随机回答的方式, 避免在没有任何“掩护”的情形下直接回答敏感性问题. 这种技术更多地考虑了人的心理因素, 减弱了被调查者的抵御心理, 争取他们最大限度的合作可能.
应用随机化回答技术的两种常见模型是沃纳模型和西蒙斯模型, 人们在比较这两种
模型的优劣时, 大都在假设调查获取数据真实的情况下, 比较两种模型所得到的推断结果误差的大小, 所以很多文献都已经得出西蒙斯模型优于沃纳模型的结论. 但是人们容易忽略的是, 作为前提条件的假设在两种模型中实现的可能性大小,即模型给被调查者提供的隐私安全保障是否存在瑕疵, 这又将如何影响最终的推断. 下面就来讨论这两种模型在隐私安全保护上的不完善性以及一些改进的方法.
1.1 沃纳模型
沃纳模型的设计是向被调查者显示两个与敏感性问题(具有特征 A)有关, 但完全对立的问题：一个问题是“你具有特征A吗?”, 另一个问题是“你具有特征表示不具有特征A). 对两个问题的答案都只有“肯定(是)”与“否定(否)”两种. 关键是设计一种随机化装置, 使被调查者以概率P回答第一个问题, 而以概率(1-P)回答第二个问题, 重要的是只有被查者本人知道他究竟是回答哪一个问题, 而调查员却并不知道, 因此便能取得被调查者的合作. 目的是估计具有敏感性特征(属于A)的人在总体中所占的比例πA.
例如, 某高校为了解该校学生在一次期末考试中有作弊行为的比例πA, 做了如下抽样调查：被调查者只需回答两个问题中的一个, 而且只需回答“是”或“否”. 两个问题分别为：问题A:“在本次考试中你作弊了, 是吗？”及问题A:“在本次考试中你没有作弊, 是吗？”. 同时, 操作过程要做到：(1)被调查者在没有旁人的情况下, 独自一人回答问题；(2)被调查者随机从装有比例为P :(1 − P)的红球和白球的罐子里取出一球, 规定取出红球答问题A, 取出白球答问题. 设有n个学生参加了调查, 收回的n张问卷中有k张答案为“是”. 那么依据全概率条件得到πA的一个点估计满足的关系式
1.2 沃纳模型的隐私安全
沃纳模型下被调查者的隐私保护主要体现在两个层面：
(1)无法确定被调查者回答的是哪个问题；
(2)无法确定被调查者提交的答案为“是”还是“否”.
观察后发现这两层保护相互独立, 即对于一个特定的被调查者, 即使其中的一层保护失效, 出现信息泄漏,被调查者的隐私依然得以保护, 从这个层面可以说被调查者的隐私是安全的. 但是经过验证还可以确定ˆAπ是Aπ的极大似然估计, 且是无偏估计, 经计算它的方差为
由此可见作为隐私安全的第一层保护“无法确定被调查者回答的是哪个问题”也并非像人们想象的那样给予被调查者实在的保护. 因为调查者在设计调查方案时为了使最终的推断贴近实际, 会使P的取值相对要大得多, 人们在按规则回答问题时, 回答问题A的机会要比回答问题A的机会大得多. 于是, 被调查者回答是的情况下, 答案是针对问题A的概率为
这个概率相对也要大得多, 因此, 当人们了解了模型的机制后, 再回答问卷的时候, 为了自身利益, 他们很可能就不敢再做出“是”的回答了, 因为一旦第二层保护失效, 肯定的答案很容易被人认为是承认自己有敏感性特征, 至少也是很值得怀疑的. 所以在沃纳模型应用中, 设计者在追求减小随机化回答而引起的方差的同时, 也要平衡被调查者的心理安全承受能力, 这需要在P值的选择上慎重考虑, 既要保证误差总量尽可能小又要使被调查者心理上可以接受.
2.1 西蒙斯模型
西蒙斯模型以沃纳模型为基础, 但有一些改进, 它将沃纳模型中与敏感性问题相对的具有特征A的问题改为一个与敏感性问题不相关的其它问题. 还以上述高校学生作弊问题调查为例, 在设计调查方案时做出改动,将其中的问题在本次考试中你没有作弊, 是吗？”换为与敏感性问题不相关的问题B:“你是7月31日之后出生的吗？”, 其他操作不变. 随机人群中具有特征B的比例为π 一般都是已知的, 例如这里就可认为π=B于是得到西蒙斯模型下πA的一个点估计满足的关系式
2.2 西蒙斯模型的隐私安全
相对于沃纳模型, 西蒙斯模型多了一个无关问题B, 对被调查者也多了一层保护措施, 它对被调查者的隐私保护主要体现在三个层面：
(1)无法确定被调查者回答的是哪个问题；
(2)无法确定被调查者提交的答案为“是”还是“否”；
(3)无法确定被调查者对于无关问题即问题B的答案.
经计算得
这表明此时P可以取值为0. 5, 于是沃纳模型中的隐私安全隐患就可以消除.
但观察之后, 可以看到上述三层保护并不相互独立, 特别地, 可以说明其中后两层信息一旦泄漏, 第一层保护也面临失效的危险. 例如对于一个特定的人, 知道他对问题B的答案为否定, 并且问卷提交的答案为肯定, 那么可以确定他提交的答案是针对问题A的, 从而隐私泄露！这就说明第二三层保护与第一层保护相关连, 两层保护失效会导致整体保护失效！
导致这种情况的主要原因在于无关事件B的设置. 在西蒙斯模型设计中, 人们为了确定无关事件B 相关的比值Bπ, 总习惯于选择一个对特定被调查者毫无随机性的事件, 如上例中, 被调查者要么是在7月31日前出生,要么之后出生, 对特定的一个被调查者答案是确定的, 无随机性, 正是这种确定性建立了三层保护的联系, 使得后两层保护一旦失效, 被调查人的隐私就暴露了.
为此, 可以建立一个随机装置来定义无关事件 B, 使得调查过程中每一个被调查者对问题 B的答案也是随机的. 上例中可要求被调查者在摸到白球回答事件B前, 抛一次硬币, 定义事件B：“你抛硬币的结果是正面朝上吗？”, 这样上述隐私安全隐患就可以排除掉, 而且无关事件B相关的比值πB同样可以轻松确定, 这里π= 这样就更大程度上保护被调查者的隐私了.B
【相关文献】
[1] 茆诗松, 程依明, 濮晓龙. 概率论与数理统计教程[M]. 北京: 高等教育出版社, 2004.
[2] 同济大学应用数学系. 概率统计简明教程[M]. 北京: 高等教育出版社, 2003.
[3] 吴传声. 经济数学—概率论与数理统计教程[M]. 北京: 高等教育出版社, 2004.
[4] 李灿, 辛玲. 调查问卷中的敏感性问题设计研究[J]. 经济师, 2007, 1: 143-144.
[5] 李炜. 对敏感性问题调查之随机化回答技术的思考[J]. 江苏统计, 2000, 12: 27-28.。