敏感性问题理论模型的应用研究

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

敏感性问题理论模型的应用研究摘要
随着社会的发展进步，涉及敏感性问题的调查也将越来越普遍。

敏感性问题的调查方法主要有随机化应答技术和非随机化应答技术两大分类。

随机化应答技术需要一定的随机性，往往采用抽球的形式或者卡片的形式控制比例，线下过程繁琐且可操作性较弱，而非随机问答模型无需随机性，结合当前较为流行的网络问卷的方式进行，能够更好地保护被调查者的个人隐私，更易得到真实的回答。

我们以大学生作弊问题为例，查阅资料得到大学生的作弊率，通过蒙特卡罗算法模拟生成大学生信息阵，分别用Simmons模型和三角模型对同一组模拟数据进行调查。

考虑到作弊率可能受到性别和年级的影响，对上述模型进行改进，先对样本进行分层，再采用Simmons模型和三角模型进行模拟，比较两种模型结果的误差，分析比较得出其中更好的模型。

关键字：Simmons模型；三角模型；分层抽样；大学生作弊问题
1.
Simmons模型和三角模型
1.
Simmons模型
Simmons模型的设计方法为：在1号卡片上写上待调查的敏感性问题(“你具有特征A吗？”), 而2号卡片上则是与敏感性问题无关的问题(“你具有特征 B吗？”)，即特征 A是敏感特征，而特征B是非敏感特征，具有特征A的比例是未知需要估计的，而具有特征B的人群比例在设计调查时要求数据已知。

Simmons模型的估计量为：
1.
三角模型
令X=1表示具有敏感性特征的人的类别，X=0表示不具有敏感性特征的人的
类别。

引入二分随机变量Y，假设Y是非敏感且独立于X的。

采访者应选取适当
的Y使得概率p=P(Y=1)可以容易的被估计，一般假设p己知。

要求估计具有敏感
性特征的人群比例 =P(X =1)（下标t表示三角模型）。

受访者被要求如实回答见下表左侧部分，并选择自己对应情况的符号。

由三角模型的设计可知，当受访者选择“”时，表示他不具有敏感性特
征X及非敏感特征Y，{X=0,Y=0}是一个不敏感的子类；当受访者选择“”时，表示受访者具有敏感特征X或具有非敏感特征Y，由此可知{X=1} {X=0,Y=1}也
是一个不敏感的子类。

当无论如何回答都不敏感时，受访者的隐私得到了绝对的
保护，则有更高的作答可能性并给出真实答案。

1.
基于分层抽样的Simmons模型和三角模型
1.
分层抽样
分层抽样是将被调查总体按照某一特征分为若干层，再针对每一层以简单随
机抽样的方法抽取一定量的样本，即每个单元属于且仅属于一个子总体(层)，抽
样在每一层中独立进行，总体的样本由各层的样本组成，根据各层样本汇总对总
体参数做出估计。

分层抽样的具体方法为:
1)分辨总体各单位中的显著特征，按特征将总体各单位分成至少两层，分层
标志一般应与所研究的问题有关，通过分层使得层内各单位间的差异尽可能缩小，而层间各单位间的差异尽可能增大，以便降低抽样误差。

层与层间相互独立，总
体各单位在划分时不重不漏。

2)根据各层单位数、总体单位数和样本容量，确定每一层的抽样比例(抽样比)。

3)依据抽样比在每一层以简单随机抽样的方法抽取样本。

4)汇总每层抽样结果，组成总体抽样样本。

1.
分层抽样下的Simmons模型
在分层抽样的Simmons模型中，假定总体被分成若干层，每层中的抽样都是
按照有放回的简单随机抽样进行的，并且假定层权是已知的，调查的目标量是总
体中具有敏感特征的人群比例。

在层i中的受访者使用随机化装置。

在这
个装置中，受访者抽到写有敏感性问题卡片的概率为而抽到写有非敏感问题卡
片的概率为。

受访者只需回答“是”或“否”而不用回答自己抽到的是哪种
卡片。

在不同层中，受访者使用不同的随机化装置，每一个装置都对应事先设计
好的不同的卡片抽中概率。

如果每一位受访者都是真实地回答“是”或“否”并
且随机化装置中，那么，第i层中回答“是”的概率为：
上式中，是第i层中回答“是”的人数比例，是第i层中有敏感性特
征的受访者比例，是第i层中受访者抽中写有敏感性问题卡片的概率。

极大似然估计为：
上式中，是第i层样本中回答“是”的人数比例。

由于每一个都服从
二项分布并且各层中的回答是独立的，很容易得到的极大似然估计：
若以 N代表总体中的单元数，表示第i层子总体中的单元个数，那么
为各层层权。

1.
分层抽样下的三角模型
分层抽样下的三角模型中有敏感性特征X和非敏感性特征Y两个特征量，X、Y均为二分随机变量且相互独立。

令表示第i层子总体中具有敏感性特征X的
人群比例，表示第i层子总体中具有非敏感特征Y的人群比例，表示第i
层个子样本中选择“”的人数，表示第i层个子样本中选择“”的
人群比例。

采访者应选取适当的Y使得概率可以容易的被估计，一般假
设和均己知。

要求估计具有敏感性特征的人群比例 (下标t表示三角模型Triangular Model)。

第i层子总体中：
由可得
的无偏估计量为，由三角模型中的结论可知
且是的无偏估计。

调查总体中
的估计量为
其中为第i层的权重，
1.
仿真模拟
1.
蒙特卡罗算法
蒙特卡洛模拟以概率论与数理统计知识为基础，利用计算机来模拟实际的物理过程，以获得问题的近似解。

蒙特卡洛模拟的基本思想是通过某种“试验”，得到某事件出现的频率，或者随机变数的均值，将其作为该事件出现的概率，是一种数字模拟实验。

1.
置信区间
通过查阅相关资料，我们了解到当代大学生的作弊率大概在21%，记为。

在样本量大的情况下，可以把二项分布问题转化为正态分布的问题近似求解，则样本比例服从均值为，方差为的正态分布，即。

选用统计量，，在置信水平为95%的条件下，利用不等式
，计算出的取值范围，即置信区间，为
，代入得。

1.
模型数据准备
某学校某学院学大一到大四各年级男女生人数及总人数如下表所示：
结合人数及作弊率可计算出作弊率的置信区间为。

在置信区间中我们选取19%、21%和23%三个作弊率作为大学生信息阵的总体作弊率。

1.
Simmons模型和三角模型的仿真实现
根据前文计算得出的作弊率并结合某学院人数的实际情况，运用蒙特卡洛算法生成样本总量为996人次，男女比例设定305:691，作弊率分别为19%、21%及23%的大学生信息阵。

信息阵以{X,Y,Z}的矩阵形式呈现，其中X=1代表作弊，X=0代表没作弊，Y=1代表是男生，Y=0代表是女生，Z=1代表抽中第一个问题需要回答是否作弊，Z=0代表抽中第二个问题需要回答性别是否是男生。

对于模型中设定抽中回答第一个问题的概率为0.7，重复实验100次，在不同作弊率下得到两个模型每次调
查得到的作弊率以及100次实验的均值以及误差如下表所示，
以作弊率为21%为例，运用MATLAB进行仿真模拟得到的结果如下图所示，其中第三张图表中是Simmons模型和三角模型100次实验的作弊率与真实值之差的平方和。

从图表中可以看出，三角模型100次实验的结果较Simmons模型更加平稳，波动更小，均值也更靠近测试值，且误差平方和比Simmons模型的更大。

因此，在大学生作弊问题上，三角模型优于Simmons模型，具有更高的可信度。

1.
分层抽样下的Simmons模型和三角模型的仿真实现
在上述数据的基础上，我们对某学院996名学生按年级人数占总人数的比例进行分层抽样，并且保持每个年级男女生比例不变，形成样本量为400人次的大学生信息阵，以此检验分层抽样下Simmons模型和三角模型的优劣。

同样是对三组数据分别做100次实验，得出每次实验的测试值以及100次实验的均值与真实值的误差平方和如下表所示：
同样以作弊率为21%为例，运用MATLAB进行仿真模拟得到的结果如下图所示
1.
结论
从仿真模拟的结果中可以看出，三角模型较Simmons模型具有更高的准确性。

并且三角模型属于非随机问答模型，相对于Simmons模型这种随机问答模型，它
无需随机性，因此可以采用线上发放问卷的形式进行。

这不仅消除了随机问答模
型时空的限制，而且可以大大降低被调查者的顾虑，会得到更加真实的回答。

除
此以外，在分层抽样的情况下，三角模型也有很好的结果。

当被调查者样本量较大，或者被调查者之间有明显的属性特征时，可以先分层，再进行调查，一方面
可以大大缩减调查的时间，另一方面也可以提高调查数据的准确性。

参考文献
[1]谢佳斌、王斌会.分层抽样下的西蒙斯随机化回答模型[A].广州：暨南大学，2007.
[2]靳宗达.敏感性问题9种RRT模型下（分层）三阶段抽样调查设计的统计
方法及其应用[D].苏州：苏州大学，2014
[3]宋颖潇.敏感性问题调查方法的实证研究与新设计[D].西安：电子科技大学，2019
[4]李光雷. 大学生考试作弊现象的调查研究[D].辽宁：辽宁师范大学,2013.
作者简介：
徐奇缘(1999-)，女，汉族，江苏苏州人，扬州大学本科在读，统计学专业
【基金项目】本文系2019年扬州大学大学生科创基金项目，得到“江苏高
校品牌专业建设工程资助项目（数学与应用数学，PPZY2015B109）”经费资助，
项目编号：X20190226
9。