第一页为封面

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第一页为封面
参赛队员:何旭季迪杨诗莹
学校:江苏省邗江中学(集团)
省份:江苏省指导教师:***
论文题目:分层抽样的公平性研究
论文题目:分层抽样的公平性研究
摘要:普通高中课程标准实验教科书数学《必修3》(江苏教育出版社,简称苏教版)第
2章《统计》有一节叫做《分层抽样》。

教材描述完分层抽样的概念及其步骤后,在左边旁注栏目对分层抽样的第(2)步(即计算各层的个体数与总体数的比)进行补充:若按此比例计算所得的个体数不是整数,可作适当的近似处理
.......。

“适当的近似处理”究竟是怎样的处理?课本随后举了个例子,并做了近似处理。

但究竟是用什么方法处理的,教材并没有说明,其他教辅资料也没有介绍。

本文试着解读编者的意图,寻找到近似处理的方法。

在探讨处理方法的时候,我们分别用了“四舍五入”法、“惯例”法、Q-值法。

最终发现Q-值法是最佳解决该问题的方法。

本文的亮点,是通过经典的数学模型——公平的名额分配方法来解决分层抽样中每一层或某些层按比例抽样后所得的个体数不是整数的情形。

具有重要的实际意义和应用价值。

第三页为论文英文摘要(如果是中文论文,此页必须要有英文摘要)Abstract
Stratified sampling is discussed in the 2nd chapter of the High School Math Textbooks by Jiangsu Education Press, Module 3. The textbook explains the concept of stratified sampling and how to use it. It adds to the second step that if the number calculated according to the proportion is not an integer, the approximate disposal could be used here. Then the textbook gives an example. However, it doesn't explain how to use approximate disposal exactly and no reference books explain it. The thesis try to read the editor's intention and find solutions to it. It is found that Q value is the best solution.The lightspot of the article is that it provides new ideas for the solution to the problem using the classical mathematics model---.allocation of quotas Thus it is of great practical value.
背景知识:
普通高中课程标准实验教科书数学《必修3》(江苏教育出版社,简称苏教版)第2章
《统计》有一节叫做《分层抽样》。

教材是这样描述的:一般地,当总体由差异明显的几个部分组成时,为了使样本更客观
地反映总体情况,我们常常将总体中的个体按不同的特点分成层次比较分明的几部分,然后
按个部分在总体中所占的比实施抽样,这样的抽样方法叫分成抽样,所分成的各个部分称为“层”。

分层抽样的步骤是:
(1)将总体按一定标准分层;
(2)计算各层的个体数与总体数的比;
(3)按各层个体数占总体的个数比确定各层应抽取的样本容量;
(4)在每一层进行抽样(可用简单随机抽样或系统抽样)。

教材描述完分层抽样的概念及其步骤后,在左边旁注栏目对分层抽样的第(2)步进行补
充:若按此比例计算所得的个体数不是整数,可作适当的近似处理
.......。

“适当的近似处理”究竟是怎样的处理?怎么去操作?课本并没有说明,其他教辅资料
书也没有介绍。

课本随后举了个例子,并做了近似处理。

问题一:课本问题
例某电视台在因特网上就观众对某一节目的喜爱程度进行调查,参加调查的总人数为12000人,其中持各种态度的人数如下表所示:
(表一)
很喜爱喜爱一般不喜爱
2435 4567 3926 1072 电视台为进一步了解观众的具体想法和意见,打算从中抽取60人进行更为详细的调查,
应怎样进行抽样?
课本解答:
分析:因为总体中人数较多,所以不宜采用简单随机抽样,又由于持不同态度的人数
差异较大,故也不宜用系统抽样,而以分层抽样为妥。

解:可用分层抽样,其总体用量为12000.
“很喜爱”占
2435
12000
,应取
2435
6012
12000
×≈人;
“喜爱”占
4567
12000
,应取
4567
6023
12000
×≈人;
“一般”占
3926
12000
,应取
3926
6020
12000
×≈人;
“不喜爱”占1072
12000
,应取
1072
605
12000
×≈人。

因此,采用分层抽样的方法在“很喜爱”、“喜爱”、“一般”、“不喜爱”的2435人,4567人,3926人和1072人中分别抽取12人,23人,20人和5人。

课本的解答至此完全结束,没有任何其他解释。

我的发现:课本例题研究
我们来具体计算一下“很喜爱”、“喜爱”、“一般”、“不喜爱”按比例所抽取的数目。

“很喜爱”占
243512000,应取2435
6012.17512000×=人(课本近似取了12人)
; “喜爱”占456712000,应取4567
6022.83512000×=人(课本近似取了23人)
; “一般”占392612000,应取3926
6019.6312000×=人(课本近似取了20人)
; “不喜爱”占107212000,应取1072
60 5.3612000
×=人(课本近似取了5人)。

实际数目之和12.175, 22.83519.63 5.3660+++=近似处理数目之和12。

2320560+++=抽样总数没有问题。

根据近似处理:
12.17512≈,22.83523≈,19,5.36 .6320≈5≈我们猜想一下:当“按比例计算所得的个体数不是整数”(课本原话)时,我们可做四舍五
入的近似处理。

接下来的工作,就是验证我们的猜想,分层抽样中对小数部分的处理是不是...“四舍五入”......
? 问题二:公平的名额分配问题
问题提出:某学院有200名学生,甲系100名,乙系60名,丙系40名,若学生代表会议设20个名额,问三系各有多少个名额?
解答:分层抽样20个名额的分配结果是: (表二)
系别
人数
所占比例
分配方案
名额数
甲 100 100/200 (50/100)•20=10 10 乙 60 60/200 (30/100)•20=6 6 丙 40 40/200
(20/100)•20=4 4
此时,计算得到的个部分都是整数,没有什么问题,公平!
现丙系有6名学生分别转到甲、乙系各3名。

分层抽样20个名额的分配结果是: (表三) 系别 人数
所占比例
分配方案
席位数 甲 103 103/200=51.5% 51.5 %•20 =10.3 10.3 乙 63 63/200=31.5% 31.5%•20=6.3 6.3 丙 34 34/200=17.0%
17.0%•20=3.4
3.4
甲、乙、丙按比例分层抽样,分别抽取了10.3人、6.3人和3.4人。

如果四舍五入的话,那么分别抽取10人、6人、3人,很显然,少抽取了一人。

为了在表决提案时可能出现10:10的平局,再设一个名额。

21个名额的分配结果 (表四) 系别
人数
所占比例
分配方案
名额数
甲 103 103/200=51.5% 51.5 %•21 =10.815 10.815 乙 63 63/200=31.5% 31.5%•21=6.615 6.615 丙 34 34/200=17.0%
17.0%•21=3.570
3.570
此时甲、乙、丙按比例分层抽样,分别抽取了10.815人,6.615人,3.570人,四舍五入处理的,分别抽取了11人、7人、4人,很显然,比21人多出了一人!
由表三、表四可知,假设不成立,也就是说,在分层抽样中,对小数部分的近似处理不能作简单的“四舍五入”............。

问题二的再探讨
由问题二中,表三表四的讨论,我们知道分层抽样的小数部分不能作“四舍五入”处理。

那么对小数部分该怎么处理呢,其实,问题二中表二、表三、表四表示的三种情形还蕴含着新的问题。

由表二可知,通过比例计算,当甲、乙、丙三系抽取的名额都是整数时,对三个系都是公平的。

观察表三,甲、乙、丙三系按比例抽取的名额分别是10.3、6.3和3.4,出现了小数。

很显然,整数部分要保证,我们先从甲、乙、丙系中分别抽取出10、6、3人。

按理说,甲还能抽0.3人,乙还能抽0.3人,丙能抽0.4人,如果最后一个名额不分给甲系,甲损失了0.3个名额,同理不分给乙系,乙就损失了0.3个,不给丙,丙则损失了0.4个。

按照“惯例..”我们会把最后一个名额分给损失大的丙,这样丙就得到了4个名额。

从甲、乙、丙抽取的名额分别为10、6、4.
现象一:和表二相比,丙系虽转出了6人,但仍然得到4个名额,不公平! 观察表四,当增加1个名额,抽取21个名额时,如果按“惯例..”,从甲、乙、丙中抽取的名额分别为11、7、3.
现象二:在20个名额的基础上增加了1个名额,丙所占的名额非但没有增加,反而降低了,由4个变为3个,不公平!
对表三、表四反映的情况,我们列出下表,对照分析
(表五)
20个名额的分配 21个名额的分配 系 别
学生 人数
所占 比例
比例分配 的名额
参照惯例 的结果 比例分配 的名额 参照惯例 的结果
甲 103 51.5 10.3 10 10.815 11 乙 63 31.5 6.3 6 6.615 7 丙 34 17.0 3.4 4 3.57 3 总和 200 100
20.0
20
21.000
21
在上表中反映的是当总名额分别为、20()34,63,10321时,参照惯例在人数分别为的三个不同系的分配结果。

“惯例..”在这里是指首先计算各系按照比例所应该分得的名额,然后取其整数部分作为各系第一阶段分到的名额,而在第二阶段将剩余的名额按照各系比例分配数的小数部分的大小取较大的几个系,在已分得名额的基础上各增加1席。

从上表中发现,在总名额为20席时丙系可分到4席,而当总名额增加1个之后,丙系
分到的名额反降为3个。

这一“矛盾性结果”同样不符合我们对一个好的名额分配算法的预期:假定各系人数已确定,考虑总名额增加时,一个名额分配算法的结果至少须保证对每一系所最终分得的名额数不减。

要解决这个问题必须舍弃所谓“惯例..”,找到衡量公平分配名额的指标,并由此建立新的分配方法。

问题解决:
一.问题分析:
分层抽样问题,当出现小数时,无论如何分配都是不完全公平的。

那么一个比较公平的分法是:应该找到一个不公平程度最低的方法,因此首先要给出不公平程度的数量化,然后考虑使之最小的分配方案。

二.模型建立:
1.讨论不公平程度的数量化
设A ,B 两方人数分别为;分别抽取 和个名额,则两方每个名额所代表的人数分别为
21,p p 1n 2n 11n p 和 22n p 。

当11n p =2
2n p
时,抽样是公平的。

二者不等时,则不公平。

我们称 2
211n p n p − 为绝对不公平值。

此值越小抽取越趋于公平,但这并不是一个好的衡量标准。

例:10,100,1202121====n n p p

22
2
11=−n p n p ; 又 10,1000,10202121====n n p p 则
22
2
11=−n p n p 很显然,以上两种情况,绝对不公平值都相等,但后一种情况公平程度大为改善! 由上例可知,用绝对不公平程度作为衡量不公平的标准,并不合理,下面我们给出相对不公平值。


2
211n p n p > 则称 112212
222
11−=−
n p n p n p n p n p 为对A 的相对不公平值, 记为
),(21n n r A 若
2
211n p n p < 则称 121121
111
22−=−
n p n p n p n p n p 为对B 的相对不公平值 ,记为
),(21n n r B 上例中,相对A 的不公平值分别为:0.2 和 0.02,可见相对不公平值较合理。

2.下面我们用相对不公平值建立模型
设A ,B 两方人数分别为 ;分别从中抽取 和个名额,现在增加1个名额,应该给A 还是B ?不妨设
21,p p 1n 2n 2
2
11n p n p > ,此时对A 不公平,下面分三种情形
(1) 2
2111n p
n p ≥+ ,这说明即使A 增加1个个名额,仍对A 不公平, 故这一名额应给A 。

(2)
2
2111n p
n p <+ , 说明A 方增加1个名额时,将对B 不公平,此时计算对B 的相对不公平值
1)
1(),1(2
11221−+=
+n p n p n n r B
(3)
1212 1
p p
n n >+,说明当对A 不公平时,这一个名额给B ,则对A 的相对不公平值为 1)
1()1,(1
22121−+=
+n p n p n n r A
本着使得相对不公平值尽量小的原则,
若 )1,(),1(2121+<+n n r n n r A B ----------------------------(1) 则增加的1个名额给A 方,
若 ),1()1,(2121n n r n n r B A +<+ ----------------------------(2) 则增加的1个名额给B 方
由(1)式可得 :21121221(1)(1)
11p n p n p n p n ++−<−
⇒)1()1(11212222+<+n n p n n p 由(2)式可得 :12212112
(1)(1)
11p n p n p n p n ++−<−⇒
)1()1(1121222
2+>+n n p n n p 记 : 2
(1i i i i p )
n n =+Q 则增加的1个名额,应给值大的一方
i Q 第(1)种情形,显然也符合该原则。

3.Q-值法与m 方的名额分配:
现在将上述方法推广到方分配名额的情况:方人数为已占有n 席。

计算 m i A i p i m i ,,2,1 =)
1(2
+=
i i i i n n p Q , 则将增加的1个名额分配应给Q 值最大的一i
方。

三.模型求解(求解问题二):
前19个名额的分配没有争议,甲系得10个,乙系得6个,丙系得3个 第20个名额的分配
4.96)110(1010321=+=Q
5.94)16(66322=+=Q 3.96)
13(3342
3=+=Q
故第20个名额分配给甲系。

第21个名额的分配: 因为4.80)
111(111032
1=+=
Q 2394.5,96.3Q Q == 故第21个名额分配给丙系。

甲、乙、丙三系各分得11,6,4席,这样丙系保住它险些丧失的1席。

四.模型检验
Q-值法分配模型使丙保住了它险些丧失的1个名额,没有出现按“惯例”分配时的矛盾性结果,符合我们的预期:假定各系人数已确定,考虑总名额数增加时,一个席位分配算法的结果至少须保证对每一系所最终分得的名额数不减。

因此Q-值法分配模型比较合理,是相对较公平的分配方案。

五.模型应用推广及评价:
作为Q-值法的应用,问题二的学生代表名额的分配问题的结果为:总名额为20时,按
,总名额为21时,按(11,6,3)()11,6,4分配。

事实上要我们说Q-值法与参照“惯例”的算法孰是孰非是不适当的,它们遵循了两种不同的“公平”标准:Q-值法关心一个团体的席位在增加与不增加一个席位对这个团体中个体的心理感受,而参照“惯例”的算法却从把一个团体视为一个整体来考察的。

而Q-值法的导出,是以其它团体的席位分配为参照来衡量一个团体席位分配中的相对不公平程度,事实上当总人数与总席位数P N 一定时,以这一客观标准作参照应当更为合理。

公平的名额分配问题是一个非常有趣而重要的问题,它在政治学、管理和对策论等领域具有广泛的应用价值。

这一问题的提出和研究也是因为美国政治选举的需要而产生的。

N P /课本问题解答:
对于课本中的问题(即本文中的问题一),我们用“惯例”和用Q-值法计算的结果都是一样的,结果是:12、23、20、5。

但是,绝不能用“四舍五入”去解决分层抽样问题。

当然,正如我们正文中所写的一样,当分层抽样按比例每一层所得的数目有小数部分时,不管采用何种方法,都不能保证绝对的公平!我们只是做到了最大程度的公平!
参考文献:
i
[1] 普通高中课程标准实验教科书i数学必修3.南京:江苏教育出版社,2008
[2] /vclass/NCourse/hep019/sm2/sm2320.htm
华南理工大学理学院应用数学系 教育部国家工科数学教学基地
选手简介:
何旭:在由中国教育学会数学教育研究发展中心与少年智力开发报·数学专页联合举办的第八届“学用杯”全国数学知识应用竞赛中获得全国银奖
季迪,杨诗莹:在由中国教育学会数学教育研究发展中心与少年智力开发报·数学专页联合举办的第八届“学用杯”全国数学知识应用竞赛中获得全国铜奖。

相关文档
最新文档