分层随机抽样
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
偶遇樣本(haphazard sample)或便利抽樣 (convenient sample),碰到誰就選誰的抽樣, 做研究的人並不在乎調查對象是否有代表性, 例如生物學家解剖青蛙,心理學家觀察人們對 聲光刺激的反應,醫生徵求自願者做藥物反應 的實驗等等。 配額抽樣(quota sampling)依照母體的人口特 徵按比例分配樣本數,在配額之內進行非機率 抽樣,也就是把調查對象依照特徵分類後,根 據各類別的百分比每類立意選樣至額滿為止。
非隨機抽樣(2)
立意選樣(purposive sampling)或判斷 選樣(judgment sampling),這是經由 專家主觀判斷,立意選定他們認為「有 代表性」的樣本來觀察。 雪球抽樣(snowballed sample)先找到 原始受訪者,然後再從受訪者所提供的 資訊找到其他受訪者。
抽樣的推論
n3=10 res1
4 0 5 6 7 4 8 res2 2 0 1 2
n1=2
Density 0.0 0.1 0.2 0.3 0.4 0.5 0.6
n2=5
二பைடு நூலகம்分布
3
N=50, p=0.5
4
Density 0.00 0.05 0.10 0.15 0.20 0.25 0.0 0.2 0.4
Density 0.6 0.8
信心水準與抽樣誤差例子
信心水準與抽樣誤差注意事項
上述的公式完全不考慮母體大小,只考 慮樣本數大小 。 根據上述的公式可以逆向推估需要的樣 本。 當母體非常小的時候, 例如低於100 , 抽樣誤差已經沒有意義,可以考慮全查。
單純隨機抽樣
將每一個觀察值加以編號 依照亂數表選中一個號碼 每個觀察值應該有同樣的中選機率
信心水準與抽樣誤差試算
信心水準
標準誤 抽樣誤差 信賴區間 試算抽樣 誤差(假設 n=900)
68%
正負1
95%
正負2
99%
正負3 1.5/sqrt(n)
0.5/sqrt(n) 1/sqrt(n) μ+0.5/sqrt(n) 正負1.6%
μ+-1/sqrt(n) μ+1.5/sqrt(n) 正負3.3% 正負5%
信賴水準與抽樣誤差
剛剛提到的68%或95%或99%通常稱為信賴水 準。意思為抽100次樣本, 有多少比率的樣本 是我們確定會以一個特定區間包含母體平均數 μ。 信心水準越高,所需要的區間也就越大, μ的 上下限也就差距越大。所以信賴水準跟抽樣誤 差之間必須取捨。通常我們是用95%信賴水準, 對應兩個標準差的抽樣誤差
等距抽樣(1)
把全體總數N除以樣本數n得到K,起始為隨機 亂數抽出R,然後每隔K個抽出一個樣本, R, R+K ,R+2K ,R+3K ,一直到R+(n-1)K。 如果觀察值本身有分組, 則是依照各組人數從 小而大排列, 然後各組內再編號以方便抽出。 假如我們有4800個觀察值如下表,如何抽出16 個樣本? 先抽一個亂數6 ,然後每隔300就抽 一個。
dnorm(x, mean = 0, sd = 1/sqrt(n)) 0 1 2 3 4
-1.0 -0.5 0.0 0.5 1.0 x
n=10
n=25
n=100
Density 0.00 0.05 0.10 0.15 0.20 0.0 0.2 0.4 0.6
Density 0.8 1.0 1.2
1 -4 2 3 -2
0.5 * 0.5 0.5 1 2* 2* n n n
抽樣誤差(2)
因為我們知道全部樣本的最小跟最大之 間有6個標準差,所以先假設最小值a跟 最大值b, σ =(b-a)/6, 反推得n 例: 身高最矮假定為145cm, 最高205cm, σ=(205-145)/6 = 10 . 若希望2σ/sqrt(n) = 0.5cm, 則代入σ得20/sqrt(n)=0.5, n=1600.
0 -4 1 2 -2
n1=2
n3=10 res1
3 0 4 5 6 4 7
Density 0.00 0.05 0.10 0.15
2
Density 0.0 0.2 0.4 0.6 0.8
2 4 6
0 1
n4=25 res2
8 10 12 14 16
n2=5
2 3 4
p=.36
抽樣原理(1)
當我們做無數次抽樣之後,所得到的每一個樣 本平均值將形成一個常態分布。而這些樣本平 均值的離散程度就是樣本標準差=σ /sqrt(n) 。 如果樣本抽的次數夠多,真正的母體平均值μ 應該等於所有樣本平均值的平均值加減一定的 標準差。 但是我們不可能抽無限次的樣本,只能假定單 一抽樣就代表無限次抽樣後的平均值。因此我 們對母體平均值的估計就是依照抽樣結果。
主要想知道母體的平均值跟離散程度(變 異數或標準差)
X
中央極限定理
不論任何資料的分布,抽取一定數目取 得平均值無數次之後的分布一定會是常 態分布。 若是常態分布,抽樣無數次後平均值的 平均值為樣本平均值,,標準差為 X σ/sqrt(n) 若是二次分布,平均值為np, 標準差為 sqrt(np(1-p)), p是機率。
常態分布圖
抽樣原理(2)
根據上圖,我們知道,68%的樣本平均值 會落在μ加減一個標準差的範圍中。如 果是μ加減兩個標準差的範圍,則會包 含95%的樣本平均值。如果是μ加減三個 標準差的範圍,則會包含99%的樣本平均 值。 換句話說,68%的樣本平均值加減一個標 準差會包含μ 。以此類推。
抽樣誤差
抽樣一定會有誤差,也就是根據樣本的
調查結果跟真實母體之間有一定的差距, 稱為抽樣誤差。 抽樣誤差代表一種區間,也就是樣本估 計的結果被包含在一定的上下限。
抽樣誤差(1)
因為在二次分布,抽到某一樣本的機率 為sqrt[p(1-p)/n], 而p=0.5時, 機率最大, 所以一個簡化的抽樣誤差公式可假定σ 等 於0.5 ,2個標準差的抽樣誤差即為 2*sqrt[0.5*0.5/n]. 也就是--
抽樣法
蔡佳泓 政大選舉研究中心 副研究員
課程目標
抽樣原理 非隨機抽樣 隨機抽樣 等距抽樣 分層隨機抽樣 多階段集群抽樣
抽樣原理
由於我們不可能訪問母體中所有的個體,所以
必須進行抽樣。
例: 台灣地區七歲到十二歲的小孩在除夕
夜平均每人收了多少壓歲錢?
石門水庫管理當局想要知道到底水庫裡
有多少魚 ?
非隨機抽樣(1)
非隨機抽樣(2)
立意選樣(purposive sampling)或判斷 選樣(judgment sampling),這是經由 專家主觀判斷,立意選定他們認為「有 代表性」的樣本來觀察。 雪球抽樣(snowballed sample)先找到 原始受訪者,然後再從受訪者所提供的 資訊找到其他受訪者。
抽樣的推論
n3=10 res1
4 0 5 6 7 4 8 res2 2 0 1 2
n1=2
Density 0.0 0.1 0.2 0.3 0.4 0.5 0.6
n2=5
二பைடு நூலகம்分布
3
N=50, p=0.5
4
Density 0.00 0.05 0.10 0.15 0.20 0.25 0.0 0.2 0.4
Density 0.6 0.8
信心水準與抽樣誤差例子
信心水準與抽樣誤差注意事項
上述的公式完全不考慮母體大小,只考 慮樣本數大小 。 根據上述的公式可以逆向推估需要的樣 本。 當母體非常小的時候, 例如低於100 , 抽樣誤差已經沒有意義,可以考慮全查。
單純隨機抽樣
將每一個觀察值加以編號 依照亂數表選中一個號碼 每個觀察值應該有同樣的中選機率
信心水準與抽樣誤差試算
信心水準
標準誤 抽樣誤差 信賴區間 試算抽樣 誤差(假設 n=900)
68%
正負1
95%
正負2
99%
正負3 1.5/sqrt(n)
0.5/sqrt(n) 1/sqrt(n) μ+0.5/sqrt(n) 正負1.6%
μ+-1/sqrt(n) μ+1.5/sqrt(n) 正負3.3% 正負5%
信賴水準與抽樣誤差
剛剛提到的68%或95%或99%通常稱為信賴水 準。意思為抽100次樣本, 有多少比率的樣本 是我們確定會以一個特定區間包含母體平均數 μ。 信心水準越高,所需要的區間也就越大, μ的 上下限也就差距越大。所以信賴水準跟抽樣誤 差之間必須取捨。通常我們是用95%信賴水準, 對應兩個標準差的抽樣誤差
等距抽樣(1)
把全體總數N除以樣本數n得到K,起始為隨機 亂數抽出R,然後每隔K個抽出一個樣本, R, R+K ,R+2K ,R+3K ,一直到R+(n-1)K。 如果觀察值本身有分組, 則是依照各組人數從 小而大排列, 然後各組內再編號以方便抽出。 假如我們有4800個觀察值如下表,如何抽出16 個樣本? 先抽一個亂數6 ,然後每隔300就抽 一個。
dnorm(x, mean = 0, sd = 1/sqrt(n)) 0 1 2 3 4
-1.0 -0.5 0.0 0.5 1.0 x
n=10
n=25
n=100
Density 0.00 0.05 0.10 0.15 0.20 0.0 0.2 0.4 0.6
Density 0.8 1.0 1.2
1 -4 2 3 -2
0.5 * 0.5 0.5 1 2* 2* n n n
抽樣誤差(2)
因為我們知道全部樣本的最小跟最大之 間有6個標準差,所以先假設最小值a跟 最大值b, σ =(b-a)/6, 反推得n 例: 身高最矮假定為145cm, 最高205cm, σ=(205-145)/6 = 10 . 若希望2σ/sqrt(n) = 0.5cm, 則代入σ得20/sqrt(n)=0.5, n=1600.
0 -4 1 2 -2
n1=2
n3=10 res1
3 0 4 5 6 4 7
Density 0.00 0.05 0.10 0.15
2
Density 0.0 0.2 0.4 0.6 0.8
2 4 6
0 1
n4=25 res2
8 10 12 14 16
n2=5
2 3 4
p=.36
抽樣原理(1)
當我們做無數次抽樣之後,所得到的每一個樣 本平均值將形成一個常態分布。而這些樣本平 均值的離散程度就是樣本標準差=σ /sqrt(n) 。 如果樣本抽的次數夠多,真正的母體平均值μ 應該等於所有樣本平均值的平均值加減一定的 標準差。 但是我們不可能抽無限次的樣本,只能假定單 一抽樣就代表無限次抽樣後的平均值。因此我 們對母體平均值的估計就是依照抽樣結果。
主要想知道母體的平均值跟離散程度(變 異數或標準差)
X
中央極限定理
不論任何資料的分布,抽取一定數目取 得平均值無數次之後的分布一定會是常 態分布。 若是常態分布,抽樣無數次後平均值的 平均值為樣本平均值,,標準差為 X σ/sqrt(n) 若是二次分布,平均值為np, 標準差為 sqrt(np(1-p)), p是機率。
常態分布圖
抽樣原理(2)
根據上圖,我們知道,68%的樣本平均值 會落在μ加減一個標準差的範圍中。如 果是μ加減兩個標準差的範圍,則會包 含95%的樣本平均值。如果是μ加減三個 標準差的範圍,則會包含99%的樣本平均 值。 換句話說,68%的樣本平均值加減一個標 準差會包含μ 。以此類推。
抽樣誤差
抽樣一定會有誤差,也就是根據樣本的
調查結果跟真實母體之間有一定的差距, 稱為抽樣誤差。 抽樣誤差代表一種區間,也就是樣本估 計的結果被包含在一定的上下限。
抽樣誤差(1)
因為在二次分布,抽到某一樣本的機率 為sqrt[p(1-p)/n], 而p=0.5時, 機率最大, 所以一個簡化的抽樣誤差公式可假定σ 等 於0.5 ,2個標準差的抽樣誤差即為 2*sqrt[0.5*0.5/n]. 也就是--
抽樣法
蔡佳泓 政大選舉研究中心 副研究員
課程目標
抽樣原理 非隨機抽樣 隨機抽樣 等距抽樣 分層隨機抽樣 多階段集群抽樣
抽樣原理
由於我們不可能訪問母體中所有的個體,所以
必須進行抽樣。
例: 台灣地區七歲到十二歲的小孩在除夕
夜平均每人收了多少壓歲錢?
石門水庫管理當局想要知道到底水庫裡
有多少魚 ?
非隨機抽樣(1)