统计学総论stat07_13
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
ˆ p= X =
X
1 N
∑X
i =1
N
i
母集団から標本抽 出を何度も行う
標本の実現値
標本平均の実現値
性質は? 標本平均は確率変数として、どんな分布に従う? どんな値を中心に、どの程度ちらばっているのか? 分散や標準偏差 平均・期待値 「標本平均の平均」という言い方に混乱しないこと 標本平均はまだ 実現していない 例題では どんな値がでるか事 前にはわからない 確率変数と 考えている
149-151頁
定理6.2 大数の法則(150頁)
母集団の未知の平均 μ の値を知るために, 標本調査をおこなっている
平均 E[ X ] = μ ,分散 V[X ] = σ2 の母集団 X からサイズ n
μ の推定量として標本平均
1 μ= X = n
)
∑X
i =1
n
i
…, Xn}を抽出する。標本平均 X が 母集団の平均 μ から離れる確率は,標本サイズ n を無限大
142-143頁
ˆ p= X =
1 N
∑X
i =1
N
標本分布
i
テキスト147頁~
ˆ E[ p] = E[ X ] = p 導出は143頁 ˆ 推定量 p は平均的に未知の値 p を推測できている
母集団 分布
母集団の確率的な特性を あらわす確率分布 標本 Xi E[ Xi ] = μ V[ Xi ] = σ2
抽出 標本
⎧ 0 新商品を購入しない 1 - p Xi = ⎨ p ⎩ 1 新商品を購入する
8
7
標本 Xi の性質 • • 標本は母集団と同じ分布に従う 無作為抽出によって標本として選ばれたものどうしは独立 母集団 X
標本を使って母集団の平均 を求める
母集団の平均が知りたい
E( X ) = 0 × (1 − p ) + 1 × p = p
X1, X2, …, XN とする 1 N
X =
∑X
i =1
N
i
標本の(算術)平均なの で標本平均とよぶ
141頁 定義6.1
標本は、まだ確定(実現)していない確率変数 その標本の関数である標本平均 推定対象 母集団の平均 p
X も確率変数
E( X ) = 0 × (1 − p) + 1× p = p
10000 球が赤球で 箱の中の赤球 9999 = ある確率 の比率・割合 999999 or 999999
箱の中の球の数が多いとき 箱の中の赤球を = 箱の中の赤球の 選び出す確率 比率・割合
ほぼ 0.01
⎧ 0 新商品を購入しない 1 - p 母集団 X = ⎨ p ⎩ 1 新商品を購入する 無作為
n の標本 X1 , X2 , …, Xn
1 × p (1 − p ) n
18
標本サイズを大きくすると,標本平均の分散は小さくなる 定理6.1では母集団分布の名前までは特定化していない
17
E ( X ) = p, V ( X ) =
3
2007/05/30
大数の法則(Law of Large Numbers) 我々の目的
2007/05/30
今日の内容:母集団と標本分布
テキスト: 第6章 母集団と標本 比率・割合の調査 標本の性質 標本分布 標本平均の性質 大数の法則 136~151頁
比率・割合の調査
テキスト136頁~
母集団と標本(テキスト136~141頁) 母集団( population ): 例:消費者調査 母集団: 全数調査: 標本調査: 国内全世帯 有限母集団 調査対象全体 データを生み出す源泉
標本 Xi
E( X i ) = 0 × (1 − p ) + 1 × p = p
標本の中で新商品を購入 と答えた世帯の合計数
∑X
i =1
100
i
二項分布に従う ~ B( 100, p )
90頁 定義4.11
何回も標本抽出が可能なら抽出ごとに結果は変わりうる 全部を調べていないで しょうがない
9
問題はどのように変わズ」、 あるいは「標本の大き さ」とよぶ
どのように母集団から 標本を抽出するか?
標本を取り出して母集団全体の特性を明らかにすることが目的 大きな鍋の中 のスープ スプーン数杯での スープの味見 よく混ざってないと、 うまく味見ができない
XN
有限母集団:含まれる要素の数が有限の場合、ここでの例 以降、標本を構成している要素 Xi も標本と呼ぶ
新商品の本格的な販売を前に、購入比率・割合を事前調査 全世帯は調査できない ので,標本調査をする この割合・比率を p とすると, 目的はこの p を求めること
標本を 100 世帯選ぶ。そのうち 50 世帯が購入ならば 全世帯(母集団)での購入比率 p は しかし
50 = 0 . 5 と考える 100
標本を抽出する ということ
母集団の一部を取り出して全体の 特徴を明らかにすることが目的
確率変数としての性質をみればわかる
10
母集団の平均
テキスト140-141頁
標本平均による推定 標本を
テキスト141-147頁
例題での目的は、母集団の未知の比率・割合 p を標本から もとめること 例題での母集団は確率変数としての性質をもっている わけではない 標本を生み出す源泉としての母集団が何らかの確率分布に 従っていると考えるほうが、標本との関係がわかりやすい 母集団 X がベルヌーイ確率分 布に従う確率変数と考えると
標本サイズが無限大になったとき 標本平均(母集団の未知の平均の推定量)が 母集団の未知の平均に一致することをあらわしている。
V(X ) =
σ
n
2
→0
19
この性質を一致性とよび、 右のように略記する
X → μ , (n → ∞ )
20
p
分散は平均周りの散 らばりの程度を表す
標本平均の平均
標本平均の分散
「標本サイズが大きい調査の方が、少ない調査に比べて正確」 疑問に対する回答 143-144頁
15
XN
図6.2 母集団と標本
X =
1 N
∑X
i =1
N
i
16
標本平均の標本分布 定理6.1
148-149頁 証明はテキスト167-168頁
比率・割合の標本平均による推定のまとめ
146頁
標本平均の平均・分散 E[ X ] = μ, V[ X ] = σ2
標本を使って母集団の平均 を求める 何回も標本抽出が可能なら
抽出ごとに標本平均は変わる
どのように変わるかは、標本平均の性質をみる 標本平均の平均、分散 標本平均の性質のまとめは 151頁 まとめ6.2
標本平均は未知の母集団の平均の推定量として、 不偏性、一致性をもつ
23
4
未知の p は母集団の平均になっている 母集団 X の未知の平均 p を標本 Xi を使って推定することが目的 標本の何を使う?
11
1 ) p の推定量 p = X = N
∑X
i =1
N
i
推定量は確率変数、推定値はその実現値
12
2
2007/05/30
抽出 母集団
標本
標本平均
p の推定量
X 1, X 2 , L , X n
特に母集団分布に正規 分布を仮定する場合 正規母集団
•
標本サイズ N を大きくすると分散が小さくなる
ˆ V [ p] = V [ X ] =
p (1 − p ) N
母集団 X E[ X ] = μ V[ X ] = σ2
ˆ V [ p]
確率変数の平均からのばらつきの程度
X1 X2
・ ・ ・
母集団分布に対応して、標 本から計算される統計量 (標本平均など)の分布の ことを標本分布とよぶ
母集団の平均は p 、分散は p (1-p ) 無作為抽出によるサイズ 定理6.1より
n
標本平均の平均と いう表現に注意 定理の 意味
標本平均という名前の確率変数の平均
同一の母集団から大きさ n の標本を得たとき、 標本平均の平均は、母集団の平均に等しく、 分散は母集団分散の n 分の1になっている
テキスト138-140頁
箱の中から1つ球を取り出したとき 箱の中の赤球 10000 = 0 . 01 球が赤球である確率 = の比率・割合 1000000 • さらに1つ球を取り出したとき (はじめの球は箱にはもどさない)
標本をどのように考えるか
例題の調査は、商品を購入するか、しないか、の二者択一 ベルヌーイ確率変数(87頁)を使って表現 確率
E(X ) = μ
大数の法則
V (X ) =
σ2
n
例:コイン投げ コインの表と裏が出る確率はそれぞれ等しく、 0.5と考えているが、実験するとどうなるか?
母集団の分布はわかっ ていなくても成立
n 回投げてみて表が出る割合( n 回のベルヌーイ試行か
らの標本平均)を表が出る確率とする
標本サイズが大きく なると 標本平均の分散が 小さくなっていき、 平均周りにちらば りが集中する
未知の p は母集団の平均になっている
調査対象(母集団)から 100 世帯を無作為抽出し,新商品を 購入するなら 1,しないなら 0 とする。 100 個の標本から計算され た割合・比率が 0.50 たまたまこの調査結果で 0.50となったのでは? これは国内全世帯の真の 購入割合・比率か? もう一度、調査すると 結果が変わるのでは?
3
標本に偏りがないように 無作為抽出(Random Sampling) 抽出された標本を 無作為標本(Random Sample)
4
標本として選ばれたものどうしは独立
例題6.1:新商品の販売
新商品を購入する世帯の割合を 調べる
いくつかの疑問 1. 100世帯の調査結果を全世帯の結果(真の値)と同じと 考えてよいのか? 2. 別の100世帯の調査結果が同じ結果になるとは限らない。 (異なる二つの結果のどちらを信頼すればよいか? ) 3. 調査ごとに結果がばらついているなら、そのばらつきを減 らすにはどうすればよいか?
21
n = 4 の結果と n = 100 の結果 どちらの精度が高い?
標本平均の分散を考えれば、 n = 100 の結果の方 さらに 大数の法則は、未知のものを推定する際、標本サイズが 大きくなれば本当の値に近い値を知ることができること の理論的な裏付け
22
標本を抽出する ということ
母集団の一部を取り出して全体の特徴 を明らかにすることが目的 母集団の平均が知りたい
本当の p の値はわからない
5 6
1
2007/05/30
標本として選ばれる確率 箱の中に100万個の球が 入っている •
テキスト137-138頁
標本調査をおこなう場合(母集団のサイズが大きい) 標本として選び 出される確率
箱の中の1%(1万個)が赤球 残り99万個は白球
≒
その対象が母集団に 含まれる比率・割合
母集団分布をベルヌーイ確率分布に特定した場合(144頁)
母集団 X
無作為抽出によるサイズ 標本平均
n の標本 X1 , X2 , …, Xn
V[X ] =
E[ X ] = μ
σ
2
X は成功で 1、失敗で 0 となるベルヌーイ確率変数 (成功確率は p ) X が成功確率 p のベルヌーイ確率変数であることから
x11 , x12 , L , x1 n x 21 , x 22 , L , x 2 n
M x j 1 , x j 2 , L , x jn M
x1
x2
M xj M
13
100世帯の標本からの標本平均の実現値が 0.5
標本抽出を再度おこなうと、標本平均は別の値で 実現するかもしれない
14
標本平均の性質 • 不偏性
にしたときゼロになる 任意の正数 ε に対して
n→ ∞
の無作為標本{ X1, X2,
確率変数としての性質は定理6.1 • • • 定理6.1より,平均
lim P ( | X − μ | > ε ) = 0
μ のまわりに散らばって実現する
標本サイズを大きくすると,散らばりの程度が小さくなる より真の(未知の)平均 μ の近くで実現する 標本サイズが無限大 になると?
対象すべてを調査 調査対象の一部を取り出して調査
標本(サンプル)を取り出すことを抽出(サンプリング)
1
2
例:母集団と標本 母集団 豊中市 全世帯
N世帯を無作為に抽出
標本 この例の場合、標本を 構成している世帯数は
どのような場合に標本調査か? 無限母集団 有限母集団でも調査時間・費用など 制約がある場合 偏りがないように