统计学与数据分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
20
多階段分群抽樣
適用於總體規模大且無抽樣架構,例如美國 例如,在教育調查中,先抽取州樣本,然後抽取各州的鎮,然後 再抽取各鎮的學校. 準備從選擇的學校抽取學生樣本的架構及使用簡單隨機抽樣。
21
系統抽樣
適用於當已知單元列表或單元到達順序(汽車透過收費站)。 隨機選擇第一個單元,然後每隔k抽取一個單元。 有限總體,每一單元有同樣的選擇機率(n/N) (然而並不是所有樣本是等可能的). 必須避免k與數據中的循環週期相近
16
觀察研究中的誤差來源
抽樣誤差 樣本不同於總體 測量偏差 界定問題不清晰 自我選擇偏差 拒絕參與 回應偏差 不正確或不真實的回應
17
抽樣類型
機率抽樣(總體中的任一單元都具有非零機率) 簡單隨機抽樣 (SRS) 分層隨機抽樣 多階段分群隨機抽樣 系統抽樣
非機率抽樣 (估計可能有偏差,但 經常是唯一可行抽樣方法) 便利抽樣,例如超市調查 判斷抽樣由調查員確定
3
統計學
是為了得出結論和決策而進行的數據採集及數據分 析之科學。
Tamhane,AjitC.,Dorothy D,Dunlop,《統計學與數據分析進 階》。Prentice Hall,2000,第1頁,
「統計學決不能取代判斷」, Henry Clay。
4
「米」如何定義?
四分之一子午線(從極點到赤道)的一千萬分之一。 但是--它不精確.
為什麼?
5
《對所有事物的測量》,Ken Alder,
描述兩個法蘭西天文學家,Delambre and Mechain,企圖確定法蘭 西大革命時期地球的周長。 用三角測量法確定巴塞隆那與敦刻爾克之間的距離,需要知道每一 個端點的緯度 (透過測量天體高度)。 7個月到7年。 Mechain獲得相矛盾的訊息 ,隱瞞了數據的部分訊息。
13
倫理觀
從人類角度: 從動物角度: (見 H u lley & C u m m i n gs之《臨床研究設計》)
14
統計研究
描述性的: 一組,例如調查,選舉
比較性的: 2 組以上,例如對不同教學方法效果的比較。
實驗性的: 調查人員主動介入以控制研究條件 尋找預測值(解釋變量)與回應(輸出值)之間的關係 明確因果關係,例如藥物試驗
18
簡單隨機樣本 (SRS)
總體 從大小為N的總體中無放回抽取樣本規模 為n的樣本,N以使每一個樣本 均有同樣的被抽取機會。 n總體中的任一樣本被抽取到的機率為:n/N (抽樣分數)。 產生隨機數來提取抽樣架構
19
分層隨機抽樣
將具有不同性質的總體分成有相同性質的子總體(層). 再從每一層中進行簡單隨機抽樣。 優點: 在整體估計的基礎上可以獲得各層的估計。 估計精度高於簡單隨機抽樣 缺點:需要有抽樣架構
觀察性的: 調查人員透過旁觀記錄數據 難以區分預測值干擾變量(潛變量)件間的影響。 建立聯繫,例如Framingham之《心臟研究》
15
觀察性研究:
橫截面研究 尋找某一時點的樣本 例如人口普查,樣本調查 預測研究(昂貴!) 對樣本(一群)進行時間序列跟蹤研究 。 例如Framingham之心臟研究,護士健康研究 回顧研究(案例控制) 按時間追溯
6
頁214(《所有事物的測量》): 「什麼被記為誤差?誰能斷言你將要犯錯誤? 如何近似為充 分近似?Mechain和他的同事 都沒有能夠以相當程度的信心回 答上述問題。 他們對統計簡直是一無所知。」
- 引自 Alder,Ken。《測量所有事物》之〈7年奧德賽及隱藏誤差 改變世界〉,Free Press,2003。
24
調查問題的措詞
雙向問題 導向問題 單邊問題 含糊問題 預備調查!預備調查!預備調查! (更多訊息,見 Johnson & Wichern之《商務統計》)
25
敏感問題
例如你曾服用過海洛英嗎?
隨機回應可以誘發更準確的回應。
訪談者並不知道被訪談對象正在回答的問題。
22
問卷設計
架構問題:回應應互相排斥且具有完備性。 例如你每天喝幾杯水?
─ 0到2杯 ─ 3到5杯 ─ 6杯或以上
非架構問題: 例如你每天喝幾杯水?
允許更多個性化的回答,但較會帶來校對的數據錄入誤差。
23
態度問題
1、本課程的家庭作業量適宜
非常反對
反對
既不贊同也不反對
贊同
非常贊同
通常5-9個量級。 (我們應不應當給每個量級編值?) (由高到低或由低到高?)
正確但精準
精準但不正確 不正確且不精準
12
由麻省理工學院開放式課程提供
研究設計與執行步驟
1. 背景研究和文獻綜述。 2. 定義研究目的及具體假設。 3. 確定要測量的變量及如何測量。 4. 制定收集數據的計畫內
抽樣設計 樣本大小 包括的範圍 5. 人員訓練 6. 匯集數據 7. 分析數據 8. 結果報告
15.075,應用統計學
講課:M,W 10-11:30 複習課:R 4-5 教材:《統計學與數據分析》Tamhaneand Dunlop著 編程:S-Plus 考試:期中(課內)和期末 先修課程:微積分,機率論,線性代數,
2
15.075,應用統計學,課程大綱
‧收集數據 ‧概括和探索數據 ‧機率論複習 ‧統計量的抽樣分佈 ‧推斷 點估計與區間估計,假設檢驗 ‧線性回歸 ‧變量分析 ‧非參數方法 ‧專題(數據挖掘?)
數據集常寫成矩陣形式,行對應觀測值,列對應變量。
10
概念(接上)
參數: 針對每一變量定義的總體的數字特性,如反對戰爭人數的比例。
統計量: 用於估計總體參數的樣本數字函數。
精確度: 參數估計量的散佈
準確度: 與偏差對應的估計量與真值的近似程度
偏倚度: 估計量與真值的系統偏離程度
11
準確度和精確度
正確且精準
7பைடு நூலகம்
數據:一組測量值
特性:
名義的,如顏色:紅,綠,藍 二元的,如(M,F),(H,T),(0,1) 序數的,如對待戰爭態度:支持,中立,不 支持
數字的
離散的,如兒童數量 連續的,如距離,時間,溫度
也包括:
間隔,如華氏溫度
比率(絕對零),如距離,兒童數量
8
S-Plus數據集:cu.摘要
9
概念
總體: 所有感興趣的單元的集合(有限或無限). 例如:麻省理工學院的所有學生 樣本: 實際觀察總體的一個子集. 例如:在這教室裡的學生. 變量: 每一單元的性質或屬性,例如 年齡,高度 觀察值: 獨立單元的所有變量的值
相关文档
最新文档