统计学与数据分析-MyOOPS开放式课程

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

正確且精準
正確但精準
精準但不正確
不正確且不精準
12
由麻省理工學院開放式課程提供
研究設計與執行步驟
1. 2. 3. 4. 背景研究和文獻綜述。 定義研究目的及具體假設。 確定要測量的變量及如何測量。 制定收集數據的計畫內 抽樣設計 樣本大小 包括的範圍 人員訓練 匯集數據 分析數據 結果報告
13
5. 6. 7. 8.
23
態度問題
1、本課程的家庭作業量適宜
非常反對
反對
既不贊同也不反對
贊同
非常贊同
通常5-9個量級。 (我們應不應當給每個量級編值?) (由高到低或由低到高?)
24
調查問題的措詞
雙向問題
導向問題
單邊問題
含糊問題
預備調查!預備調查!預備調查!
「統計學決不能取代判斷」, Henry Clay。
4
「米」如何定義?
四分之一子午線(從極點到赤道)的一千萬分之一。
但是--它不精確.
為什麼?
5
《對所有事物的測量》,Ken Alder,
描述兩個法蘭西天文學家,Delambre and Mechain,企圖確定法蘭 西大革命時期地球的周長。
用三角測量法確定巴塞隆那與敦刻爾克之間的距離,需要知道每一 個端點的緯度 (透過測量天體高度)。
15
觀察性研究:
橫截面研究 尋找某一時點的樣本 例如人口普查,樣本調查 預測研究(昂貴!) 對樣本(一群)進行時間序列跟蹤研究 。 例如Framingham之心臟研究,護士健康研究 回顧研究(案例控制) 按時間追溯
16
觀察研究中的誤差來源
抽樣誤差 測量偏差 樣本不同於總體 界定問題不清晰 拒絕參與
缺點:需要有抽樣架構
20
多階段分群抽樣
適用於總體規模大且無抽樣架構,例如美國
例如,在教育調查中,先抽取州樣本,然後抽取各州的鎮,然後 再抽取各鎮的學校.
準備從選擇的學校抽取學生樣本的架構及使用簡單隨機抽樣。
21
系統抽樣
適用於當已知單元列表或單元到達順序(汽車透過收費站)。
隨機選擇第一個單元,然後每隔k抽取一個單元。
自我選擇偏差
回應偏差 不正確或不真實的回應
17
抽樣類型
機率抽樣(總體中的任一單元都具有非零機率) 簡單隨機抽樣 (SRS) 分層隨機抽樣 多階段分群隨機抽樣 系統抽樣
非機率抽樣 (估計可能有偏差,但 經常是唯一可行抽樣方法) 便利抽樣,例如超市調查 判斷抽樣由調查員確定
18
簡單隨機樣本 (SRS)
倫理觀
從人類角度:
從動物角度: (見 H u lley & C u m m i n gs之《臨床研究設計》)
14
統計研究
描述性的: 一組,例如調查,選舉 比較性的: 2 組以上,例如對不同教學方法效果的比較。 實驗性的: 調查人員主動介入以控制研究條件 尋找預測值(解釋變量)與回應(輸出值)之間的關係 明確因果關係,例如藥物試驗 觀察性的: 調查人員透過旁觀記錄數據 難以區分預測值干擾變量(潛變量)件間的影響。 建立聯繫,例如Framingham之《心臟研究》
2Baidu Nhomakorabea
15.075,應用統計學,課程大綱
‧收集數據 ‧概括和探索數據 ‧機率論複習 ‧統計量的抽樣分佈 ‧推斷 點估計與區間估計,假設檢驗 ‧線性回歸 ‧變量分析 ‧非參數方法 ‧專題(數據挖掘?)
3
統計學
是為了得出結論和決策而進行的數據採集及數據分 析之科學。
Tamhane,AjitC.,Dorothy D,Dunlop,《統計學與數據分析進 階》。Prentice Hall,2000,第1頁,
數據集常寫成矩陣形式,行對應觀測值,列對應變量。
10
概念(接上)
參數: 針對每一變量定義的總體的數字特性,如反對戰爭人數的比例。
統計量: 用於估計總體參數的樣本數字函數。 精確度: 參數估計量的散佈
準確度: 與偏差對應的估計量與真值的近似程度
偏倚度: 估計量與真值的系統偏離程度
11
準確度和精確度
7
數據:一組測量值
特性:
名義的,如顏色:紅,綠,藍 二元的,如(M,F),(H,T),(0,1) 序數的,如對待戰爭態度:支持,中立,不 支持
數字的
離散的,如兒童數量
連續的,如距離,時間,溫度 也包括:
間隔,如華氏溫度 比率(絕對零),如距離,兒童數量
8
S-Plus數據集:cu.摘要
9
概念
總體: 所有感興趣的單元的集合(有限或無限). 例如:麻省理工學院的所有學生 樣本: 實際觀察總體的一個子集. 例如:在這教室裡的學生. 變量: 每一單元的性質或屬性,例如 年齡,高度 觀察值: 獨立單元的所有變量的值
總體 從大小為N的總體中無放回抽取樣本規模 為n的樣本,N以使每一個樣本 均有同樣的被抽取機會。 n總體中的任一樣本被抽取到的機率為:n/N (抽樣分數)。 產生隨機數來提取抽樣架構
19
分層隨機抽樣
將具有不同性質的總體分成有相同性質的子總體(層). 再從每一層中進行簡單隨機抽樣。 優點: 在整體估計的基礎上可以獲得各層的估計。 估計精度高於簡單隨機抽樣
有限總體,每一單元有同樣的選擇機率(n/N) (然而並不是所有樣本是等可能的).
必須避免k與數據中的循環週期相近
22
問卷設計
架構問題:回應應互相排斥且具有完備性。 例如你每天喝幾杯水? ─ 0 到 2杯 ─ 3 到 5杯 ─ 6杯或以上
非架構問題:
例如你每天喝幾杯水?
允許更多個性化的回答,但較會帶來校對的數據錄入誤差。
Elizabeth Newton 博士
幻燈片由Elizabeth Newton(麻省理工學院)準備,其中部分由Roy Welsch(麻省理工學院)與Gordon Kaufman(麻省理工學院)
1
15.075,應用統計學
講課:M,W 10-11:30
複習課:R 4-5 教材:《統計學與數據分析》Tamhaneand Dunlop著 編程:S-Plus 考試:期中(課內)和期末 先修課程:微積分,機率論,線性代數,
7個月到7年。
Mechain獲得相矛盾的訊息 ,隱瞞了數據的部分訊息。
6
頁214(《所有事物的測量》):
「什麼被記為誤差?誰能斷言你將要犯錯誤? 如何近似為充 分近似?Mechain和他的同事 都沒有能夠以相當程度的信心回 答上述問題。 他們對統計簡直是一無所知。」
- 引自 Alder,Ken。《測量所有事物》之〈7年奧德賽及隱藏誤差 改變世界〉,Free Press,2003。
相关文档
最新文档