SPSS软体与多变量分析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
6
§2典型相關分析 典型相關分析
目的:: 1.求兩組變數{X1, X2, …, Xp}與{Y1, Y2, …, Yq}之間 的相關,尋找X變數的線性組合Wi與Y變數的線性組 合Vi,Wi, Vi分別為X, Y的第i個典型變數(canonical variate),使得 (1) W1, V1為X, Y變數的所有線性組合中,相關係數 最大者 (2) W2, V2與W1, V1 互為獨立,且W2, V2 為滿足此 條件的線性組合中,相關係數最大者。 (3) Wi, Vi與前所有個典型變數Wj, Vj互為獨立,且為 滿足此條件的線性組合中,相關係數最大者。 2.典型變數最多min(p, q)對,但相關係數可能只有 m < min(p, q)個顯著,應決定需要至少多少個典型 相關,才能適當描述兩組變數X, Y的關聯。
19
§4 集群分析
目的:集群分析的目的是要將觀察點分群,使得每 群內元素對集群變數而言,同質性高,期能掌握集 群結構。因此群聚分析的步驟如下: (1)量測相似性 (2)決定分群的技巧(層次法或非層次法)(hierarchical or nonhierarchical) (3)決定分群技巧的分群方式(層次法中的重心法, 華德法等) (4)決定分群的群數 ( 判別)分析
目的: (1)指出能最佳分辨出二群或多群的變數。 (2)利用這些有分辨力的變數,導出一個方程式或函 數,以形成一個新變數或指標,用來簡約的呈現群 間的差別。 (3)利用這些有分辨力的變數或新指標,導出一種規 則,用來判別一個新觀察點應歸屬那一群。
14
15
方法: 1.利用兩母體t檢定或單因子變異數分析指出 哪些自變數,具有區別能力(i.e.各群的均值應 不等),亦可用逐次區別分析 (常用Wilks法), 指出具較佳分辨力的變數 2. 利用Wilk’s Λ 檢定各群的均值向量是否不 等,(此表示自變數向量具有總體區別能力) 3.利用Box’s M檢定各群的變異數矩陣是否相 等
8
方法: −1 Σ −1 Σ XY Σ YY Σ YX 的特徵向量a,得典型變數 W = a′X 1. XX −1 −1 Σ YY Σ YX Σ XX Σ XY 的特徵向量b,得典型變數 V = a ′Y 。 兩者特徵值ρ2相等,即為典型相關係數ρ,向量a, b為典型權重,大於0.3 者具有解釋能力。 2. 用Wilk ‘s Lambda(Λ)檢定是否所有 ρi = 0 ,即 H 0 : ρ i = 0, ∀i 作總檢定。用Likelihood ratio( Likelihood ratio(概似比) ) 檢定,檢定是否第m + j個之後的ρ為0 (註ρ1 > ρ 2 > L > ρ M ),以決定應保留幾組典型變數 ( ρ i = 0 則不保留)
22
例4:27種食品的營養資料,今用單一聯結,完全 聯結,重心法,華德法做層次法群聚分析,以決定 最合理的分群,再用此分群的重心為初始seeds, 進行非層次法群聚分析,以得最佳分群。
23
SPSS操作 先做層次法: 點選分析 分類 階層集群分析法 在對話框上, 將5個分群變數右移至變數(V)欄 按統計量,勾選群數 凝聚過程,及近似性矩陣 繼續 按圖形,勾選樹狀圖 及方向 繼續 按方法,集群方法選Ward 's法,測量 選區間的歐基里得直線距離平方 繼續 確定 再做非層次法(K-means法): 點選分析 分類 K平均數集群 在對話框上,將5 個分群變數右移至變數(V)欄 集群個數鍵入 3 若要 自訂初始種子,則按中心點,勾選起始中心點讀入來源, 按檔案,選取起始種子存檔的檔名,按開啟 按儲存, 勾選各集群組員與集群中心點的距離 繼續 按選項, 勾選各集群初始的中心,ANOVA摘要表,各觀察值的 集群資訊 繼續 確定 在ANOVA表的各變數若差異顯著,則由各群在各變數 平均值的大小,對集群命名
16
4.計算典型區別函數 (Canonical discriminant functions) (求群間變異數矩陣B,與群內變異數矩 陣W相除的 矩陣的特徵值λi所對應的特徵向 量γi,即為第i個典型區別函數的係數向量) 由特徵值的Wilks’ Lambda檢定,判定要選幾個區 W −1 B 別函數 標準化係數常用來評估自變數在該區別函數的重要 性 (但自變數間共線性強時, 應避用之) 用loading(結構矩陣係數)來解釋區別函數的意 義 (取值>0.3者)或命名。
7
例如:(1)健康部門想知道住家品質,如房屋型態, 冷暖氣條件,自來水的提供,廚房及衛浴設備,與 微小和嚴重疾病發生數,無力工作天數間的關連大 小。 (2)研究人員想知道個人的生活型態及飲食習慣是否 對其健康有影響,健康情況可用一些相關變數如高 血壓,體重,焦慮,緊張水準等量測。 (3)行銷經理想知道購買的產品型態與消費者生活型 態及個性是否有關連。 二組變數若能分出其中一組為自變數或預測變數 (predictor),另一組為因變數或準則變數(criterion), 則典型相關可以看出自變數是否影響因變數。
SPSS軟體與多變量分析 軟體與多變量分析
南台科技大學企管系 呂金河
1
§1 主成分分析
目的:將原來多個有相關的變數,藉由原 : 變數的線性組合,“簡化”成較少個數的 新變數(主成份),這些新變數彼此不相關, 且希望能解釋大部分原始資料中的變異, 而這幾個主成份可用來代表原始資料的較 簡化的綜合性指標,以做進一步分析應用。
例如: (1)國稅局(IRS)想找出在查稅時,能分辨 出逃稅與未逃稅的兩群人的重要變數,再將 此類變數合成一個指標,以此簡約的方法, 呈現二群間的差別。然後用此指標,預測某 人報稅時是否逃稅。 (2)醫藥研究員想對有心臟病的兩群人,找出 二者顯著不同的決定性變數,然後用這些變 數的值,來預測某一病人是否會得心臟病。 (3)行銷經理想找出能成功顯示品牌購買者與 未購買者二者不同的突出特質,再利用這些 資訊,以預測潛在顧客購買的意向
9
3.計算W與X的相關係數稱為W的典型負荷, 得典型結構矩陣,用以解釋W的意義 (命名)。 V的命名,亦由V與Y的典型負荷量 (值者) 決 定 4.計算W與Y的相關係數,及V與X的相關係 數,進一步說明彼此的相關大小與方向 5. 計算自我相關係數,為典型負荷值的平方 的平均值,用以表示典型變數所解釋的共有 變異量的比例,即自我解釋的能力。
i i
2
i
i
i
將觀察值x,帶入 d i ( x ),其值最大時,x就歸屬該群 計算事後機率 p ( π i | x ),其值最大時,x就歸屬該群 計算分類結果 (摘要表) 及誤判率 (或命中率) 常與集群分析共同使用,即在集群分析後,用區別 分析來鑑定分群之效度
18
例3: 以Y = 偏好廠牌,X1=年齡,X2=所得,X3= 產品認知為自變數做區別分析,以預測偏好口味。
11
例:用消費情境變數(飲用習慣 滿足胃口 換用品牌 享受氣氛)與產品強度變數(口味偏好、產品形象、 競爭優勢)作典型相關析,以決定廣告策略及廣告訴 求重點。
12
SPSS程式須用語法寫出程式以執行典型相關分析。 manova 飲用習慣 滿足胃口 換用品牌 享受氣氛 with 口味 偏好、產品形象、競爭優勢 /Discrim raw stan estim corr rotate (varimax) alpha(0.05) /print signif(eign dimenr hypoth) /noprint signif(mult univ) param(estim) /error within+residual /design.
17
用區別函數的值 (區別計分) ,判定觀察值應歸屬哪 一群 (分兩群時,切割點C常取兩群區別計分平均 值 Z1、Z 2 的加權平均 ) n1 Z 1 + n2 Z 2
C= n1 + n 2
5.計算分類函數 (classification functions) 第i群的分類函數 d ( x ) = µ′Σ −1 x − 1 µ′Σ −1µ + ln p
2
例如 (1)分析某公司的財務健康狀況,分析師找出了 100種財務比率的資料,如何將這100種比率“簡 化”成少數幾個(約3種)綜合指標,可由原100種 變數的線性組合呈現。 (2)學期末各科考試成績,設有國、英、數、理、 化、史、地七科,如何將七科成績(原始資料)“化 簡”成一個綜合數字(主成份),用來“代表”學 生的全部成績? (3)品管工程師想由一堆製程變數的量測資料,導 出少數幾個主要的綜合指標,以顯示製程是否in control
SPSS操作: 點選分析 分類 判別 在對話框將偏好廠牌移 到分組變數,並將年齡、所得和產品認知移到自變 數 按統計量,勾選描述性統計量的單變量 ANOVA、Box’s M檢定、平均數、Fisher’s判別函 數係數、未標準化 繼續 若點選 ”使用逐步 迴歸分析方法” 則按方法 勾選方法中的Wilks’ lambda值 繼續 按分類,勾選事前機率的設定 及顯示的摘要表或Leave-one-out分類方法 繼續 按儲存,勾選儲存預測的組群及其他 繼續 確定
5
例1:用下列資料求消費者物價指數(Consumer Price Index(CPI)) SPSS操作: 點選分析 資料縮減 因子 在對話框將 Bread、Burger等物價變數移入變數 按描述統計 量,勾選未轉軸之統計量,相關矩陣的係數 繼 續 按萃取,勾選方法為主成份,分析用相關矩 陣,顯示未旋轉因子解陡坡圖,萃取特徵值 繼 續 按分數,勾選因素儲存或變數,方法為迴歸 方法 繼續 確定
3
方法:將一組行為變數 X1 , X 2 , L, X k (或稱構面函數) 減縮為指標變數Yi,Yi為 X , X , L , X 的線性組合, 希望第一主成分Y1是此線性組合中變異數最大者 1. 利用 X1 , X 2 , L, X k 的變異數矩陣 (或相關矩陣) 的特 徵根λi 的特徵向量決定主成分中線性組合的係數值 2. Var(Yi)= λi ,其解釋總變異的百分比為 λ i k 此值表示 Yi的解釋(總變異的)能力 ∑ λi i =1 3. 用陡坡圖或保留特徵值大於1者,決定要保留使 用的主成分個數,若Y1已解釋60%以上,即可認定 Y1為總指標,足以代表k個行為變數 (或認為前幾個 主成分能解釋70%以上,即算滿意結果)
1 2 k
4
4. 用loading (負荷) = Corr(Xi,Yj) ≧0.5者,解釋Yj的 意義 (命名) 5.主成分Yj互為獨立,故可取主成分計分(Score)為 新變數,再做迴歸或區別分析,可避免原Xi共線性 (高度線性相關) 的問題 6.用相關矩陣所得Y1的主成分計分,可轉換成 N(0,1)的CDF,稱為百分位序,可用以顯示個案 (各 觀察點) 在總指標上的相對強度,以比較個案間的 差異
20
例如: (1)投資銀行的財務分析師想指出最值得接收 的公司群名單。 (2)行銷經理想指出可以用來檢測市場情況的 相似城市的名單。 (3)某候選人的競選活動經理想指出對某重要 議題有相似觀點的選民群集
21
方法: 1.分群的方法分為層次法(含單一連結法、完全連結 法、平均(中心)連結法、華德法等)與非層次法(Kmeans法)二大類。分群的基本原則是同質的個案集 成一群,而同質性的衡量對分析性變數,用距離(含 歐氏距離、馬氏距離、市街距離等),對分類性變數, 用相似性 (含匹配相似量數、Jaccard相似比等)衡量。 2.先用層次法分群,用華德法等樹狀圖的高度對分 群個數畫陡坡圖,跳躍量最大處的右端點即為最適 分群個數,或用R2、半偏R2等決定分群個數。 3.用層次法決定分群個數(可用層次法分群的各群中 心值為初始種子),再做K-means法決定最後的分群 4. 由1-way ANOVA,若各變數在各群的均值差異 顯著,則可由其均值大小對各分群命名。
10
6. 計算重疊指數(Index of Redundancy)R.I., 此為自我相關係數乘以典型相關係數的乘積。 如同複迴歸的R2(判定係數),R.I.是衡量典型 相關中一組變數被另一組變數解釋的變異百 分比。R.I.<0.05者表示解釋力不足,該典型 變數不予考慮。 7. 若X, Y能分出X為自變數,Y為因變數,則 可用的複歸估計式,直接看Xi與Yj的關係情況。