基于主成分分析的住宅特征价格模型的实证应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、主成分分析法
主成分分析法,是因子分析法的一种特殊形式,最早是由美国心理学家charies spearman于1904提出,其基本思想是将实测的多个指标,用少数几个潜在的相互独立的主成分指标(因子)的线性组合来表示,构成的线性组合可以反映原多个实测指标的主要信息。主成分分析是从解释变量方差的角度出发,假设变量的方差能完全被主成分所解释,使得分析与评价指标变量时,能够找出主导因素,切断相关的干扰,做出更为准确的估量与评价。
主成分分析法强调差异性原理,指标权重系数具有客观性;它对自变量进行变换后形成了彼此相互独立的主成分,消除了评价指标之间的相关影响,因此这种方法不要求选择完全独立的指标,从而降低了指标选择的难度。此外,该方法确定的权数是基于数据分析而得到的指标之间的内在结构关系,不受主观因素的影响,而得到的综合指标(主成分)之间彼此独立,减少信息的交叉,使得分析评价结果具有客观性和准确性[1]。
二、基于Box-Cox变换特征价格模型的建立
(一)Box-Cox变换
在一般回归模型中我们常使用如下的线型模型:
()⎪⎩⎪⎨
⎧=≠−=0ln 0
1λλλλ
λY
Y Y ()⎪⎩⎪
⎨
⎧=≠−=0ln 01λλλλ
λP
P P ()
⎪⎩⎪⎨⎧=≠−=0ln 01θθθθθX X X Y=X β+ε (1)
给定一组数据( T
i y ,T
i x )
,i=1,2,……,n ,若用模型(2)进行拟合,发现个别变量系数的t 检验或P 值检验可能不能通过。为了有效的提高回归精度,往往对Y 进行如下变换[2]:
(2) 该变换就称为变量Y 的Box-Cox 变换。
Box-Cox 变换的特点在于引入一个新的变换参数λ,通过数据本身估计出该参数,从而确定所应采取的数据变换形式。对因变量Y 的数据变换可以明显地改善数据的正态性,对称性和方差齐性;对自变量X 的数据变换可以改善模型结构,使得拟合的效果更好。由于Box -Cox 变换模型完全基于数据本身建模而无需任何先验信息, 具有灵活的参数形式, 在实际经济建模中广为应用且行之有效。
(二) Box-Cox 变换在特征价格模型中的应用
特征价格模型是基于商品价格取决于商品各属性给予消费者满足这一效用理论观点而建立起来的价格模型,在价格预测、价格评估等方面具有广泛的应用。自Ridker 把特征价格理论应用到住房市场分析以来[2],特征价格模型已经发展成为房地产领域广泛应用的模型之一。
住宅特征价格模型的一般形式如下[3]:
)Q ,N ,S (P P i i i i = (3)
其中:P 为住宅的市场价格; i S 为住宅的建筑特征向量;i N 为住宅的邻里特征向量;i Q 为住宅
的区位特征向量。特征价格模型没有理论定式,通常根据实际问题和数据来确定。 在实际应用中,研究者考虑了自变量和因变量的相互关系,采用了多种函数形式,包括线性函数、二次函数、对数函数、半对数函数、指数函数等等。就国内研究现状来看,线性函数以其计算简便、结果精确而被广泛应用,具体形式如下:
0i
i
P X
ααε=+
+∑
或: P=εαααα+++++m m X X X ""22110 (4)
其中P 为所研究对象的价格;0α为常数项,i α为住宅特征的影响系数,i X 为自变量,表示住宅特征,
ε为随机误差。
住宅的价格P 通过参数λ转变成[3] :
(5) 类似的,特征变量与参数有以下关系 (6)
将公式(5)、(6)代入公式(4),即可得基于Box-Cox 变换的住宅特征价格模型:
i ji m
j j i
X P εααθλ++=∑=)(1
0)
(
代入样本数据,对该模型进行最小二乘估计的计算,所得结果即是对住宅特征变量效用的解释。据查阅资料,Cropper ,Deck &McConnell 曾通过使用均衡价格对以上几种函数形式进行评估,证实了从估计真实边际出价的精确性来评价模型,那么在观察到所有属性和没有测量误差的情况下,线性Box-Cox 模型最好;Raimond Maurer , Martin Pitzer , and Steffen Sebastian 从函数选择的意义出发,说明在研究房地产市场上实际价格的发展趋势,而不是分离各个特征对价格影响的情况下,线性Box-Cox 模型应优先考虑。
线性函数的特点是拥有较多的变量,为模型的建立提供了丰富的信息,增强了模型的精确性。但多变量样本也在一定程度上增加了数据采集的工作量 ,更重要的是在大多数情况下,许多变量之间可能存在相关性而增加问题分析的复杂性,同时对分析带来不便。如果分别分析各个变量,分析又可能是孤
立的。而不是综合的。盲目减少变量个数会损失很多信息,容易产生错误的结果。因此需要找到一个合理的方法,减少分析变量的同时,尽量减少原变量包含信息的损失,对所收集的数据信息作全面的分析。由于各变量间存在一定的相关关系,因此有可能用较少的综合指标分别综合存在于各变量中的各类信息。主成分分析法就是这样一种客观的多元统计方法。将主成分分析法引入特征价格模型,建立基于主成分分析的特征价格函数,进一步改进线性函数的模拟效果[4]。
三、主成分分析法在特征价格模型中的应用[5]
本文选择西安市七个区域的92个住宅项目作为分析样本, 建立基于主成分分析的住宅项目特征定价模型.
(一)特征变量的选择及其量化
本文的变量选择以我国国情为基础、以研究目标为导向,结合西安房地产市场的现状展开。综合分析得出10个住宅特征进入Hedonic 模型变量,其中区位特征变量1个,建筑特征变量3个,邻里特征变量6个,依次分别为:交通条件;建筑面积、楼层、朝向;生活配套、小区环境、文体设施、邻近大学、物业管理、教育配套。
根据以往较成熟的变量量化方法,本文采取实际数据的直接量化,5点Liket 表量化,综合指标量化和虚拟变量量化等方法,具体如表1 :
表1:住宅特征项目与量化值
住宅特征 量 化
交通条件 小区方圆500米内的公交线路站点,每个1分 建筑面积 住宅的总建筑面积(平方米) 楼层 住宅所在的楼层数(层)
朝向 住宅朝向,南北朝向赋值1,其他为0
生活配套 小区内或1000米内有无超市,商场,菜场,银行,邮局和医院,每项一分,共计6分 小区环境 小区环境分为5个等级:极差1分,差2分,一般3分,好4分,很好5分
文体设施 小区内或1000米内有无游泳池,健身场地,球场以及公共活动室,每项1分,共4分 邻近大学 小区附近1000米内有大专院校的记1分,否则记0分
物业管理 小区物业管理水平分为5个等级:极差1分,差2分,一般3分,好4分,很好5分 教育配套
小区内或1000米内有幼儿园,小学,中学,每项1分,共3分。
(二)特征变量的主成分分析
对所收集的92组样本数据利用SPSS13.0软件进行主成分分析。首先进行KMO and Bartlett 检验,如表2所示:
表2 :KMO and Bartlett's Test
Kaiser-Meyer-Olkin Measure of Sampling Adequacy.
.630 Approx. Chi-Square 239.805
df 45 Bartlett's Test of Sphericity
Sig.
.000
KMO 检验用于检验变量间的偏相关性是否足够小。一般认为。KMO 统计量取值在0与1之间,其值
越大,主成分分析的效果越好。Bartlett 球形检验用于检验相关阵是否为单位阵。该检验统计量服从2
χ分布,要求结果拒绝单位阵的假设(P>0.05)。表2中KMO 值为0.630,Bartlett 值为0,表明基本认为样本足够,可以进行主成分分析。
其次,进行主成分分量的选取。一般有两种方法:一是以特征值大于某数值为提取标准,系统默认为1;另一种方法为自定义提取因子的数量。本文选取第一种方法,选择特征值大于0.7,结果如表3所示: