对基于Hedonic模型的批量评估方法的完善初探刘静

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

对基于Hedonic模型的
批量评估方法的完善初探
（刘静）
摘要：由于城市内的不动产数量巨大，在某一区域内不动产的价值影响因素往往相同或相似，所以可以根据这些影响因素对不动产价值的影响程度，采用适当的技术一次性评估区域内的所有不动产，这种一次性评估大批量不动产的方法称为批量评估方法（MassAppraisal）。

关键字：Hedonic模型批量评估
一、引言
批量评估方法就是在市场法，成本法和收益法三种基本评估方法的基础上结合数理统计技术，通过创建批量评估模型达到批量评估目的的一种方法。

国际评估准则（2005）对批量评估的解释是应用系统的、统一的、考虑到统计检验和结果分析的评估方法和技术评估多项财产确定日期价值的活动。

其中，标准化、计量化与海量数据是其基本特征。

美国价值评估行业统一操作标准（USPAP）规定了批量评估方法应用的基本程序：
1）鉴定所评估财产的特征；
2）确定适于所评估财产稳定交易运转的市场区域；
3）确定此市场区域中影响价值形成的（供给和需求）特征；
4）建立体现此市场区域中财产价值与特征因素关系的评估模型（模型设定）；
5）调整评估模型从而确定影响价值的各特征因素的作用（模型校准）；
6）根据所评估财产的特征因素，应用评估模型进行推论判断；
7）检测批量评估的结果。

讨论批量评估方法的文献有很多，例如William and Marvin(1999)[20]讨论了应用协方差模型（一类随机效应模型）来检验扣押抵债状态对公寓销售价格的影响。

Rober,J.Goloudemans （2002）[19]比较了加法、乘法和非线性模型在住宅评估中的应用。

纪益成，傅传锐（2005）[22]以国外某地区30幢住宅进行税基批量评估为实例介绍了如何利用建立多元回归模型的方式实现不动产的批量评估。

纪益成，王诚军，傅传锐（2006）[23]介绍A VM（自动评估模型）技术的发展过程，技术原理，A VM在国外的财产类税基评估中的应用及借鉴。

乔志敏等（2009）[24]对2006年北京市东城区、西城区、宣武区、崇文区4个行政区461个二手房交易有效数据的多元回归分析，建立了不动产价值批量评估模型，并对25个二手房交易价格与评估价格进行了比较。

迄今为止国内批量评估方法的研究和实践尚处于探索阶段，多集中于应用以特征价格（Hedonic或Hedonic Price）模型为主的包括多元线性参数回归模型、可线性化多元参数回归模型以及多元非线性参数回归模型在内的数理统计模型来对不动产市场相对发达的大城市或较大城市进行自动批量评估。

不过Hedonic模型有其自身无法克服的缺陷，比如虽然在正态分布假设独立同分布的条
件可以弱化，但仍要求海量待估数据来自同一总体（即数据具有相似的属性），因而更合适
在交易数据量相对较大的城市应用，而不适于我国中小城市的不动产价值批量评估。

另外
Hedonic模型的不足还有模型参数性的假设对数据的前提设定太牵强，以及无法把握除商品
属性外其他因素（如货币政策等）对不动产价值评估结果的影响等等。

当然，Hedonic模型用于对房价进行估计首见于上世纪70年代的国外文献，彼时计算
机技术和统计计算能力都不发达，数理统计中只有多元参数线性回归模型的统计推断研究得
最为透彻，因此在三十多年前应用数理统计模型来分析实际问题时，考虑线性参数回归模型
是无可厚非的。

特别地，在上世纪70年代基于商品的特征属性而提出多元线性参数Hedonic
模型来估计房价应该属于创新性的研究成果。

然而时至今日，得益于计算机技术的迅猛发展以及统计计算能力的飞速提高，统计理论
与应用的研究日益繁荣，建立在多次迭代求解高维矩阵运算基础上的非参数模型、部分线性
模型、变系数模型、随机效应模型、随机波动模型等的统计推断已非让人望而兴叹的难题，
而统计模拟、数据挖掘等计算技术的发展也为解决实际问题提供了新的思路，因此在处理实
际问题时，可以选择不预先设定模型（比如Hedonic模型）而从数据本身出发找到合适的模
型。

本文是房讯通研究部在分析特征价格模型用于拟合著名的波士顿房价数据（该数据在
1978年被提出用于Hedonic模型分析的实证）时存在的问题之后，提出了一种改进模型，
即单指数模型，此模型是一类半参数模型。

另外，本文还给出了该模型的贝叶斯惩罚样条估
计，并将模型用于分析波士顿房价数据。

二、基于Hedonic模型的批量评估方法
Hedonic模型只适用于分析住宅价格。

消费者决策理论认为对于住房，汽车，劳动力等
异质商品来说，消费者的需求并不是基于商品本身，而是基于商品所内涵的特征或属性。

因
此，商品价格取决于商品各方面属性带给消费者满足感的大小。

如住房的价格可分解为住房
各个属性的价格，即消费者在结构、楼层、面积大小等方面所获得的满足感。

从这一理论出发，研究人员提出了特征价格模型（Hedonic模型），认为住宅由许多不
同的特征组成，而住宅的价格是所有特征带给人们的效用决定的。

由于各特征的数量及组合
方式不同，使得住宅的价格产生差异。

影响住宅价格的因素主要有区位特征、建筑特征和邻
里特征，其中区位特征包括位置、交通、周围环境和景观、外部配套设施等，建筑特征指建
筑本身所具有的特征，如住宅的层数、房间数、建筑面积等，邻里特征包括社会经济变量、
政府或市政公共服务设施和外在性影响，如教育配套因素、小区周边自然环境、服务设施、
购物方便等等。

因此住宅价格可以用公式表达为，其中P为价格，L为区位特征，S为建筑特征，N为邻里特征，此方程就是Hedonic特征价格模型，或简称为Hedonic模型。

从数理统计的角度来看，特征价格模型属于线性参数模型（含可线性化模型），在讨论
基于Hedonic模型的房价估计及批量评估方法的文献中，以线性模型、对数线性模型、半对
数线性模型和逆半对数线性模型四种模型最为常见：
A．线性模型：，其中参数βi对应特征变量的隐含价格，即反映特
征变量变化一个单位给不动产带来的价格变动。

线性函数中自变量和因变量均以线性形式进入模型，回归系数对应着特征的隐含价格。

B．半对数模型：，其中参数βi对应特征变量变动一个单位时候的不动产价格的变动比率。

该函数自变量采用线性形式，因变量采用对数形式，则回归系数对应的是特征变量每变动一个单位时，特征价格随之变动的增长率。

C．对数模型：，式中自变量和因变量均以对数形式进入模型，回归系数对应着特征的价格弹性。

即在其他特征不变的情况下，某特征变量每变动一个百分点，特征价格将随之变动的百分点。

D．逆半对数模型：，其中自变量采用对数形式，因变量采用线性形式，则回归系数对应着特征的边际价格。

需要说明的是，在研究经济问题的时候，由于价格是非负的，因此通常假定价格服从对数正态分布，即假设对价格取对数后服从正态分布，因而上述四类模型中笔者以为半对数模型和对数模型最优先考虑，不过当所分析样本的均值μ非常大并且均方差σ比较小，即μ-3σ远大于0时，如果数据预分析中关于因变量P的分布的检验不能拒绝P服从正态分布，那也可以考虑上面的线性模型和逆半对数模型。

另外，有的文献中讨论了基于Box-Cox变换的Hedonic模型及其在住宅价格估计中的应用，而这种较为复杂的特征价格模型也是数理统计中线性参数模型的一种。

对Hedonic模型，当数据独立同分布时可以采用普通最小二乘法来估计模型中的参数，而当数据是独立但相关时可采用加权最小二乘法来估计模型中的参数，在得到模型的估计后，需要通过一定的统计量来对模型的拟合情况进行统计诊断。

当上述步骤全部完成之后，才可以应用所得到的模型进行批量评估。

三、Hedonic模型在分析Boston Housing Price数据时的不足
批量评估需要一定的基础条件，一是详实的不动产登记材料，二是用科学的方法对不动产进行低成本的评估。

而后一条的实现通常依赖于所建立的用于估计房价的统计模型对实际数据的拟合程度。

波士顿房价数据最早见于Harrison和Rubinfeld1978[7]年发表的一篇文章，该数据收集了波士顿地区506个不同家庭住房的信息，含有住房中位数及其影响因素等14个变量，包括环境污染、犯罪率、离中心城区的距离、地理环境特征、交通便利性、住房大小、人口年龄、种族、个人经济状况、税率、教育质量、城区位置和产业分布等因素，而住房中位数表示波士顿某一片住宅区所有可获得住宅的价格中位数。

我们选了其中6个自变量，分别是“每栋住宅的平均房间数”（x1）、“城镇的人均犯罪率”（x2）、“不动产税率”(x3)、“城镇的学生－老师比率”（x4）、“与波士顿5大就业中心的有效距离”(x5)、“低教育程度的人口比率”（u）。

因变量Y为住房价格中位数（单位：千美元）。

数据的分析结果表明，x1和u这两个属性变量与因变量Y之间呈现一定的非线性关系，如图1所示。

显然自变量x1与Y之间的函数关系比较复杂，并非通过简单的对数变化就能线性化的。

另外如果将所有属性变量看作是一个随机潜变量，那么怎样描述这个随机潜变量与住宅之间的关系呢？
显然要回答上述两个问题，Hedonic模型这一简单的多元线性回归模型就不适用了，此时就需要找到新的模型来描述数据并对上述两个问题给出回答。

因此本文引入单指数模型，讨论了模型基于惩罚样条光滑方法的迭代估计和贝叶斯估计，文献[15]和[16]讨论了基于光滑参数的GCV选择准则下部分线性单指数模型的惩罚截断多项式样条估计并证明了估计的一致性，这也是目前国内对单指数模型研究的主要方法，本文可看作是对这些文献的补充。

此外文献[1]首次讨论了一元正态响应变量单指数模型的贝叶斯B-样条估计，不过该文所提出的方法在某些数据情形下无法正确估计出单指数函数()的形状,本文讨论了一种新的估计方法,在一定程度上改善了[1]中估计方法的不足。

四、对Hedonic模型的一类改进：单指数模型族及其贝叶斯分析
y=(X)+ (1)其中是有p-1个未知参数向量的p维单指数参数，()是未知的单指数函数，，X中各分量正交且至少有一个分量是连续变量。

（一）惩罚样条估计方法
惩罚样条方法在1986年才首次提出，自[17]开始惩罚B样条被广泛用于非参数光滑，
[18]基于惩罚样条的混合模型等价形式，讨论了光滑参数的REML选择准则（restricted/residual maximum likelihood，限制极大似然或残差极大似然），并从线性混合模型的惩罚（拟）极大似然推断和贝叶斯推断入手，讨论了一元指标族响应变量半参数模型的惩罚样条估计和统计推断。

[18]所提出的惩罚样条的混合模型等价形式以及光滑参数的REML选择准则的优点是，在混合模型的框架下，估计的渐进分布有显式的表达，因此可以对模型参数和非参数部分进行统计推断。

本文采用的是惩罚Radial Basis样条光滑并以REML准则选择光滑参数，应用惩罚样条方法时，依次需要确定的是惩罚样条基函数（包括样条基函数的类型、节点及惩罚的选择）和光滑参数的选择准则。

采用惩罚样条方法来估计未知非参数函数()时，由[18]知，当待估非参数曲线()不存在间断点且曲率没有异常变化时，内部节点的精确位置并不重要，因此一旦内部节点总数K确定了，可将的样本取值范围内的K + 2个百分比分位数的中间K个次序统计量取为节点，亦即K个内部节点，k = 1,…,K 就是样本取值范围内相应于概率（k + 1）/(K + 2)的样本分位数，其中k = 1,…,K。

至于边界处节点的处理，不同类型的样条基函数对应着特有的边界点附近小邻域内节点的处理方式，对Radial Basis样条基函数来说，只考虑
内部节点即可。

对3阶Radial Basis样条基函数，当取定节点为( k = 1,2,…,K )后，就得到样条基函数的
具体表达式为，定义向量，则由矩阵
就得到了未知函数()的一个估计
()=，其中
是样条系数。

有时内部节点总数K有可能远多于实际需要的
内部节点总数，因此可能出现过拟合问题，此时就需要对系数施加惩罚。

本文选择的
是惩罚，此时相应于的二次型表达式为，其中是光滑参数，D是半正定惩罚矩阵。

下文中矩阵D取作对角矩阵，其中最后K个对角线元素是1其余元素为0（[18]）。

光滑参数的选择需要在拟合曲线的偏差和拟合曲线的方差之间进行平衡，[17]建议应用AIC或广义交叉证实（GCV）准则来选择光滑参数。

此外文献中常见的光滑参数选择准则还有交叉证实或广义交叉证实，若以RMSE（Root mean squared error）
来比较不同光滑参数选择准则下拟合的优劣，则广义交叉证实和限制似然两种方法的优劣程度差别不大。

（二）单指数模型基于惩罚样条方法的迭代估计算法
步骤1：取定单指数参数的一个初始估计。

首先考虑模型（1）对应的线性回归模
型，将线性回归模型中参数的最小二乘估计记作，对其进行变换使得变换后得到的向量满足欧氏模为1且第一个非零元素为正，取此估计为模型（1）中单指数参数
的一个初始估计。

步骤2：基于可得到预测变量的初始估计，选定
节点总数为K = min(40,n/4)，这K个节点的位置就是的K个等概率分位点，对应的概率分别为2/（K + 2）,…,(K + 1)/(K + 2)。

取样条基函数为3阶Radial Basis样条基，基于取定的K个节点之上的3阶Radial Basis样条基函数记作。

设为样条基函数的系数，最大化惩罚最小二乘
就得到了参
数和的初始估计及，从而可得函数()的初始估计()。

步骤3：基于步骤2中得到的初始估计()，通过非线性回归迭代再加权最小二乘（IRWLS）算法，将
关于参数最
大化，得到参数满足限制条件和的改进估计。

步骤4：将步骤2至步骤3重复至迭代收敛，得到模型（1）参数和未知非线性函数()的估计和()（容忍值取为1e-09）。

然后计算拟合模型AIC()（计算公式为
）
步骤5：对预先取定的较大的数N（如N =100），由是单位模向量且，在
的正单位半球上随机再抽取N-1个向量作为单指数参数向量的初始估计，将步骤2至步骤4重复N-1次，得到N个初始估计下模型（1）中参数及非线性函数()的估计和AIC，记作、()和()。

对()(m =1,…,N)，求，则对应第个
初始估计的参数和单指数函数()的估计就是最终的迭代惩罚样条光滑估计，记作和()。

（三）单指数模型基于的MCMC贝叶斯分析
由前面的讨论可知，若是未知参数向量的真值，单指数模型（1）的迭代惩罚样条
估计算法就是找到一列收敛数列满足，此时基于而得
到的单指数函数()的估计近似满足。

因此可以由单指数模型（1）的迭代惩罚样条估计得到未知单指数函数()的对应的是惩罚样条光滑方法中随机系数b的
协方差矩阵的近似估计，基于此的近似估计就可以通过后验随机抽样来完成模型的统计推断，具体如下：
1．单指数参数向量的先验取为的单位半球上的均匀分布，也可仿照[1]中做法取的先验分布为Fisher-von Mises先验。

2．对单指数模型（1）来说，记误差的方差为，取定的先验为倒伽玛分布IG(A,A)分布，
A =0.01。

3．对惩罚样条光滑方法下单指数模型（1）对应的线性混合效应模型来说，函数()的惩罚样条表达式中的固定效应的先验取为非正常先验，或者方差非常大的正态分布。

4．()的惩罚样条表达式中的随机效应b，取它的先验分布为正态分布，其中是超参数，是一个正定矩阵。

5．取定的分布是倒伽玛分布IG(A,A)分布，A=0.01。

6．取定为随机样条系数b在其预测处的方差。

在Radial Basis样条光滑方法下，的估计用如下“plug-in”方法来选取：
取定，如可取为，取，
，将间相应于概率的K个样本分位数
取作节点，取基于这K个节点的Radial Basis样条基函数为
，则可作为的一个近似估计。

五、应用示例：对波士顿房价数据的分析
本文共选了其中的6个自变量，分别是“每栋住宅的平均房间数”（x1）、“城镇的人均犯罪率”（x2）、“不动产税率”（x3）、“城镇的学生-老师比率”（x4）、“与波士顿5大就业中心的有效距离”（x5）、“低教育程度的人口比率”（u）。

因变量选为住房价格中位数（单位：千美元）的自然对数。

取y=log(Y)为响应变量，取为单指数回归变量，并对向量x的各个分量进行[0,1]区间内的标准化变换。

对此变换后的数据，拟合如（2）式所示的单指数回归模型：
(2)
其中单指数函数()是未知非线性函数，单指数参数满足限制条件且。

采用前面讨论的基于的经验估计的MCMC算法，取调节参数为，按照前面讨论的参数的先验分布的选取方法，进行了50000次模拟抽样，舍去前面的10000个，在后面的40000个样本中，每隔100个取一个用于数据分析，共得到400个样本。

通过后验模拟数
据得到了、和调节参数的贝叶斯估计，并由此得到单指数函数()的贝叶斯后验估计如图
2所示。

可见，如果将所有属性变量看作是一个随机潜变量，那么这个随机潜变量与住宅价格之间的关系呈现出一种非线性的关系。

六、对基于Hedonic模型批量评估方法的进一步思考
（1）Hedonic模型是我们看待住宅价格评估问题的一种角度，但并不全面，需要综合考虑商品属性因素之外的其他重要影响因素，找到更合适的解释模型。

房地产价格水平是由很多因素共同决定的，主要包括政治因素（如房地产价格政策、税收政策、城市发展规划等）、经济因素（如宏观经济状况、物价状况、居民收入状况等）、社会因素（如社会治安状况、人口密度等）、自然因素（如楼盘所处地段的地质、地形、地势及气候等）、外部环境因素（如交通便利程度、周围配套设施等）、自身条件（如建筑标准、品牌等）等几大方面，这些因素都会在一定程度上对房地产价格产生影响。

因此，房地产估价问题需要综合考虑各种影响因素，以获得合理的价格估计值，比如宏观调控对住宅价格的影响就是一个Hedonic模型无法解释但却值得我们每一位房地产估价领域的从业人员思考的问题。

（2）对交易数据相对稀疏的情况，如中小城市的批量评估情形，Hedonic模型不再适用，而目前常用以代替特征价格模型的分区回归法也非解决问题的万能方法，因此需要根据实际问题的具体特征找到更合适的批量评估方法。

在有大量市场数据时可以采用Hedonic模型或其他统计模型来进行批量评估，但是一旦市场数据信息不完善或只有很少的数据可以使用，这时多元线性回归技术就不再适用，就需
要寻找新的替代方法来解决问题了。

国内房价较高的大城市因为不动产市场完善、交易频繁，很容易做到从数据出发应用或复杂或简单的数理统计模型或数据挖掘方法来完成批量评估，但在我国的中小城市由于不动产交易数据的相对缺乏，不满足Hedonic模型的前提假设条件，因此无法直接用其来构建评估模型。

目前在我国的中小城市应用分区回归法来替代Hedonic模型进行批量评估，具体是根据中小城市内不动产的自身特征因素，将不动产外部环境因素相同或相似的不动产划分为一个子评估区域，再根据不动产的自身特征与不动产价值的关系，通过构建回归模型的方式确定其函数关系，然后将各个不动产的特征数值代入到函数中求取评估价格。

分区回归法与前面提到的多元参数或非回归的差异实际在于抽样方法上的差异，因此将分区回归法作为独立同分布的简单随机抽样来拟合模型存在失拟的风险，所以在面对实际问题时，需要针对问题的具体特征提出相应的统计分析模型、随机模拟或数据挖掘方法来进行批量评估。

我国中小城市数量多，而且各地区发展不均衡，东西部地区差异较大，难以制定一个统一的评估方法和技术标准，也没有一个统一的计算机批量评估系统可以在所有的中小城市使用。

这就需要我们从地区的实际特点出发，根据不同地区不动产市场发展状况和不动产价值构成的要素等情况，制定不同的评估方法和技术标准，选择更合适的评估模型，进行批量评估。

参考文献
[1] Antoniadis, A., Gregoire, G. and McKeague,W. (2004). Bayesian estimation in single-index models. Statist. Sinica. 14, 1147-1164.
[2] Greenens,G. and Delecroix,M. (2005). A survey about single-index models theory. Technical Report, Uniersite catholique de Louvain, Belgium.
[3] Regression Diagnostic: Identifying Influence data and Sources of collinearity. Journal of the American Statistical Association. 80, 580-619.
[4] H¨ardle, W., Hall, P., and Ichimura, H. (1993). Optimal smoothing in single-index models. Ann. Statist. 21, 157-178.
[5] H¨ardle, W., Mammen, E. and Proenc.a, I. (2001). A bootstrap test for single index models. Statistics 35, 427-451.
[6] H¨ardle, W., Spokoiny V. and Sperlich, S. (1997). Semiparametric single index versus fixed link function modelling. Ann. Statist. 25, 212-243.
[7] Harrison, D. and Rubinfeld, D.L.(1978). Hedonic housing prices and demand for clean air. Journal of Enviornmental Economics and Management. 5,81-102.
[8] Li, K.C. (1991). Sliced inverse Regression for dimension reduction (with disscusion). J. Amer. Statist. Assoc. 86, 316-342.
[9] Lin, W. and Kulasekera, K.B. (2006) Error variance estimation and testing for the singleindex model. Technical Report. ClemsonUniversity.
[10] Naik, P.A. and Tsai, C.L. (2000). Partial least squares estimator for single-index models.
J.R. Statist. Soc. B 62, 763-771.
[11] Naik, P.A. and Tsai, C.L. (2001). Single-index model selections. Biometrika. 88, 821-832.
[12] Stute,W. and Zhu, L.X. (2005). Nonparametric checks for single-index models. Ann. Statist. 33, 1048-1083.
[13] Xia, Y. and H¨ardle , W. (2004) Semiparametric estimation of generalized partially linear single-index models. Technical Report. Humboldt university.
[14] Xia, Y., Li, W.K., Tong, H. and Zhang, D.X. (2004) A goodness-of-fit test for single-index models. Statist. Sinica. 14, 1-39.
[15] Yu, Y. and Ruppert, D. (2002) Penalized spline estimation for partially linear single index models. J. Amer. Statist. Assoc. 97, 1042-1054.
[16] Yu, Y. and Ruppert, D. (2004). Root-n consistency of penalized spline estimator for partially linear single-index models under general Euclidean space. Statist. Sinica. 14, 449-455.
[17] Eilers, P.H.C. and Marx, B.D. (1996). Flexible smoothing using B-splines and penalized likelihood. Statist. Sci. 11, 89-121.
[18] Ruppert, D., Wand, M.P. and Carroll, R.J. (2003). Semiparametric Regression. CambridgeUniversity Press.
[19] Robert, J.G. (2002).Comparison of three residential regression models: additive, multiplicative, and nonlinear. Assessment Journal, 2002,9,4, 25-38.
[20] William G. H., Marvin L. W.(1999). An introduction to the analysis of covariance model using an empirical test of foreclose status on sale price. Assessment Journal. 1999,6,1.
[21] 翁云妹(2008)，半参数变系数分位数回归模型及其两阶段估计：以波士顿房价应用为例，厦门大学.
[22] 纪益成、傅传锐(2005)，批量评估：从价税的税基评估方法，中国资产评估，2005(11).
[23] 纪益成、王诚军、傅传锐(2006)，国外AVM技术在批量评估中的应用，中国资产评估，2006(3).
[24]乔志敏、李德峰、邹文军(2009)，基于财产税征收的不动产价值评估，城市发展研究，2009(3).
————————————
作者联系方式
工作单位：深圳房讯通信息技术有限公司研究部
地址：深圳市福田区上沙创新科技园17栋310号
网址：（云估价）（房讯通）。