《台湾省新北市新店区房价数据分析》大数据与商业分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
中国科学技术
大学
大数据与商业分析
研究报告
摘要
新北市是台湾省第一大城市,全境环绕台北市,东北则三面环绕基隆市,东南邻宜兰县,西南邻桃园市,设立于2010年,全市下辖29个区,总面积2052.6平方千米,人口400万人,为台湾省首位。
新店区是台湾省新北市下辖的市辖区,位于大台北都会区的南郊,原为台湾省面积第二大的县辖市,也是原台北县面积最大的县辖市,境内大多为山区地形。
近些年来,中国国内房屋价格上涨迅速,不同省市、不同区县、区域内不同位置房价差距越来越显著。
而由于中国目前正处于城市化进程当中,人群向城市集中,有些地区出现房多人少的情况,而有些地区房屋却供不应求。
住房需求目前一直是中国人的最基本刚性需求,房价却居高不小,导致很多购房者有心无力,甚至有很多售房者利用供需不平衡关系漫天要价。
在此情况下,研究影响房价的受影响因素有其不可或缺的现实意义。
本文通过对台湾新北市的房价信息进行数据分析,发现影响房价的因素有经纬度位置、交易时间、房屋年龄、地铁站远近、便利店多寡。
最后根据分析结果,对房价变化趋势进行总结。
关键词:新北市房价大数据分析
一、选题背景和意义
1.研究内容
台湾省新北市新店区房价数据分析
2.研究意义
通过数据挖掘的方式研究台湾省新北市新店区的房价受哪些因素的影响和相应的影响程度。
3.选题动机
住房需求目前一直是中国人的最基本刚性需求,房价却居高不小,导致很多购房者有心无力,甚至有很多售房者利用供需不平衡关系漫天要价。
在此情况下,研究影响房价的受影响因素有其不可或缺的现实意义。
二、数据说明
数据样本数量:414组
数据字段说明:
X1:Transaction date 交易日期
X2:House age 房屋年龄
X3:Distance to the nearest MRT station 到最近地铁站的距离X4:Number of convenience stores 附近便利店的数量
X5:Latitude 纬度
X6:Longitude 经度
Y:House price of unit area单位面积的房价
三、具体研究过程及说明
1、聚类分析
点击Weka Explorer——Cluster——Clusterer——Choose,选择SimpleKMeans,并双击将NumClusters分别设置为3,来进行聚类分析。
Cluster #1的单位房价为25.8267,与其他两类相比,它离地铁站最远,周边的便利店最少,属于郊区。
Cluster #0的单位房价为38.789,位于中等水平,可定位于城乡结合部。
Cluster #3的单位房价为46.9812,是三类中最高的,离地铁站最近,周边便利店非常多,位于市区中。
2、线性回归
Y house price of unit area =
5.1348 * X1 transaction date +
-0.2694 * X2 house age +
-0.0044 * X3 distance to the nearest MRT station + 1.1361 * X4 number of convenience stores +
226.8816 * X5 latitude +
-15959.2626
四、学习收获与心得
数据处理:熟悉了Weka的数据格式,对数据的结构有了更深入的认识
由上述模型可得:
(1)经度longitude对房屋价格的影响微乎其微,但维度latitude影响较大,说明在新店区由西向东房价逐渐地上涨;
(2)交易时间越晚,房价越高,在12年到13年,说明了新店区的房价呈整体上涨的趋势;
(3)房屋年龄与房屋价格呈负相关的趋势,年龄越久的房子房价则越低;
(4)离地铁的距离和周边便利店的数量是对房价非常重要的影响因素之一;
所以,我们在进行房屋选择的时候,可以根据上述因素大致判断房屋价值。