基于神经网络的房价预测与分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
随着小康社会的到来,人们的经济水平和生活质量不断提高,住房、买房问题成为当今最重中之中的事情。
近年来,在物价跟房价快速增长的趋势下,当下房价的高低成为人们与政府关注的热点。
然而影响房价的因素有很多,交通是否便利、周围是否是商圈、是否为学区房等种种因素都能影响住房的价格,所以房价的预测变得尤为重要。
随机梯度下降法是在梯度下降法的基础上展开的,梯度下降法在机器学习神经网络中运用非常广泛,是一种常用的求解最优解的方法之一。
首先是给定学习率或步长,在样本函数上通过一定的学习率,不断迭代与计算,从而得到函数的梯度,函数的计算范围为该起始点与目标点的距离。
当该函数在目标距离上移动时,该函数与目标距离上的某点沿着梯度方向最陡时,也就是变化率最快时,则该点处的梯度为函数上升的最快的方
向,沿着梯度方向就能找到最大值。
我们研究的是最小房价,所以应该是沿着梯度相反的方向,最后得出最小损失函数和迭代次数等相关参数。
而我们课题中用到的是随机梯度下降法,因为用于房屋价格预测的数据集较少,样本数据不具有更大的说明性,所以采用随机梯度法。
该方法就是在抽取训练用的数据是随机选择的mini batch 数据。
随机梯度下降法一般由名为SGD 的函数来实现的。
首先通过回归分析确定影响房价因素自变量与房价本身因变量之间的关系,确定函数曲线。
通过在训练集上训练,得出模型,在测试集上测试,完成房价预测。
一、研究思路
本文提出的基于深度学习的房价预测模型训练过程如下图1所示。
首先,运用爬虫从网络上爬取链家上海的房价信息,然后对这些数据进行数
基于神经网络的房价预测与分析
汪
静1,罗维平1,2
,陈永恒2
(1.武汉纺织大学
机械工程与自动化学院,武汉
430200;2.湖北省数字化纺织装备重点
实验室,武汉
430200)
摘要:随着人们物质生活水平的提升,房价也随之不断增长,房地产行业作为社会经济的支柱产业,对社会经济有着巨大贡献。
针对房价上涨趋势问题提出了一种基于神经网络的房价预测模型。
首先,通过爬虫获取相关房屋交易信息,再采集数据进行预处理,最终将数据传入所建模型进行模型训练,得到最终房价预测模型。
实验结果表明通过预测模型可对房价进行精确预测,可为房价增减趋势做出较为科学的参考依据。
关键词:神经网络;随机梯度下降法;回归分析;数据预处理中图分类号F299
文献标识码A
文章编号:2095-6584-(2021)02-0112-004
收稿日期:2021-01-10
基金项目:国家自然科学基金项目(61271008)、湖北省数字化纺织装备重点实验室公开项目(DTL2019020)
作者简介:汪静(1996-),女,湖北襄阳人。
在读硕士研究生,研究方向:检测技术与人工智能;罗维平(1967-),女,湖北武汉人。
教授,研究
方向:现代检测技术与智能制造。
2021年4月第20卷第2期
襄阳职业技术学院学报Journal of Xiang Yang Polytechnic
Apr.,2021Vol.20No.2
112
据处理,数据处理包含五个部分:数据导入、数据形状变换、数据集划分、数据归一化处理和封装load data 函数。
数据预处理后,才能被模型调用。
数据处理完成后,进行网络结构的设计,设置相应的模型能够表达的集合,然后对模型进行训练配置,设置损失函数和优化算法,模型设置完毕在数据集上训练,得出一个房价预测模型。
通过实验表明该模型具有良好的泛化能力,能够精准地预测出房价的多少。
图1房价预测模型训练过程
(一)线性回归模型
线性回归模型的神经网络结构,如图2所示,假设房价和各影响因素之间能够用线性关系来描述,如公式1所示:
y =
j =1
M x j w j +b
(1)
图2线性回归模型的神经网络结构
模型的求解即是通过数据拟合出每个w j 和b 。
其中,
w j 和b 分别表示该线性模型的权重和偏置。
一维情况下,
w j 和b 是直线的斜率和截距。
线性回归模型使用均方误差作为损失函数(Loss ),用以衡量预测房价和真实房价的差异,如公式2所示:
MSE =1n ∑i =1
n
()
Y i -Y i 2(2)
(二)随机梯度下降法随机梯度下降法(SGD )在机器学习算法中,有时候需要对原始的模型构建损失函数,然后通过优化算法对损失函数进行优化,以便寻找到最优的参数,使得损失函数的值最小。
而在求解机器学习参数的优化算法中,使用较多的是基于梯度
下降的优化算法(Gradient Descent ,GD )。
而为了损失函数最小,通过随机梯度法来寻找最小值,
x 1表示的影响因素所对应的房价应该是z ,但实际数
据告诉我们房价是y 。
这时我们需要有某种指标来衡量预测值z 跟真实值y 之间的差距。
对于回归问题,最常采用的衡量方法是使用均方误差作为评价模型好坏的指标,具体定义如公式3所示:
Loss =()
y -z 2
(3)
上式中的Loss (简记为:L )通常也被称作损失函数,它是衡量模型好坏的指标。
在回归问题中均方误差是一种比较常见的形式,分类问题中通常会采用交叉熵作为损失函数,因为计算损失时需要把每个样本的损失都考虑到。
所以,我们需
要对单个样本的损失函数进行求和,并除以样本总数N 。
如公式4所示:
L =1
N ∑i
()y i -z i 2(4)
为了梯度计算更加简洁,引入因子1
2
,定义损
失函数如公式5所示:
L =12N ∑j =0
12x j
i *w j +b (5)
要使房价最少,就是定义的损失函数Loss 尽可能地小,也就是说找到一个参数解w 和b 使得损失函数取得极小值,其中z i 是网络对第i 个样本的预测值:
z i =∑j =0
12x j i *w j +b
(6)
梯度的定义:gradient =
(
)
∂L ∂wo ,∂L ∂w 1,…,∂L
∂b
(7)
可以计算出L 对w 和b 的偏导数:∂L ∂wj =1N ∑i =1N
()z i -y i ∂zi ∂wj =1N ∑i =1N ()z i -y i x j i (8)∂L ∂b =1N ∑i =1N ()z i -y i ∂zi ∂b
=1N ∑i =1N
()z i -y i (9)根据式子演示得出w ,b 的偏导值,最后利用程序代码得出梯度值,从而求出目标函数值。
二、数据预处理
数据集使用的是从链家公司上海某地区的房价数据。
当真实数据被收集到后,它们往往不能
汪静,罗维平,陈永恒:基于神经网络的房价预测与分析
113
直接使用,需先对数据进行数据形状变换。
例如,本次数据集使用了某地区的房价分布,为了简化模型,忽略其他自然因素对房价的影响,假设影响房价的因素只有房屋面积,因此数据集只有两列,也就是两维,分别是房屋面积与房屋价格。
以TXT 的形式储存数据可视化如表1所示。
表1房价及影响数据因素
编号1 2 3 4 5房屋面积
79
84
61
230
145
房价
540
570
405
1670
1035
在对数据进行数据形状变换后,将数据集划分成训练集和测试集,其中训练集用于确定模型的参数,测试集用于评判模型的效果。
在本案例中,我们将80%的数据用作训练集,20%用作测试集。
数据的归一化是对每个特征进行归一化处理,使得每个特征的取值缩放到0~1之间。
如果在计算迭代的过程中,因为数据的特征值的问题使模型不能在多个数据维度平面上伸缩均匀,可能导致计算的梯度不正确,模型的收敛会很慢或者不会收敛到最优解,无法得出最优解。
再者,就是获得的最优解与真实值有很大误差。
这时,必须使用数据归一化对各种维度的数据进行处理。
这样可以使模型训练更高效;其次,梯度计算的问题要进行标准化。
三、实验设计与分析
(一)模型设计与训练
为了得到准确率高和泛化能力更好、且检测速度更快的模型,需要在训练模型的过程中监控训练损失和验证损失,以及最重要的训练准确率和验证准确率。
如果发现模型的验证数据的性能开始连续下降,则可以判断为过拟合。
若在很多轮损失函数都不优化时,则模型迭代次数最佳,检测效果较好。
有的时候要训练好的模型可以在别人训练好的模型的基础上运用迁移学习,将权重参数提取出来再加上自己的全连接层,本文用到的就是该方法。
训练模型一般分为以下几个步骤:首先,将上面处理好的数据读取下来,下面最重要的就是模型的配置。
①网络搭建:对于线性回归来讲,它就是一个从输入到输出的简单的全连接层。
对于房价数据集,假设属性和房价之间的关系可以被属性间的线性组合描述。
②定义损失函数,此处使用均方差损失函数。
③定义优化函数,此处使用的是随机梯度下降(SGD)。
学习率∂为0.001,如果学习率过大则模型会出现振荡,太小则会导致收敛速度太慢,优化不够好,影响计算。
在计算完一次一次的迭代后,直到损失函数收敛,当最后一次迭代完成时,迭代前后的差值小于0.01%,则迭代完成,停止训练。
模型配置完成后就是模型的训练,设置迭代次数epoch为500轮,由于数据集大小个数为500个,数据集较少,所以,设置的BATCH_SIZE为20,定义好这些参数后,就可以开始训练模型了。
模型训练好后设置为每权重参数更新一次则保存一次模型。
本文房价预测模型训练过程损失曲线如图3所示。
700
training cost
iter
0 5 00010 00020 000
15 000
600
500
400
300
200
100
c
o
s
t
图3房价预测模型训练过程损失曲线
(二)实验结果分析
模型训练好后,为了测试模型的准确度与精度,分别在该数据集的测试集与实际情况的数据上做测试,得出的房屋的面积与房屋的价格之间的关系以及测试图与真实值得对比,如图4所示。
House Price Distributions
Predict
True
2 500
1 500
500
0100200300400500
House Area
H
o
u
s
e
P
r
i
c
e
2 000
1 000
图4真实值与测试值对比
第20卷第2期襄阳职业技术学院学报2021年第2期114
从图4可以得出房屋面积与房价之间的线性回归模型,如公式:Y=7.5X-50(10)
公式10中的X为房屋面积,Y为房屋的价格。
基本上可以呈线性关系,由图4可以看出,房屋价格的真实值基本在模型预测的这条直线上,波动趋势也比较的一致。
但是在房屋价格较大的情况下,吻合效果不够好,存在一定的差距,说明模型的拟合效果还有提高的余地。
出现这种差值的原因可能是在数据集上迭代次数不够,或者是数据集较少,模型的泛化性不够,这也是以后要加强改进的地方。
利用神经网络模型对上海市2001-2003年的房价进行预测的结果,如表2所示。
表2神经网络模型预测结果
年份2001 2002 2003实际值(元/m2)
6100
7230
8475
预测值(元/m2)
5875
6935
8090
相对误差(%)
3.69
4.10
4.50
由表2可以看出,神经网络模型对2001-2003年上海市某区的房价预测误差分别是3.69%、
4.10%、4.50%,由此可以发现,随着年份的增加,相对误差在逐渐增加。
这也表示模型的预测精度越来越低,由于单一变量预测模型的局限性。
同时,随着经济的发展,房价的影响因素越来越多,但是还是能简单地预测出房价的多少。
所以,在今后的研究中,作者会对多因素、多变量、多模型进行融合,然后在对实时房价进行预测分析,进一步提高模型的预测精度。
四、结束语
随着国民经济的不断发展,人们的物质生活水平也不断提高,买房问题也成为了重要事情。
基于这些问题,本文提出基于随机梯度下降法,通过神经网络的训练,完成了对房价的预测模型的建立。
实验表明本文模型对房价预测的结果相对误差不超过5%,可以精确地预测出房价。
但是基于神经网络的房价预测仍有许多需要改进和完善的地方,如数据集个数太小,或者模型的泛化不够,这将会是一个巨大的困难,希望以后通过学习更多的知识来改善它。
参考文献:
[1]吴晓阳,张森,陈先中,尹怡欣.高炉煤气流分布过程的多算法融合预测模型[J].控制理论与应用,2020(6):1241-1252.[2]刘智禄,王慧丽.基于GM模型和BP神经网络的西安市房价分析与预测[J].西安石油大学学报(社会科学版),2019(5):9-14.
[3]刘昊,钟润,杨蒙涛.基于多种回归模型的房价分析[J].现代营销(下旬刊),2018(12):18-18.
[4]周晓.基于优化神经网络的混合网络流量预测模型仿真与实现[D].北京:北京交通大学,2017.
[5]韩文倩.灰色预测模型在山东省保费预测中的应用[J].保险职业学院学报,2017(1):37-39.
[6]王筱欣,高攀.基于BP神经网络的重庆市房价验证与预测[J].重庆理工大学学报(社会科学),2016(9):49-53.
[7]高平,刘志坚,袁立梅.基于BP神经网络的唐山房价预测[J].河北联合大学学报(社会科学版),2015(2):48-51.
[8]杨春山.基于灰色神经网络一种预测模型的研究[J].微型电脑应用,2015(2):24-27.
[9]侯普光,乔泽群.基于小波分析和ARMA模型的房价预测研究[J].统计与决策,2014(15):20-23.
[10]高玉明,张仁津.基于遗传算法和BP神经网络的房价预测分析[J].计算机工程,2014(4):187-191.
[11]刘举.回归模型中基于机器学习的流量预测算法[J].电脑知识与技术,2012(4):801-804,810.
[12]许光建,魏义方,戴李元,赵宇.中国城市住房价格变动影响因素分析[J].经济理论与经济管理,2010(8):5-14.
[13]罗党,时亚楠.基于灰色BP神经网络组合模型的郑州市商品住宅价格预测[J].华北水利水电学院学报,2010(3):91-92,112.
[14]陈振伟,郭拯危.小波神经网络预测模型的仿真实现[J].计算机仿真,2008(6):147-150.
[15]苏变萍,王一平.基于BP神经网络的信息商品价格预测模型[J].统计与信息论坛,2007(1):93-95.
[16]施祖辉.美国的住房预测模型[J].外国经济与管理,1995(9):43-47.
(下转第140页)汪静,罗维平,陈永恒:基于神经网络的房价预测与分析
115
第20卷第2期襄阳职业技术学院学报2021年第2期
参考文献:
[1]王林博,王蕾.《老人与海》语言风格的评析[J].传播力研究,2019(31):177-177.
[2]李汀,文锶.评析《老人与海》张爱玲译本中的女性主义色彩[J].海外英语(上),2013(23):145-146,196.
[3]王建国.关联理论与翻译研究[M].北京:中国对外翻译出版公司,2009.
[4]芦文辉.基于关联翻译理论下的《老人与海》中译本的翻译对比研究[J].晋中学院学报,2018(4):103-105.
[5]吴晓金.关联理论下《老人与海》两个译本翻译风格对比研究[D].济南:山东大学,2016.
A Comparative Study of the Translation Style of“The Old Man and
the Sea”Based on Relevance Theory
Tian Pan
(Xuchang Vocational Technical College,Xuchang Henan461000China)
Abstract:There are many translations of the American novel"The Old Man and the Sea"in China.These translations have their own characteristics.In the process of long-term translation practice,modern translation circles have proposed many different translation theories,and relevance theory is one of them.The core idea of relevance theory is based on the dialectical relationship between people's communication and cognition under language symbols.Based on relevance theory,this article compares the translation styles of Ms.Zhang Ailing's and Mr.Wu Lao's English-Chinese translations,so as to find out the relationship between translation theory and practice and make contributions to the work of English-Chinese translation.
Keywords:American novel;English-Chinese translation;relevance theory;the old man and the sea
(责任编辑:漆福刚)(上接第115页)
Housing Price Forecast and Analysis Based on Neural Network
Wang Jing1,Luo Weiping1,2,Chen Yongheng2
(1.Wuhan Textile University2.Hubei Provincial Key Laboratory of Digital Textile Equipment,Wuhan Hubei
430200,China)
Abstract:With the improvement of people's material living standard,housing prices are also growing.Real estate industry,as a pillar industry of social economy,has a great contribution to social economy.In view of the rising trend of housing prices,a neural network-based housing price prediction model is proposed,first through reptiles to obtain relevant housing transaction information,and then collected data for pre-processing,and finally put the data into the model training to obtain the final housing price prediction model.The experimental results show that the prediction model can make accurate prediction of housing prices,and can provide a more scientific reference for the trend of housing price increase and decrease.
Keywords:neural network;stochastic gradient descent method;regression analysis;data preprocessing
(责任编辑:漆福刚)140。