二手数据分析 马亮 博士-副教授
基于随机森林回归模型的二手车价格评估研究

基于随机森林回归模型的二手车价格评估研究
宁苑添;朱芹;韦金明;阴鹏飞;朱虹霖
【期刊名称】《桂林航天工业学院学报》
【年(卷),期】2024(29)1
【摘要】通过特征价格理论分析和RStudio软件构建二手车交易样本,计算每个特征的重要性值,获取二手车价格评估参数;搭建二手车价格评估随机森林回归模型,利用测试样本数据对模型进行测试,获取最优模型并与重置成本法评估二手车价格进行对比,得出模型预测的价格更接近真实价格,其评估效果更优于重置成本法,满足我国二手车市场的评估需求.
【总页数】12页(P82-93)
【作者】宁苑添;朱芹;韦金明;阴鹏飞;朱虹霖
【作者单位】桂林航天工业学院汽车工程学院
【正文语种】中文
【中图分类】F426.471;TP18
【相关文献】
1.基于随机森林和XGBoost算法的二手车价格预测
2.基于层次分析法和随机森林回归算法的谷物资源风险评估模型
3.基于随机森林模型的房产价格评估
4.基于岭回归的上海地区大众品牌二手车价格预测模型
5.基于线性回归和神经网络模型的二手车交易价格预测分析
因版权原因,仅展示原文概要,查看原文内容请购买。
基于线性回归和神经网络模型的二手车交易价格预测分析

基于线性回归和神经网络模型的二手车交易价格预测分析二手车交易市场一直以来都备受关注,人们关注交易价格的预测和波动趋势。
本文将探讨基于线性回归和神经网络模型的二手车交易价格预测分析方法,以提供决策参考。
1. 研究背景二手车交易市场的波动性给卖家和买家都带来了很大的不确定性。
因此,价值预测模型的建立是市场参与者预测价格的重要工具之一。
2. 数据集介绍本研究所使用的数据集是从二手车交易平台上获取的真实交易数据,并经过处理和清洗。
数据集包含了诸如品牌、型号、车龄、里程数、燃油类型、变速器类型等多个特征,以及对应的交易价格。
3. 线性回归模型线性回归模型是一种建立特征和目标变量之间线性关系的预测模型。
通过对数据集进行线性回归分析,可以建立二手车交易价格与其特征之间的数学模型,并基于该模型进行价格预测。
4. 特征选择在建立线性回归模型之前,需要对特征进行选择。
常用的特征选择方法包括相关系数分析、方差分析、主成分分析等。
通过这些方法,可以选择出与交易价格相关性较高的特征,从而提高预测模型的准确度。
5. 模型训练与评估将数据集划分为训练集和测试集,利用训练集对线性回归模型进行训练,并使用测试集评估模型的预测效果。
评估指标可以采用均方误差(MSE)、决定系数(R-squared)等。
6. 神经网络模型神经网络模型是一种模拟人脑神经元工作原理的预测模型。
与线性回归模型相比,神经网络模型可以学习更为复杂的非线性关系,提高价格预测的准确性。
7. 网络结构设计设计合适的神经网络结构对模型的准确性起着重要作用。
常见的神经网络结构包括前馈神经网络、循环神经网络和卷积神经网络。
根据数据集的特点,选择合适的网络结构是十分必要的。
8. 训练与优化利用数据集对神经网络模型进行训练,并通过反向传播算法不断优化模型的权重和偏置,从而提高模型的预测能力。
此外,还可以采用正则化和批归一化等方法避免过拟合问题。
9. 模型比较与选择通过对线性回归模型和神经网络模型的训练和评估,比较两种模型的预测准确性。
基于聚类分析的二手房推荐研究----以北京市为例

基于聚类分析的二手房推荐研究----以北京市为例作者:毛凤华来源:《科技创业月刊》 2018年第5期摘要:为了从属性相似的房源中挑选出性价比更高的二手房,提高二手房交易市场的价格调整效率,运用聚类分析方法及爬取数据,针对北京市二手房进行研究,在各属性相似的簇中挑选出价格更低的房源推荐。
北京市的二手房主要分为5类,近城蜗居房、近城中型房、近城大型房、远城中型房和远城大型房,每个类簇中价格更低的房源认为具有更高性价比,也是在推荐时需要重点关注的项目。
关键词关键词:二手房;聚类分析;数据挖掘;属性分析中图分类号中图分类号:TP391.3文献标识码:ADOIdoi:10.3969/j.issn.16722272.2018.05.041基金项目*基金项目:作者简介作者简介:毛凤华(1997),女,华中师范大学学生,研究方向:推荐系统。
收稿日期收稿日期:201803150引言住房一直是人们长期关注的热点话题。
近年来,房价更是一涨再涨,二手房的价格也逐步攀升,尤其是"北上广深"4大城市。
但是二手房房价的高涨没有影响人们买房的热情。
二手房房价除了受到最基本的面积、地理位置与设施等影响,更受到了很多社会因素影响。
如何寻找条件合适(如老人更适合低楼层住房,家庭人数较多的需要更多的卧室等),价格合适的二手房成为人民群众关注的焦点,同时这也是二手房网站在对消费者进行推荐时亟待解决的问题。
1文献综述通过对已有研究进行梳理发现,目前与聚类相结合的推荐主要有基于用户的聚类和基于情景的聚类两个层面。
在以用户聚类为基础进行推荐的研究中,陈克寒等提出了一种基于两阶段聚类的推荐算法,实现了基于用户兴趣的主题推荐。
王晓耘等将粗糙用户聚类与协同过滤推荐相结合,离线时利用粗糙kmeans用户聚类生成用户的初始近邻集,在线时从初始近邻集中寻找最近邻进行推荐。
明小红从离线用户聚类和用户相似度计算两个方面改进了传统的协同过滤推荐算法。
媒体问计 专家解惑

媒体问计专家解惑作者:来源:《科学导报》2021年第80期山西科技报:您曾是山西农业大学的学生,在选择创业方向以及定好创业方向时该怎么做方面有没有什么经验要与学弟学妹们分享?马亮:缺少创业的充分准备是新手创业者创业成功率低的一个重大原因。
想创业千万不能盲目跟风,一定要选择自己了解且有能力做好的行业。
创业前期还需要做到未雨绸缪,并做好充足的知识储备,包括书本上没有的知识,比如亲自去工厂学习,同时需要做好人员储备以及资金的储备,在创业期需要做到考虑周全,运筹帷幄,做好团队的运作,人员的协调以及市场销售的运作,同时需要新技术的开发与创新,并将产品附加值提高,且做好经验的总结与不足积极改进。
生活晨报:作为一名高校老师,带领指导大学生进行创新创业课题多年,积累了丰富经验与心得体会。
在您看来,高校老师应如何发挥好大学生在创业创新过程中的指导与引导作用呢?武志明:创业者经常会遇到各种各样的困难,有的时候会遭遇失败和打击。
因此,也特别需要得到老师的安慰、鼓勋和支持。
老师是最值得学生信赖的人。
安慰、鼓励学生也是教师的工作内容之一。
大学生的创业梦想有时也需要老师们去点燃。
老师们可以组织各种活动,如请创业成功的校友回校给大学生们做创业报告,请企业家返校谈创业人生;请专家介绍国家的创业环境等,让学生看到目前的创业热潮中的各种机会,激励学生踊跃投身创业热潮中去。
生活晨报:您农业从业20年,与玉米结缘十余年,请您结合自身经历,在这条充满艰辛与激情的创新创业道路上,您认为农业创新人应具备哪些具体的素质与能力,创业成功的密钥是什么?张世元:首先做农业必须要有情怀,可光有情怀也不行,必须还要有市场洞察力。
我在创业的2011年遇到了困难,马上在2012年就转型,所以必须要有敏锐的市场洞察力。
同时也要坚持,一定不能半途而废,别人可以辞职,而在这方面我没有半点退路。
在刚开始创业的时候,大家不要图大图强,反而做的越多压力越大,而要整合好资源,趋利避害,先易后难。
政府2.0的扩散及其影响因素——一项跨国实证研究

作者: 马亮
作者机构: 南洋理工大学南洋公共管理研究生院,新加坡639798
出版物刊名: 公共管理学报
页码: 127-136页
年卷期: 2014年 第1期
主题词: 政府2 0 社交媒体 创新扩散 电子政务 跨国研究
摘要:本文旨在识别影响社交媒体或Web2.0技术在政府中扩散的关键因素。
利用《联合国电子政务调查报告》中各国政府采用社交媒体的数据,使用Logit模型实证分析政府2.0在全球扩散的影响因素。
研究结果显示,包括政府规模、财富状况、电子服务和电子民主等在内的政府资源与能力因素是驱动政府2.0在全球扩散的主要因素,而公众的需求与压力、政府自身的规范、国际竞争与学习等并未产生显著影响。
研究局限在于关注各国中央政府,结果可能不适于地方政府;研究基于截面数据,无法检验变量之间的因果关系。
实践价值在于,本研究发现对于理解政府2.0及其扩散具有重要启示,并有助于政府部门推动其广泛使用并发挥积极影响。
作为较早对政府2.0扩散展开的实证研究,本研究有助于理解新兴信息技术在政府部门的应用及其驱动因素,并填补了已有文献的不足。
节点风压解算通风网络的改进方法

差( 又称不平衡差 ) 全部集 中在那些按需供风分 支上 , 这给风 量调 节实施 带来一定的 困难 , 因为这 些分 支常常是 工作 场地 . 决此 为解 问题 , 出了一种新的 节点风压 法通风 网络 解算思路 . 提 该思路 通过使所有节点风量代 数和归零误差的平方和最 小化 , 建立 了节点风 压法通风 网络解算模型 , 获得 了一种新的节 点风 压法风 网解算算法. 并 解算结果表明 : 某节点的不平衡 差恰好 为 0 则该 节点相 若 , 关分支不需进行风 量调节 ; 否则 , 与该节点相关 的分 支需要进 行风量调 节来消除该不平衡差. 这样一来 , 可将最 小不平衡 误差根据 工程实 际需要 分散 到所有或部 分节点的相关分 支上 , 不是将 不平衡 差完全集 中在 少数按 需供 风分 支上 . 而 该方法理论 上考虑到 了 通 风 系统按 需供风分 支的存在 , 具有理论 完善 、 结果正确、 降低风量调节 实施的难度的特点. 1参 1. 可 图 , 1 关键词 : 通风 系统 ; 通风 网络解算 ; 节点风压法
维普资讯
l 按需 分风条件下节点 风压法 通风网 算模型 络解
11 通 用模型 及其解 法 .
转化为 如下求 误差极小 值 问题 :
mJ ̄A i= 。 n
, ( )∑ ), . )5 ∑ ∑ ( 2 ) . (
假设通风系统中的节点数为 , , 个 其编号的集合 D为 D {,, 1; =12 …, ) 分支数为 Ⅳ个 , 其分支的编号为 12 …, . ,, Ⅳ 分支的编号与节点的编号是独立的.i ) (j 表 示起始节点和终止节点编号分别为 i 『 和- 的分支 , 若该
种 新 的改进 方法 ,该方 法理论 上考 虑到 了通风 网络 中
接口技术-OPC DA服务器的设计与实现

OPC DA服务器的设计与实现马亮, 张志鸿(郑州大学信息工程学院,河南郑州 450001)摘要:本文对OPC技术做了详细的分析,在OPC DA标准的基础上,给出了一个OPC数据存取访问服务器框架的设计方案,并介绍了实现的主要步骤。
在设计中引入了适配器模式,用来针对不同数据源进行快速开发。
关键词:OPC;数据访问;COM;适配器模式中图分类号:TP273 文献标识码:BDesign and Implement of OPC Data Access ServerMA Liang , ZHANG Zhi-hong(School of Information Engineering, Zhengzhou University, Zhengzhou Henan 450001, China ) Abstract: This paper presented a detailed analysis of OPC technical, gave an OPC Data Access Server framework on the basis of OPC DA standards, and introduced the main steps of realization. In the design, we exploited the Adapter Pattern to accelerate the implement for different data sources.Key words: OLE for Process Control; Data Access; COM; Adapter pattern0 引言OPC全称OLE for Process Control,它是由OPC基金会制定的自动化领域过程控制标准。
实际上,OPC代表一系列的标准,包括OPC 数据访问(OPC Data Access),OPC报警与事件(Alarms & Events ),历史数据访问(OPC Historical Data Access),OPC XML-DA(1.0)等[3]。
南京市二手房房价影响因素的多元线性回归分析

南京市二手房房价影响因素的多元线性回归分析
刘冰;金跃强;王书营
【期刊名称】《南京工业职业技术学院学报》
【年(卷),期】2017(017)001
【摘要】通过分析南京市8个区12479个二手房数据,建立了影响单位面积房价的多元回归模型.通过比较8个变量对单位面积房价的影响,得到区域和是否有电梯对单位面积房价影响较大,面积及卧室数对单位面积房价影响较小的结论.
【总页数】3页(P17-19)
【作者】刘冰;金跃强;王书营
【作者单位】南京工业职业技术学院公共基础课部,江苏南京 210023;南京工业职业技术学院公共基础课部,江苏南京 210023;南京工业职业技术学院公共基础课部,江苏南京 210023
【正文语种】中文
【中图分类】F293.3
【相关文献】
1.基于特征价格模型的学区二手房价格影响因素分析——以南京市为例 [J], 高明媚;唐焱;张子婴
2.南宁市二手房价格影响因素分析及房价走势的预测 [J], 邝文竹;刘琳
3.南京市二手房房价影响因素的主成分回归分析 [J], 刘冰;朱建国;金跃强
4.基于Box-Cox变换的南京市二手房房价模型实证分析 [J], 刘冰;金跃强;李朝阳
5.基于Box-Cox变换的南京市二手房房价模型实证分析 [J], 刘冰;金跃强;李朝阳
因版权原因,仅展示原文概要,查看原文内容请购买。
公益性校园二手物品交易平台的构建

公益性校园二手物品交易平台的构建王酉兰,简珍霞,郭书君,马子颖,黄晓冬,代海涛(吉林农业科技学院经济管理学院,吉林吉林132000)[摘要]从大学生对二手物品的实际需求出发,并为了响应建设节约型社会,合理利用资源,提高资源的可循环利用率,搭建一个公益性校园二手物品交易平台是尤为必要的。
该平台具有二货买卖模块、二货捐赠模块、旧物回收改造模块和信息交流模块。
构建此平台既可以避免校园内闲置物品的大量堆积,又可以实现大学生的公益梦,符合我国节能减排绿色发展的政策号召,体现了当今时代可持续发展的大趋势要求。
经营者应注重提升自身的信用度、知名度,进行准确的市场定位,同时采取方便、快捷的服务策略,使广大消费者在其中得到更多有价值的体验,这样才能保证公益性校园二手交易平台的可持续发展。
[关键词]二手物品;二手物品交易平台;爱心捐赠[中图分类号]F724.6[文献标识码]A[文章编号]1009-6043(2018)06-0182-03[通讯作者]代海涛(1974-),吉林柳河人,硕士研究生,副教授,研究方向:区域经济学。
[基金项目]吉林省大学生科持创新项目:“二货天使”二手品回收项目研究中期成果(吉农院合字【2017】第075号)。
随着当今时代的快速发展,越来越多的大学生购买力不断增强,使得各类产品的更新换代速度加快,因此就造成了大学校园普遍存在着大量的闲置物品。
在倡导绿色生活的大背景下,我们构建了具有公益性的校园二手交易平台。
高效地实现了资源的循环利用,为学生传递爱心提供了信息和渠道,也有利于培养学生的低碳意识和奉献精神。
一、需求分析(一)用户需求在日常生活中,人们在生产生活的更迭中不断产生闲置物品。
而这些闲置物品最终没有得到最大价值的使用造成不同程度的资源浪费。
通过调研发现,对于闲置物品高达27%的同学表示会丢弃;28%的同学会赠与他人,还局限于彼此认识;还有14%的人会捐赠给需要的人、11%的人会选择校园二手交易平台和网络交易平台,9%的人会选择跳蚤市场。
我国房地产价格影响因素实证分析

我国房地产价格影响因素实证分析
齐千
【期刊名称】《经济研究导刊》
【年(卷),期】2011(000)014
【摘要】房地产作为我国国民经济的支柱产业,在近几年里,价格持续攀升,波动幅度较大.透过我国房地产价格的波动.深入研究其价格影响因素,对于防范房地产泡沫,稳定金融安全,维持经济持续发展有极其重要的意义.通过回归分析、协整检验、White检验和LM检验等方法进行实证研究,发现房价主要受到利率、人均收入、土地价格和房地产开发投资额因素的影响.
【总页数】3页(P76-78)
【作者】齐千
【作者单位】哈尔滨商业大学金融学院,哈尔滨,150076
【正文语种】中文
【中图分类】F293.3
【相关文献】
1.我国房地产价格影响因素的实证分析 [J], 董春游;丁立秋
2.房地产价格影响因素研究--基于我国1991-2014年时间序列实证分析 [J], 马竹;李汉
3.我国房地产价格的影响因素——基于二手房数据的实证分析 [J], 刘贝贝
4.我国城市房地产价格的影响因素研究——基于“去库存”视角的实证分析 [J],
申博;田学斌;焦红兵
5.我国房地产价格影响因素的实证分析 [J], 高艳云;王影丽
因版权原因,仅展示原文概要,查看原文内容请购买。
大数据背景下郑州市中原区二手房特征价格研究

价格模型计算异质品的价格指数,并将其运用于房地产 行业,是国内最早的相关研究。温海珍等[5]首次使用住
助中原区二手房的网络爬虫大数据,选取影响二手房价 格的特征因素,探索适用于中原区二手房的特征价格模
格的特征变量分别有 9个、7个和 6个。③ 教育配套和生活配套两个特征因素对总体样本和新房样本价格的影响较
大,而旧房样本价格对这两个特征因素的敏感度却不高;除共同影响因素外,新房样本价格的影响因素还有绿化率。
关 键 词:二手房价格;特征价格模型;网络爬虫;郑州市中原区
中图分类号:F301.3 文献标志码:A 文章编号:1003?2363(2020)01?0083?06
样本(新房和旧房)进行多元线性回归并与总体样本进行对比,分析中原区二手房整体市场和细分市场特征价格模
型及价格影响因素的差异。结果表明:① 对数形式的特征价格模型适合中原区二手房特征价格的研究。② 影响中原
区二手房整体市场和细分市场价格的特征因素在数量及影响程度上各有差异,影响总体样本、新房样本和旧房样本价
doi:10.3969/j.issn.1003?2363.2020.01.015
0 引言
随着城市化进程的加快,中国房地产业经历了由快 速发展到逐步放缓的过程,国家政策仍倾向于消化市场 存量。伴随着住房需求逐步回归居住属性,二级住宅市 场价格又恢复其优势所在,低于一级住宅市场价格且趋 于稳定。在住宅市场过热的情况下,宏观调控政策和市 场供需因素对二手房价格的影响较大,但目前住宅市场 较稳定的情况有利于从微观出发研究二手房的价格机 制。特征价格模型是研究异质性商品价格微观影响因 素的常用模型。由于住宅产品的异质性特点,学者经常 采用特征价格模型估计住宅特征的隐含价格,揭示购房 者的消费偏好,分析城市住宅市场特征[1]。特征价格模 型起源于国外,K.J.Lancaster[2]与 S.Rosen[3]先后将特 征价格模型 引 入 到 房 地 产 行 业。 蒋 一 军 等[4]使 用 特 征
欧盟《减排分担条例》NDCs背景下气候目标主义立法规制

2021年4月第39卷第2期Apr.2021Vol.39No.2太原理工大学学报(社会科学版)Journal of Taiyuan University of Technology(Social Science Edition)欧盟《减排分担条例》:NDCs背景下气候目标主义立法规制马亮(武汉大学环境法研究所,湖北武汉430072)摘要:在“国家自主贡献”背景下,欧盟于2018年率先制定了《减排分担条例》,在碳排放交易体系(EU ETS)以外制定了“量化+时限”的气候目标主义规制路径。
新立法为欧盟安排了2021—2030年在非ETS领域的减排制度框架,有新的演进和亮点,同时也存在不完美之处。
“人类命运共同体”的概念在气候法治中被寄予厚望,中国碳排放市场以外的减排也需要法律规制。
新时代生态文明法治建设背景下,探析欧盟减排分担立法对我国气候治理立法有一定参鉴意义。
关键词:欧盟;国家自主贡献;减排责任分担;气候目标主义;人类命运共同体中图分类号:D922.6文献标识码:A文章编号:1009-5837(2021)02-0031-08引文格式:马亮.欧盟《减排分担条例》:NDCs背景下气候目标主义立法规制[J].太原理工大学学报(社会科学版),2021,39(2):31-38.一、欧盟新减排分担立法的背景和意图(-)《减排分担条例》的立法背景2014年10月,欧洲理事会制定了《2030气候与能源政策框架》(以下简称《2030框架》)①,其涵盖的核心议题包括温室气体减排目标,即到2030年欧盟内部温室气体排放量较1990年至少降低40%,其中排放交易体系(ETS)的减排目标是43%,碳排放交易体系之外(以下简称非ETS领域)的减排目标是30%。
欧洲理事会正式的官方决议表明该减排目标在欧洲达成了高度的政治共识。
气候政策被视为欧盟能够在少数几个政策领域形成一致立场、发出统一声音的政策领域之一⑴。
在全球应对气候变化的努力中,欧盟始终率先垂范。
土木工程专业本科教育评估专家现场视察工作方案

目录一、土木工程专业教育评估工作方案 (1)1. 土木工程专业本科教育评估视察小组成员名单 (1)2. 土木工程专业评估工作组织机构及联系方式一览表 (2)3. 土木工程专业评估期间职能部门联系方式一览表 (3)4. 土木工程专业评估期间土木建筑学院联系方式一览表 (4)5. 土木工程专业评估视察专家组工作日程建议安排 (5)6. 重庆交通大学土木工程专业本科教育评估专业汇报会议程 (6)7. 土木工程专业本科教育评估视察意见反馈会议程 (6)8. 土木工程专业评估专家集体考察路线安排 (7)9. 土木工程专业评估专项工作方案 (8)二、2010年高等学校土木工程专业教育评估委员会全体会议工作方案 (14)1. 参会人员 (14)2. 接站及报到安排 (15)3. 会议安排 (15)4. 就餐安排 (15)5. 参观活动 (16)6. 用车安排 (16)7. 送站安排 (16)一、土木工程专业教育评估工作方案1. 土木工程专业本科教育评估视察小组成员名单姓 名工作单位职务职称联系电话电子邮箱学院联系人及电话沙爱民(组长)长安大学副校长教授137****3223****************吴国雄(教授、博士)138****7314战高峰吉林省教育厅副厅长教授139****2964*******************梅迎军(副教授、博士)136****3577王玉岭中国建筑第八工程局(上海)副总工教授级高工139****1218*************彭 凯(副教授、博士)139****2360张永兴重庆大学土木工程学院院长教授136****0238*****************张学富(教授、博士)136****8776朱兆晴(外聘专家)安徽省建筑设计研究院副院长、总工教授级高工133****2598*************李成华(副教授、博士)139****25792. 土木工程专业评估工作组织机构及联系方式一览表组织机构姓 名职 务办公电话手机号码组 长梁乃兴副校长62652732138****3277副组长何兆益教育教学评估中心主任62652378138****3475副组长毛明勇教务处处长62652438134****0266副组长张 俊党政办公室主任62652382138****0035向中富土木建筑学院院长62652317139****9622韩 西实验教学及设备管理处处长62652264134****5996任海涛宣传统战部部长62652724136****6960甘 超人事处处长62652744138****4288杨志刚图书馆馆长62652308139****9056蒋忠全后勤总公司总经理62652798136****1691屠书荣学生工作部部长62652797138****7136杨 林教育教学评估中心副主任62652652137****5327专业评估认证工作领导小组成 员白 榕党政办公室副主任62652731139****6709组 长何兆益教育教学评估中心主任62652378138****3475毛明勇教务处处长62652438134****0266综合组成 员向中富土木建筑学院院长62652317139****9622组 长张 俊党政办公室主任62652382138****0035宋小清人事处副处长62652324136****1968白 榕党政办公室副主任62652731139****6709罗宇东党政办行政科科长62652399139****8113李 莉教务处办公室62652437132****0848陈 静教育教学评估中心办公室62652931138****4061冯瑞胜土木建筑学院办公室副主任62652316136****6232接待组成 员李 丽土木建筑学院6265231860608353组 长杨 林教育教学评估中心副主任62652652137****5327赵明阶教务处副处长62652557133****3378材料组成 员梁 波土木建筑学院副院长62652381139****1961组 长蒋忠全后勤总公司总经理62652798136****1691李金莎后勤总公司副总经理62652115139****7911后勤组成 员黄永贵后勤总公司运输接待中心主任62652779139****2121组 长任海涛宣传统战部部长62652724136****6960吴 莉宣传统战部部长助理62652723136****1023林兴冬宣传统战部宣传科科长62652725159****8191徐 洁宣传统战部62652723189****5010罗伟华宣传统战部62652725139****7338宣传报道组成 员毛八中宣传统战部6265272560672188组 长屠书荣学生工作部部长62652797138****7136学生工作组成 员郑廷友土木建筑学院党总支副书记62652980135****41673. 土木工程专业评估期间职能部门联系方式一览表负责人联系人单位姓名办公电话手机姓名办公电话手机教育教学评估中心何兆益62652378138****3475陈静62652931138****4061教务处毛明勇62652438134****0266饶建英62652437130****0799实验教学及设备管理处韩西62652264134****5996魏伟62652921134****0024党政办公室张俊62652382138****0035罗宇东62652399139****8113组织部白凯62652710137****8201包正友6265271166661125发展规划处程昌华62652385130****6025赵丽杰6278901866766527宣传统战部任海涛62652724136****6960代云6265238466166270人事处甘超62652744138****4288朱光玉62652741131****3563图书馆杨志刚62652308139****9056朱光磊62789094138****6611学生工作部屠书荣62652797138****7136吴凌62652759138****0550招生就业处吴成国62652079136****9786徐蓉62652361134****6198财务处张维全62652455139****2333罗珣62789168150****8990国有资产管理处江平62652354139****8729龚孙荣62652462189****5009科技处周志祥62652922139****0432李奎62652451136****9511研究生部王平义62652827139****9302赵茜62650399135****8993校团委刘一华62652448139****5569黄梁62652448134****8548教育技术中心李权益62652407136****0697刘军62652408138****2046网络中心赵毅62652366138****38354. 土木工程专业评估期间土木建筑学院联系方式一览表学院领导、系主任及实验室主任联系方式姓名职务办公电话手机备注向中富院长62652317139****9622全面及汇报准备魏克俭总支书记62652391138****5665学院环境及资料室凌天清副院长62652702139****7370机房及实验室吴国雄副院长62652320138****7314陈列室及科研资料郑廷友副书记62652980135****4167学生口及相关资料梁波副院长62652381139****1961教学口及评估材料冯瑞胜院办公室主任62652316136****6232网页及综合周水兴系主任137****5912土木专业桥梁方向高建平系主任136****1962土木专业道路方向王成系主任135****2318土木专业隧道方向陈思甜系主任138****5504土木专业结构方向巫祖烈副主任6265236966303659结构实验室施尚伟副主任62652851136****6330结构实验室朱洪洲副主任62652704138****1116道路实验室马亮副主任62652704134****9667道路实验室马骏主任62652321136****8855力学实验室黄维蓉主任62652706130****0928建材实验室邓明镜主任68092936135****1543测绘实验室评估材料组成员联系方式姓名职务办公电话手机备注冯瑞胜院办公室主任62652316136****6232教师名册、规章制度及综合蒋彦涛博士139****4097试卷及教学成果黄明奎博士139****2307实践教学环节资料张宝玉博士150****0860实验教学环节资料谭红梅博士136****1868教案及周历刘元一秘书6265270066625356吴剑秘书62652700136****3353实践教学环节资料、方案、计划及教材苏絮香秘书62789023136****0356试卷、大纲及周历张淑珍秘书626527001368048769周历周源秘书62652701159****6909科研资料汇总谭涛辅导员62652318136****9129学生资料汇总李丽辅导员6265231860608353学生资料汇总5. 土木工程专业评估视察专家组工作日程建议安排时间工作内容地点主持人参加人员全天专家来校、入住拉斐皇庭酒店张俊校领导及有关工作人员5月11日(星期二)20:00-21:30视察小组预备会拉斐皇庭酒店专家工作室(4楼凯旋厅)视察小组组长视察小组全体成员8:00-8:15视察小组拜见校领导明德楼206接待室视察小组组长刘伦书记、唐伯明校长,视察小组全体成员8:20-9:15学校本科教学情况汇报唐伯明校长9:20-9:50土木工程专业建设汇报明德楼408会议室视察小组组长视察小组全体成员、政府职能部门领导、校领导刘伦、梁乃兴,校专业评估认证工作领导小组成员,各学院领导、专业教师代9:50-10:00集体合影图书馆大门任海涛视察小组全体成员、政府职能部门领导、校领导、学院及相关部门负责人等10:00-12:00集体考察图书馆,语言实验中心,学院陈列室,结构工程实验室,水力学实验室,学院图书资料室、专业机房1,道路实验室,力学、专业机房2、测量、物理、化学、岩土、材料实验室梁乃兴副校长视察小组全体成员、相关部门负责人5月12日(星期三)15:00-17:40听课、查阅教学资料等教室土木建筑学院会议室视察小组组长视察小组全体成员8:00-11:40听课、查阅教学资料等教室土木建筑学院会议室视察小组组长视察小组全体成员14:30-15:00观摩“桥模大赛”学生活动中心联系人带领专家观摩专业教师座谈会明德楼310会议室视察小组组长视察小组部分成员,教师代表(20人左右)15:10-16:10学生座谈会明德楼308会议室视察小组组长视察小组部分成员,学生代表(一二三年级各8人)基础课教师座谈会明德楼310会议室视察小组组长视察小组部分成员,教师代表(20人左右)5月13日(星期四)16:20-17:20毕业班学生座谈会明德楼308会议室视察小组组长视察小组部分成员、毕业班学生代表(20人左右)8:00-10:00专业教师参与工程实践及校友情况考察朝天门大桥、绕城高速等视察小组组长视察小组全体成员、梁副校长、学院领导10:00-12:00视察小组会议,讨论考察意见拉斐皇庭酒店专家工作室(4楼凯旋厅)视察小组组长视察小组全体成员15:00-15:30视察小组与校领导交换意见明德楼206接待室视察小组组长视察小组全体成员,校领导刘伦、唐伯明、梁乃兴5月14日(星期五)15:40-16:40视察小组意见反馈会明德楼208会议室视察小组组长视察小组全体成员、校领导刘伦、唐伯明、梁乃兴,校专业评估认证工作领导小组成员,土木建筑学院负责人、专业教师代表等6. 重庆交通大学土木工程专业本科教育评估专业汇报会议程会议时间:2010年5月12日(星期三) 8:20~9:50会议地点:明德楼408会议室参加人员:土木工程专业本科教育评估视察小组专家;市教委、市城乡建委、市教育评估院领导;校领导刘伦、唐伯明、梁乃兴,校专业评估认证工作领导小组全体成员,各学院院长、教学副院长,土木建筑学院教学管理人员及专业教师代表等第一阶段:会议时间:2010年5月12日(星期三) 8:20~9:20会议主持:重庆交通大学校长唐伯明教授会议议程:一、介绍视察小组专家和参会领导二、重庆交通大学党委书记刘伦教授致辞三、重庆市教育委员会领导讲话四、重庆市城乡建设委员会领导讲话五、重庆交通大学副校长梁乃兴教授汇报学校本科教学情况六、视察小组组长沙爱民教授讲话第二阶段:会议时间:2010年5月12日(星期三)9:20~9:50会议主持:视察小组组长沙爱民教授会议议程:专业负责人向中富教授作专业建设情况汇报7. 土木工程专业本科教育评估视察意见反馈会议程会议时间:2010年5月14日(星期五) 14∶30~15∶30会议地点:明德楼208会议室参加人员:土木工程专业本科教育评估视察小组专家;校领导刘伦、唐伯明、梁乃兴,校专业评估认证工作领导小组全体成员,土木建筑学院负责人及专业教师代表等会议主持:重庆交通大学副校长梁乃兴教授会议议程:一、视察小组专家反馈个人意见二、视察小组组长沙爱民教授反馈小组意见三、专业负责人向中富教授发言四、重庆交通大学校长唐伯明教授表态8. 土木工程专业评估专家集体考察路线安排序号考察地点负责人负责人电话介绍人备注1图书馆杨志刚66625269杨志刚等考察约8分钟,图书馆楼前集体合影后考察2语言实验中心黄健平134****6869吴树旗考察约5分钟,由图书馆集体乘考斯特到语音大楼(6楼)3学院陈列室吴国雄138****7314周源考察约10分钟,由语音大楼集体乘考斯特到土木建筑学院实验大楼(4楼)4结构工程实验室凌天清139****7370巫祖烈考察约8分钟,由土木建筑学院实验大楼大门步行至结构工程实验室5水力学实验室周华君135****0071张大庆考察约5分钟,由结构工程实验室步行前往学院图书资料室魏克俭138****5665苏絮香6专业机房1凌天清139****7370赵宁雨考察约10分钟,由水力学实验室步行至土木建筑学院办公楼(4楼资料室、2楼专业机房1)7道路实验室凌天清139****7370朱洪洲考察约8分钟,土木建筑学院办公楼1楼、学院实验大楼1楼8力学实验室凌天清139****7370马俊考察约8分钟,由土木建筑学院实验大楼步行前往基础实验大楼1楼右侧测量与空间信息处理实验室9专业机房2凌天清139****7370刘国栋考察约5分钟,基础实验大楼2楼右侧10物理实验室汪达成135****1917史琳娜考察约10分钟,基础实验大楼3~5楼右侧11岩土与地质工程实验室周华君135****0071唐红梅考察约10分钟,经3楼过道至左侧(4楼地质、6楼土工)12化学实验室汪达成135****1917汤琪考察约5分钟,5楼左侧13建筑材料实验室凌天清139****7370黄维蓉考察约8分钟,5楼乘电梯下2楼、1楼注:考察时间100分钟,路途20分钟。
宋初名臣马亮的仕宦与婚姻观

会, 于太平兴国 五年举进士乙 释褐授大理评事、 科, 知芜湖
马亮自 小所读圣贤之书使他怀抱着建立理想政治社会
收稿 日期 :2o .l2 o 90 -2
基金项 目:湖南省社科基金项 目“ 进士与北宋文化建设研究” 0 Ⅵ≥ 2 2 (8 B 7 ) 作者简介 :徐 红(9 7)女 , 1 6. , 湖南永州人 , 湖南科技大学人文学院副教授 , 历史学博士 。
宋初名 臣马亮 的仕宦 与婚姻 观
徐 红
( 南科技 大学 人文学院 ,湖南 湘潭 吏能与经术之 学相 结合 的为政风格 , 使他成 为宋初地方官 的杰出代表 。 马亮长期在地 方任职 , 善
于处理政事、 清理狱讼, 并采取措施惠政于民, 变革陋习, 维护地方社会的安定.而仕途上的稳步升迁也使马亮的婚姻观既
有 一般 官僚家庭重官 宦、 崇进 士的特征, 亦有 讲求仁 义的独特性 。
关 键 词 :马 亮 ; 宦 : 姻 观 仕 婚
中图分类 号 :K 0 . 2 66
文献标识码 :A
文章编号 :1o .5 9 2 o )3o 2 .4 o02 2 ( 0 9 O . l4o
马 99 01, 亮( . 3) 51 是北宋初期的 一位名臣, 仕于太宗、 县( 曾 今安徽芜湖) 】 , 【( 由此彻底改变了 嘲 他个人的 命运。 不 真宗、 仁宗三朝, 长期担任地方官员, 纵横仕途达 4 余年之 久迁殿中 通判毗陵郡, O 丞、 即常州( 今江苏常州) 宋初的通 。 久。纵观马亮的一生, 其为官之时既知晓钱 谷刑狱之事, 判是为加强中央集权而 其职责主 有 设, 要是监察州郡、 止地 防 突出的吏干之才, 亦颇敢于直言直行, 兴利除弊, 以仁治民, 方割据局面的 形成, 因此在地方官中可谓位高权重, 一般皆 表现出极大的政治热情和强烈的主体精神 , 是宋初地方官 由君主从中央派出朝臣要员充任。马亮进士登第不数年即 的杰出代表。 于他的 由 吏能与经术之学相结合的为政风格, 任此职, 可见受君主 信任之深。 后更由 于治绩显著, 太宗“ 面 其仕宦生涯一直比 较顺达, 而仕途上的 逐步升迁又影响到 赐五品服, 命知濮州( 今山东鄄城) ・嘣) 其后历知 ”1 。 [( 潭州 了他的 婚姻取向, 在姻亲对象的选择上具有宋初一般官僚 ( 今湖南长沙) 、 升州( 今江苏南京)江州( 、 今江西九江)广 、 家庭重官宦、 崇进士的 共性, 同时也表现出 讲求仁义、 看重 州( 今广东广州) 等地, 足迹遍布长江南北, 以敏于政事、 关
金融支持、政府与企业投入的科技创新效率研究

波动在 缩小。从地 区看 ,政府科技投入效 率和 企业科技 投入 效率 东部 比中西部优 势明显 ,西部地 区金 融机 构贷 款效 率 已经赶 上 了中东部地 区,西部地 区的政 府投 入效率和企业投入效 率也超过 了中部 地区。 关键词 :金 融支持 ;政 府科技投入 ;企业科技投入 ;效率 中 图 分 类 号 :F 2 :F 2 23 24 文 献标 识 码 :A 文 章 编 号 :10 7 9 (0 2 1 0 1 0 0 0— 65 2 1 ) 3— 0 5— 5
cin y o n nca n t u in e dig i se e in h sca g tup wih t a a tr n e rlrgin ls e c ff a ili si to sl n n n we t r r go a u h t h to e se n a d c nta e o s;a o,te e- i t n f h f fcin y o o e me ti e t e ta d e e rs s iv sm e n we trgin e c e s te c nta e in. i e c fg v r n n nv sm n n ntr i e n e t nti s e o x e d h e r lrgo p Ke wor s: fna ca up o t g v r y d i n ils p r ; o enme t i v sme t n c e e n tc n l g ; e t r rs iv sme n s e c a d n n e t n i s inc a d e h o o y n e i e n e t nti cin e n p tc noo y; e ce c e h lg i f in y
基于位置子市场划分的房价贝叶斯概率模型秦心静,_

第40卷第5期Vol.40㊀No.5重庆工商大学学报(自然科学版)J Chongqing Technol &Business Univ(Nat Sci Ed)2023年10月Oct.2023基于位置子市场划分的房价贝叶斯概率模型秦心静,章㊀平,张新杨安徽工程大学计算机与信息学院,安徽芜湖241000摘㊀要:针对特征价格模型(HPM )在面对房价与特征复杂关系时容易出现预测精度和可解释性不足的情况,提出一种基于子市场效应的贝叶斯概率模型㊂在改进算法设计时,首先借鉴子市场聚类思想,引入一个潜在变量表示子市场,依据位置邻近性和可替代性建立子市场标准;其次,将子市场标准和特征价格模型作为贝叶斯网络的概率依赖确定各子市场效应的范围,完成子市场划分;最后,依据房屋所属子市场的概率预测房价,且分析子市场的关键影响因素,以提升预测精度和可解释性㊂将模型与5个现有模型从平均绝对百分比误差㊁平均绝对误差和均方根误差3个方面对比;根据杭州市2019年之前的房产数据,分别测试非子市场模型与子市场模型的算法性能㊂实验表明:该贝叶斯模型对房地产价格预测精度优于对比模型,且具有可解释性的优点㊂关键词:房价评估;HPM 模型;概率模型;位置特征;子市场中图分类号:TP391㊀㊀文献标识码:A ㊀㊀doi:10.16055/j.issn.1672-058X.2023.0005.011㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀收稿日期:2022-09-20㊀修回日期:2022-10-26㊀文章编号:1672-058X(2023)05-0081-08基金项目:安徽省自然科学基金项目(2108085QF264,2108085QF268);安徽工程大学校级科研项目(XJKY2022154).作者简介:秦心静(1997 ),女,安徽宣城人,硕士研究生,从事房产评估研究.通讯作者:章平(1982 ),男,安徽芜湖人,博士,副教授,硕士生导师,从事无线定位㊁城市计算㊁物联网研究.Email:pingzhang@.引用格式:秦心静,章平,张新杨.基于位置子市场划分的房价贝叶斯概率模型[J].重庆工商大学学报(自然科学版),2023,40(5):81 88.QIN Xinjing ZHANG Ping ZHANG Xinyang.Bayesian probability model for real estate price based on location submarketsegmentation J .Journal of Chongqing Technology and Business University Natural Science Edition 2023 40 5 81 88.Bayesian Probability Model for Real Estate Price Based on Location Submarket Segmentation QIN Xinjing ZHANG Ping ZHANG XinyangSchool of Computer and Information Anhui Polytechnic University Anhui Wuhu 241000 ChinaAbstract A Bayesian probability model based on sub-market effects was proposed to address the situation that the hedonic price model HPM is prone to insufficient prediction accuracy and interpretability in the face of the complex relationship between house prices and characteristics.In improving the algorithm design the idea of sub-market clustering was borrowed a latent variable was introduced to represent sub-markets and sub-market criteria were established based on location proximity and substitutability.Next sub-market criteria and hedonic price models were used as probabilistic dependencies of Bayesian networks to determine the range of effects in each sub-market completing the sub-market segmentation.Finally house prices were predicted based on the probabilities of the submarkets to which the houses belonged and the key influencing factors of the submarkets were analyzed to improve the prediction accuracy and interpretability.The model was compared with five existing models in terms of mean absolute percentage error mean absolute error and root mean square error.The performance of the algorithms of the non-submarket model and the submarket model were tested separately based on property data of Hangzhou City before 2019.The experiments show that the Bayesian model outperforms the comparison models in terms of accuracy in forecasting real estate prices and has the advantage of interpretability.Keywords house price assessment Hedonic Price Model HPM probability model location characteristics submarket重庆工商大学学报(自然科学版)第40卷1㊀引㊀言现代社会,房地产已经成为人民生活和国家经济最重要的话题之一㊂合理评估房屋特征对房地产价格的影响,对城市规划和社会生活具有重要意义:为住房购买者提供市场价格信息㊁房市趋势信息,协助其进行购房选择[1];为房地产投资者提供市场划分信息㊁房价影响因素权重,协助其进行投资决策[2];为城市规划者提供住房周边资源变化所能产生的价值信息,量化不同城市规划决策带来的影响[3]㊂特征价格模型(Hedonic Price Model,HPM)[4]是一种评估房屋特征对房地产价格影响的方法㊂该模型将房屋的各种特征属性作为自变量,房地产价格作为因变量,建立回归方程,量化各属性对房价的影响㊂但是,由于房屋特征与房价关系复杂,现有的回归方程在房价预测精度和可解释性方面仍有不足㊂为了提高房价预测精度,很多学者都进行了深入研究㊂文献[5,6]采用机器学习与HPM相结合的方法来降低评估误差;文献[7,8]通过改变数据特征来提升精度㊂在结合使用机器学习方面,Yan等[5]在评估中使用遗传算法来优化神经网络模型,通过遗传神经网络选择最合适的权重和阈值,有效降低了评估误差;文献[6]发现很少有应用程序侧重于提高房价预测能力,他们通过对比基于决策树的不同集成方法(如Bagging㊁Boosting㊁随机森林等),为整个西班牙市场开发了一个应用程序,实现完全自动为每个城市提供最佳预测模型㊂在改变数据特征方面,Chanasit等[7]在改进的Garson算法中结合升压策略和输入灵敏度分析来进行特征选择,通过ANN模型迭代调整选择的标准,保证每个信息特征的灵敏度系数;Xu等[8]利用信息增益比方法对特征进行加权㊁排序,在有限混合模型的基础上建立回归模型㊂但在提高房价预测精度时,部分评估方法往往会存在一些可解释性方面的不足㊂针对这个情况,Wu 等[9]通过探讨空间连续性对住房子市场分类的作用,提出一种基于主成分分析和聚类分析的数据驱动模型,利用房屋地理位置,细分整个空间的子市场;在此基础上,Liu等[10]基于建筑环境和房屋基础特征对整个子市场建模,利用子市场效应提升房价预测精度,并提出概率层次聚类方法推断市场层次结构㊂虽然已有研究对预测精度和可解释性进行提升,但在特征选择和预测结果分析方面仍有改进空间㊂对此,基于子市场效应的研究,本文采用贝叶斯概率框架,根据房屋位置划分子市场,建立各子市场内的房地产特征价格模型,最终利用贝叶斯估计提升房价预测精度㊂主要贡献如下:(1)引入表示子市场划分的潜在变量,依据空间邻近性和可替代性迭代优化子市场划分结果,获得空间任一位置属于不同子市场的概率分布㊂(2)分析子市场内部影响房价因素排名,对比了不同子市场房价形成机制差异性,提高模型可解释性㊂(3)对比子市场的划分结果和地理行政区划的关系,证实地理行政区划对房价形成机制的重大影响㊂2㊀房价影响因素房地产价格主要取决于自身地理特征㊁附近房产价格及潜在商业区价值[11]㊂国内外学者从房屋基础特征[12]㊁环境特征[13]㊁区位特征[14]㊁社会经济因素[15]等方面研究房地产价格的影响因素㊂本文主要从房屋基础特征和环境特征来构造房屋特征,如表1所示㊂表1㊀房屋特征Table1㊀Attributes of House类型㊀㊀㊀㊀特征房屋位置经纬度坐标基础特征面积㊁楼层㊁装修类型㊁朝向㊁年份㊁客厅数量㊁卧室数量㊁浴室数量周边建筑类型1km内20个类别的POI数量学校1.5km内公立普通中小学数量1.5km内公立重点中小学数量1.5km内私立普通中小学数量1.5km内私立重点中小学数量交通设施1km内地铁站数量0.5km内公交车站数量0.5km内停车场数量房屋基础特征主要研究房屋自身建筑属性对房屋价格的影响㊂本文选用的房屋基础特征包括面积㊁楼层㊁年份㊁装修类型㊁房屋朝向㊁客厅数量㊁卧室数量㊁浴室数量共8种㊂环境特征反映房屋与学校㊁医院㊁商场等周边设施的距离对房价的影响,其中,学区房是近年来较为突出的影响因素,为了孩子能接受更好的教育,越来越多的家庭对周边优质学区房产生极高的需求㊂28第5期秦心静,等:基于位置子市场划分的房价贝叶斯概率模型除此之外,人们对公共交通出行需求的增加,使得周边交通设施对房价也有一定影响㊂本文选用周边建筑类型㊁学校和附近交通设施等特征刻画环境特征㊂通过建立特征索引树,计算房屋经纬度坐标与周边建筑经纬度坐标的差值是否小于阈值,以此量化环境特征㊂所选用的周边建筑类型包括商务办公职能㊁零售服务职能㊁餐饮服务职能㊁教育科研职能㊁医疗卫生职能等20种POI 类型;学校分为公立㊁私立㊁重点㊁普通4种;交通设施包括地铁站㊁公交站㊁停车场㊂将房屋特征记作R =r 1,r 2, ,r N []ɪR35ˑN,r n ɪR35代表第n 套房屋的基础特征与环境特征,N 为总房屋数量㊂房屋位置由经纬度坐标表示,记作P =p 1,p 2, ,p N []ɪR2ˑN,其中p n ɪR 2代表第n 套房屋的经纬度位置,房屋观测价格记作Y =y 1,y 2, ,y N []T ɪR N ㊂为了对子市场效应建模,引入潜在变量s n ɪ1,2, ,K }{指示第n 套房屋所属子市场,即s n =k 代表第n 套房屋属于第k 个子市场,K 为子市场总个数㊂为方便表示,记S =s 1,s 2, ,s N []T ɪZ N 表示所有房屋的子市场归属㊂本文所使用的符号定义如表2所示㊂表2㊀符号定义Table 2㊀Notations definition符㊀号维㊀数描㊀述R 35ˑN 房屋特征Y N 房屋价格P 2ˑN 房屋位置S N 所属子市场K1子市场数量3㊀贝叶斯概率模型如图1所示,通过房地产交易网站获取房屋特征及位置,包括面积㊁楼层㊁装修类型㊁朝向等基础特征,基于房屋位置利用高德地图兴趣点(Point of Interest,POI)数据获取周边建筑类型㊁学校和交通设施等环境特征㊂利用房屋位置与房屋特征构建基于子市场划分的贝叶斯概率模型,最终实现房地产价格预测和子市场内部影响房价因素的分析㊂数据房屋位置基础特征周边建筑类型学校交通设施特征构建房屋特征基础特征环境特征房屋位置应用预测价格子市场分析依据:子市场划分H P M 构建所属子市场房屋特征房屋位置房屋价格Snr n P ny n 图1㊀价格预测与子市场分析流程Fig.1㊀Price forecast and submarket analysis process3.1㊀模型假设本模型提出的贝叶斯网络中,房屋特征㊁房屋位置以及房屋价格是可观测的,而房屋价格与房屋特征和位置的关系都依赖于子市场㊂模型流程如图2所示㊂所属子市场房屋特征房屋位置房屋价格S nP n r ny n图2㊀概率模型关系示意图Fig.2㊀Diagram of probability model relationship把房屋所属子市场看作随机变量,为了表示房屋属于每个子市场的先验概率,所属子市场s n 服从参数为a 的多点分布概率向量,a ɪR k 刻画了属于不同子市场房产数量的先验比例㊂房屋位置与子市场的关系用高斯分布来表示,参数μs n 代表子市场的位置中心点,参数ðs n 刻画范围大小㊂房屋价格由所属子市场和房屋特征共同确定,函数f s n r n ()则是子市场内部的特征价格模型,σ2s n 表示预测价格的浮动范围㊂38重庆工商大学学报(自然科学版)第40卷对第n 套住房,n ɪ1,2, ,N }{,如式(1)所示:s n ~Categorical a ()p n ~N p |μs n ,ðsn()y n ~N y |f s n r n (),σ2s n ()(1)此模型中,房屋位置划分子市场的标准主要基于异质性的相关标准,基于贝叶斯网络结构,子市场位置和范围由空间邻近性[16]和可替代性决定㊂空间邻近性表示子市场和房屋位置之间的依赖关系,要求同一子市场内的房屋位置临近,假设每个子市场都存在一个中心点,则高斯分布的特点让属于同一子市场的房屋围绕该中心点分布㊂可替代性指相同子市场中房屋特征转售机制的相似性,使用HPM 回归价格与观测价格之间的方差量化可替代性㊂总体来讲,房屋价格由房屋特征和所属子市场决定,如图2所示㊂各子市场都有唯一的HPM 与其对应,本文所采用的HPM 是梯度推进回归树(GBDT)[17]㊂与线性模型相比,此模型具有相对较低的偏差,并且使用部分依赖的概念,具有良好的解释性㊂3.2㊀超参数估计完成模型构造后,采用经验贝叶斯方法[18]进行超参数估计,超参数表示为θ={a k ,μk ,ðk ,f k ,σ2k}K k =1㊁参数(潜在变量)S ㊁观测数据D =p n ,y n ()}{㊂给定观测数据和子市场数量K 的情况下,使用最大似然原理估计θ㊂由式(1)得D 的对数似然如式(2)所示:L θ()=log Pr D |θ,K ()=㊀ðN n =1log ðKk =1Pr (p n ,y n |s n =k ,θ,K ()ˑ㊀㊀㊀Pr (s n =k |θ,K ))(2)为了最大化似然函数,使用期望最大化算法(EM 算法)评估超参数θ,推导过程如式(3)和式(4)所示:Q θ|θɵt ()()=E s log Pr D ,S |θ()|D ,θɵt ()[]=㊀ðs Pr S |D ,θɵt ()()log Pr D ,S |θ()(3)θɵt +1()=argmax θQ θ|θɵt ()()(4)EM 算法的详细推导过程:算法分为两步,期望(E步)如式(5)所示,利用对超参数的现有估计值,评估所属子市场的后验概率㊂γs n ()=Pr k |p n ,y n ,θt (),K ()=㊀Pr k |θt (),K ()Pr p n ,y n |k ,θt (),K ()ðKi =1a t()i Pr y n |i ,θt (),K ()Pr p n |i ,θt (),K ()(5)最大化(M 步)如式(6)所示,极大化E 步求得后验概率更新超参数的值,并用于下一次迭代的E 步㊂T n =argmax kγs n ()(6)再整合第k 个子市场,根据房屋所属子市场,对HPM 回归更新,即更新f t +1()k ㊂计算出有效成员数量N t +1()k =ðN n =1γs n (),并最大化Q θ|θ^t ()(),令其求导为零,求得超参数θ,具体的超参数值如式(7)所示㊂a t +1()k =N t +1()k N μt +1()k=1N t +1()kðNn =1γs n ()p n㊀ðt +1()k=1N t +1()kðNn =1γs n ()p n -μt +1()k ()p n -μt +1()k ()Tσ2t +1()y ,k=1N t +1()k ðNn =1γs n ()y n -f t +1()k r n ()()2(7)当连续两次迭代得到的对数似然值之差小于阈值时,EM 算法迭代终止㊂算法流程如图3所示㊂开始输入D ,K获得θ;计算L (θ),后验概率更新θ;L (θ)L (θ)_o l d L (θ) n e w <阈值输出θ,L (θ),N终止NY图3㊀算法流程图Fig.3㊀Algorithm flowchart48第5期秦心静,等:基于位置子市场划分的房价贝叶斯概率模型3.3㊀子市场划分与价格预测求解出最优超参数后,使用贝叶斯平均值作为最终预测价格㊂具体来说,利用EM 算法求得的参数θ,计算房屋在每个子市场的后验概率,如式(8)所示:Pr s =k |p ,r ,θ^()=㊀Pr s =k |θ^()Pr p ,r |s =k ,θ^()ðK i =1Pr s =i |θ^()Pr p ,r |s =i ,θ^()(8)求出该房屋在k 个HPM 中的k 个子市场的预测价格平均值,如式(9)所示,即为最终预测价格:y ~=ðKk =1y ~k Pr s =k |p ,r ,θ^()(9)再通过该房屋的后验概率值,导出其所属子市场的标签,如式(10)所示:T =argmax kPr s =k |p ,r ,θ^()(10)4㊀实㊀验4.1㊀数据获取选用杭州市二手房地产市场数据来评估模型,实验数据集的统计数据如表3所示㊂该数据来自中国最大的在线房地产交易网络之一的,包括二手房价和8种房屋特征㊂表3㊀数据集㊁属性㊁统计Table 3㊀Data sets ,attributes ,statistics数据集属性统计量二手房数据房屋数量42064房屋特征数量9POI 数据类型数量20POI 总数633813交通设施数据地铁站数量257公交站数量19648停车场数量35704中小学数据公立普通学校数量716公立重点学校数量75私立普通学校数量10私立重点学校数量6POI 数据㊁交通设施数据和中小学数据从中国最大的在线定位服务提供商之一的 获取㊂采集杭州2019年及此之前的房地产数据分析,将房地产数据分为训练集㊁验证集和测试集㊂随机抽选60%的数据为训练集,20%数据作为验证集,剩下20%数据作为测试集㊂4.2㊀子市场数量选择为了确定子市场数量,合并验证集和训练集进行交叉验证,子市场数量从2开始增加到足够大,观察平均绝对百分比误差(εMAPD )的结果如图4所示㊂结果显示:当子市场数量从2增加时,验证集上的εMAPD 不断减少,直到子市场的数量达到49时为肘点㊂因此,将子市场的数量设置为49㊂子市场划分结果如图5所示㊂0.160.140.120.100.080.060.041020304050607080εM A P D子市场数量K *=49验证集训练集图4㊀交叉验证结果Fig.4㊀Cross -verificationresults图5㊀子市场划分结果展示Fig.5㊀Display of submarket division results4.3㊀算法性能评估本文选取平均绝对百分比误差(εMAPD )作为主要指标评估房价预测的准确性,将原始误差标准化,消除数值过大存在的偏差;平均绝对误差(εMAE )提供直观的误差度量,反映预测价格与实际价格的误差大小;均方根误差(εRMSE )反应数据集的离散程度㊂定义如式(11)所示:58重庆工商大学学报(自然科学版)第40卷εMAPD =100%n ðn j =1y ^j -y j yjεMAE=1n ðn j =1y ^j -y jεRMSE =1n ðn j =1y ^j-y j ()2(11)为了证明子市场的有效性,选用非子市场模型和子市场模型进行估值比较,评估结果如表4所示㊂表4㊀性能评估对比Table 4㊀Performance assessment comparison%类㊀型模㊀型εMAPDεMAEεRMSE非子市场模型GBDT 18.1350557184SVM 20.99670711354ANN 24.3069019878OLS28.30801711067子市场模型K -means +GBDT 13.0038076180本文模型10.0031545272梯度提升决策树(GBDT)是一种迭代的决策树算法,由多棵决策树组成,所有树的结论累加起来做最终答案,可以发现多种有区分性的特征以及特征组合㊂支持向量机(SVM)是一种二分类模型,目标是找到一个超平面,使用两类数据离超平面越远越好,从而对新的数据分类更准确,可以使用带有径向基函数的SVM 来捕捉非线性㊂人工神经网络(ANN)是一种非线性模型,可以自动学习有效的特征表示,并提供准确的预测㊂普通最小二乘法(OLS)主要用于线性回归的参数估计,通过最小化误差的平方和寻找数据的最佳函数匹配㊂K -means 是一种广泛用于识别子市场的聚类方法㊂位置和房屋属性的连接被用作K -means 聚类的输入㊂对于每个已识别的子市场,使用GBDT 作为模型输入来构建唯一的HPM㊂4.4㊀子市场影响因素分析为了证明模型可以有效评估房屋特征对房价的影响,通过HPM 模型的特征重要性反映房屋特征在房地产市场中的影响程度,本文选取典型子市场和旅游地产进行影响因素分析㊂4.4.1㊀典型子市场分析依据所划分的49个子市场,结合杭州城市规划现状,选取4个典型子市场进行分析,区域范围如图6所示㊂表5列出了这些子市场的重要影响特征㊂研究表明,4个子市场中年份和面积都具有较大作用㊂I )景区周边Ⅱ)市中心Ⅲ)良渚郊区Ⅳ)钱塘新城图6㊀典型子市场Fig.6㊀Typical submarket表5㊀典型子市场影响特征Table 5㊀Typical sub -market influence characteristics子市场类㊀型重要特征Ⅰ转塘面积㊁公交数量㊁年份㊁浴室数量㊁房间数量㊁装修-中等Ⅱ市中心面积㊁年份㊁住宿服务职能㊁专业市场职能㊁公交数量㊁非制造业公司Ⅲ良渚面积㊁年份㊁社会福利职能㊁浴室数量㊁教育科研职能㊁住宿服务职能Ⅳ钱塘新城面积㊁年份㊁停车场㊁浴室数量㊁房间数量㊁住宿服务职能子市场Ⅰ为杭州西湖区转塘街道,房价与附近公交数量㊁浴室数量㊁房间数量㊁中等装修有较强相关性,这是由于该子市场位于市区,交通便利且邻近西湖㊁灵山㊁钱塘江等诸多景区,居民对住宅舒适性有较强的需求㊂子市场Ⅱ为杭州的上城区,主要影响因素为面积㊁年份㊁住宿服务职能㊁专业市场职能㊁公交数量㊁非制造业公司,这是因为市中心居民对出行和办公的相关职能需求较大㊂子市场Ⅲ为杭州的良渚镇,位于杭州余杭区的郊区,其作为良渚文化旅游中心,将教育科研职能和住宿服务职能视为重要特征㊂子市场Ⅳ为杭州钱塘新城新区,是政府政策支持的一个新商务区,与其一68第5期秦心静,等:基于位置子市场划分的房价贝叶斯概率模型致,商务区住房将停车场数量㊁浴室数量㊁房间数量及住宿服务职能视为重要特征,因为位于城区的办公区域,对停车场数量的需求较大,且周边学校数量以及环境设施较为齐全,所以影响该子市场的因素主要为房屋基础特征㊂4.4.2㊀旅游地产分析杭州拥有数量众多的创业企业,经济发展快速,也是中国著名的风景旅游城市,拥有 三江两湖一山 的旅游资源,有较好的经济文化环境发展旅游地产[19]㊂因此,本文选取4个旅游区进行子市场分析,区域范围如图7所示㊂表6列出了这些子市场的重要影响特征㊂a)余杭区b)西湖c)千岛湖d)桐庐图7㊀旅游区子市场Fig.7㊀Tourist area market表6㊀旅游区子市场影响特征Table6㊀Travel area market influence characteristics子市场类㊀型重要特征a余杭区面积㊁年份㊁公交㊁教育科研职能㊁公立普通学校数量㊁朝向-南b西湖面积㊁教育科研职能㊁年份㊁娱乐康体职能㊁住宿服务职能㊁停车场数量c千岛湖面积㊁年份㊁浴室数量㊁客厅数量㊁产业园区㊁装修-精装d瑶林零售服务职能㊁住宿服务职能㊁餐饮服务职能㊁其他生活服务㊁文化艺术职能㊁金融保险职能子市场a为杭州余杭郊区,包括径山㊁双溪竹海㊁良渚文化等诸多景点,主要影响因素为面积㊁年份㊁公交数量㊁教育科研职能㊁公立普通学校数量,说明该景点周边的房屋对附近教育资源需求更大㊂子市场b为位于杭州城区内的西湖景区,其房价与教育科研职能㊁娱乐康体职能㊁住宿服务职能以及停车场数量有较强相关性,是因为城区内更注重生活娱乐项目的丰富便利㊂子市场c为千岛湖景区,可以看到该地房价受房屋基础特征影响较大,将浴室数量㊁客厅数量㊁装修风格视为重要特征,是因为其位于淳安县,周边具有学校㊁医疗等环境资源,居民更注重房屋的属性㊂子市场d 为桐庐县瑶琳仙境景点,其房价与零售服务职能㊁住宿服务职能㊁餐饮服务职能㊁其他生活服务㊁文化艺术职能㊁金融保险职能有很强的相关性,是因为该景点位置偏离县区,居民购房更看重周边建筑职能是否能满足日常生活需要㊂研究表明:杭州市景点众多且分布较广,房地产市场受景点及周边环境影响,会形成以旅游区为中心的旅游地产㊂通过分析典型子市场与旅游区子市场发现,本文子市场划分符合杭州城市区块划分㊂5㊀结㊀论提出一个概率框架评估房地产特征价格的子市场效应,将子市场视为潜在变量,在贝叶斯网络上捕获子市场标准,包括位置邻近性和可替代性;根据子市场标准和特征价格模型作为贝叶斯网络的概率依赖确定子市场效应的范围,以此完成子市场划分,并预测房屋价格;最后,以杭州房地产市场验证模型㊂实验结果证明:本文概率模型在房地产市场估价上优于其他模型㊂此外,通过对各子市场影响因素的分析,还证明了本文概率模型量化住房属性对房价影响程度的有效性㊂参考文献References1 ㊀KUMAR S TALASILA V PASUMARTHY R.A novelarchitecture to identify locations for real estate investment J .International Journal of Information Management 2021 56102012 102018.2 ㊀SILVA J FILHO A.Performing hierarchical Bayesianregression to assess the best districts for building new residential real estate developments C //2020IEEE International Conference on Systems Man and CyberneticsSMC .IEEE 2020 2411 2416.3 ㊀袁韶华汪应宏左晓宝等.徐州房地产空间异质分析及对城市规划的启示J .工程经济2017 27 12 46 51.YUAN Shao-hua WANG Ying-hong ZUO Xiao-bao et al.78重庆工商大学学报(自然科学版)第40卷Spatial heterogeneity analysis of real estate in Xuzhou and the Inspiration for urban planning J .Engineering Economy 2017 27 12 46 51.4 ㊀STEVENSON S.New empirical evidence on heteroscedasticityin hedonic housing models J .Journal of Housing Economics 2004 13 2 136 153.5 ㊀YAN S.Real estate evaluation model based on geneticalgorithm optimized neural network J .Data Science Journal 2019 18 1 9.6 ㊀ALFARO-NAVARRO J L CANO E L ALFARO-CORTES Eet al.A fully automated adjustment of ensemble methods in machine learning for modeling complex real estate systems J .Complexity 2020 2020 5287263 5287265.7 ㊀CHANASIT K CHUANGSUWANICH E SUCHATO A etal.A real estate valuation model using boosted feature selection J .IEEE Access 2021 99 1 10.8 ㊀XU X HUANG Z Y WU J Y et al.Finding the keyinfluences on the house price by finite mixture model based on the real estate data in Changchun C//Database Systems for Advanced Applications DASFAA2019.Cham Springer 2019 378 382.9 ㊀WU C S SHARMA R.Housing submarket classification therole of spatial contiguity J .Applied Geography 2012 322 746 756.10 LIU Z C CAO J XIE R J et al.Modeling submarket effectfor real estate hedonic valuation a probabilistic approach J .IEEE Transactions on Knowledge and Data Engineering 2021 33 7 2943 2955.11 FU Y J XIONG H GE Y et al.Modeling of geographicdependencies for real estate ranking on site selection J .Acm Transactions on Knowledge Discovery from Data 2016 111 11 20.12 薛冰肖骁李京忠等.基于POI大数据的老工业区房价影响因素空间分异与实证J .人文地理2019 344106 114.XUE Bing XIAO Xiao LI Jing-zhong et al.POI-Basedanalysis on the affecting factors of property price spatial distribution in the traditional industrial area J .Human Geography 2019 34 4 106 114.13 BERAWI M A MIRAJ P SAROJI P et al.Impact of railtransit station proximity to commercial property prices utilizing big data in urban real estate J .Journal of Big Data 2020 7 1 71 75.14 钟海玥张安录蔡银莺.武汉市南湖景观对周边住宅价值的影响 基于Hedonic模型的实证研究J .中国土地科学2009 23 12 63 68.ZHONG Hai-yue ZHANG An-lu CAI Yin-ying.Impacts of the Nanhu Lake in Wuhan city on the price of peripheral houses empirical research based on hedonic model J .China Land Science 2009 23 12 63 68.15 YASNITSKY L N YASNITSKY V L ALEKSEEV A O.Thecomplex neural network model for mass appraisal and scenario forecasting of the urban real estate market value that adapts itself to space and time J .Complexity 2021 2021 5392170 5392178.16 GOODMAN A C THIBODEAU T G.The spatial proximity ofmetropolitan area housing submarkets J .Real Estate Economics 2007 35 2 209 232.17 FRIEDMAN J.Greedy function approximation a gradientboosting machine J .Annals of Statistics 2001 2951189 1232.18 李勇.基于先验的贝叶斯先验选择方法J .重庆工商大学学报自然科学版2006 23 6 548 550.LI Yong.On Bayesian prior selection method based on prior J .Journal of Chongqing Technology and BusinessUniversity Natural Science Edition 2006 23 6 548 550.19 汤琦.旅游地产购买行为影响因素研究 以杭州旅游地产购买者为对象D .杭州浙江工业大学2013.TANG Qi.The influence factors of tourist real estate purchase behavior the buyers of tourist real estate in Hangzhou as an example D .Hangzhou Zhejiang University of Technology 2013.责任编辑:李翠薇88。
大数据时代的政府绩效管理

大数据时代的政府绩效管理〔摘要〕大数据分析技术为政府绩效管理提供了契机,同前大数据时代的传统政府绩效管理模式相比,大数据时代的政府绩效管理模式在许多方面有显著优势。
大数据时代的政府绩效管理模式实现了以民为本和数据驱动,有力推动了政府绩效持续改进。
但是,大数据时代的政府绩效管理也面临如何高效运行和可持续发展的挑战。
因此,要加强政府绩效管理的制度化建设,加快政府绩效管理体系的数字化转型,提升政府绩效管理人员的大数据分析能力,推动数据开放和公众参与。
〔关键词〕大数据,政府绩效管理,数字化,数据开放〔中图分类号〕D630〔文献标识码〕A〔文章编号〕1004-4175(2020)06-0014-09马亮(中国人民大学,北京100872)〔收稿日期〕2020-09-14〔基金项目〕国家自然科学基金项目面上项目“第三方评估如何提升组织绩效:中国地方政府的实证研究”(71774164),主持人马亮。
〔作者简介〕马亮(1984-),男,江苏铜山人,中国人民大学公共管理学院教授,中国人民大学国家发展与战略研究院研究员,主要研究方向为数字政府与绩效管理。
一、引言进入21世纪初,以大数据分析技术、人工智能技术、区块链技术等为代表的新兴信息技术催生了“第四次工业革命”的到来,并对经济增长、社会发展和政府治理的方方面面产生了深刻的影响。
特别是大数据分析技术的广泛应用,对政府管理带来了不容忽视的影响。
大数据分析技术为政府改革创新提供了机遇,也对政府管理提出了多方面的挑战。
公共事务的大数据包括三类海量数据:公共部门在运营过程中主动收集的高度结构化的行政数据;互联网数据,如官方网站、搜索引擎和社交媒体等;物联网数据,如建筑物、机动车、街道、移动终端等各种传感器。
这些海量数据为政府改革创新提供了契机,但是公共部门在大数据收集、处理、分析、解释和决策等方面都面临着治理挑战〔1〕。
这是因为政府部门和公务员相对于企业而言缺乏信息技术能力,难以充分利用大数据分析技术进行治理创新。
基于产品评论的消费者偏好模型构建研究

第29卷㊀第12期长㊀春㊀大㊀学㊀学㊀报Vol.29㊀No.12㊀2019年12月JOURNALOFCHANGCHUNUNIVERSITYDec.2019㊀收稿日期:2019-10-29基金项目:安徽省教育厅项目(KJ2017A858)作者简介:胡龙茂(1973-)ꎬ男ꎬ安徽太湖人ꎬ副教授ꎬ硕士ꎬ主要从事人工智能㊁自然语言处理研究ꎮ胡戴新(1966-)ꎬ男ꎬ安徽安庆人ꎬ教授ꎬ硕士ꎬ主要从事管理学研究ꎮ基于产品评论的消费者偏好模型构建研究胡龙茂1ꎬ2ꎬ胡戴新2(1.合肥工业大学计算机与信息学院ꎬ合肥230601ꎻ2.安徽财贸职业学院ꎬ合肥230601)摘㊀要:用户发表的购后评论ꎬ隐含着消费者对产品特征的某种偏好ꎮ有效挖掘消费者的偏好信息ꎬ有利于企业制定差异化的营销策略ꎮ首先ꎬ采用最大熵模型识别消费者性别ꎮ然后ꎬ利用CRF模型㊁频繁特征和评价词搭配从评论文本中抽取 产品特征─评价短语 对ꎬ使用情感词典为评价短语赋值ꎮ最后ꎬ以产品特征评价值为自变量㊁用户评分为因变量ꎬ利用二元Logistics回归分析构建消费者偏好模型ꎮ以亚马逊中国网站的两款热销手机的评论为实验ꎬ建立了消费者的总体偏好模型和不同性别消费者的偏好模型ꎮ模型显示男性消费者和女性消费者的偏好存在差异ꎬ给出了相应的营销建议ꎮ关键词:产品特征ꎻ消费者偏好ꎻ产品特征评价值ꎻ用户评分ꎻLogistics回归中图分类号:TP311㊀㊀文献标志码:A㊀㊀文章编号:1009-3907(2019)12-0056-07随着网购市场交易规模不断增长ꎬ消费者发表的购后评论也越来越多ꎮ海量的评论信息无论对消费者还是企业来说都是可以开发和利用的宝贵资源ꎮ对于企业来说ꎬ消费者对产品以及产品具体特征的评价ꎬ往往隐含消费者对产品特征的某种偏好ꎮ在竞争日趋激烈的环境下ꎬ只有掌握消费者具体偏好哪些特征ꎬ企业才能制定相应的差异化营销策略ꎬ从而提升产品的辨识度及竞争力ꎮ目前ꎬ很多学者采用自然语言处理技术对产品评论进行细粒度挖掘ꎬ利用各种方法从评论中抽取 产品特征─评价短语 对(也称评价单元)ꎮHu等人[1]首次提出应用关联规则方法提取英文评论中的产品特征ꎬ并将产品特征附近的形容词作为评价词ꎮ后续研究者结合词性㊁语法及句法提炼抽取规则ꎬ识别评论中的评价单元[2-4]ꎮ由于受制于评论的口语化及随意性ꎬ上述基于规则的方法的抽取精度很难得到进一步提升ꎬ不少学者尝试使用监督方法进行抽取ꎮ学者们大多从词㊁词性㊁语法及语义等角度提取特征ꎬ利用条件随机场(CRF)抽取评价单元[5-7]ꎮ胡新明[8]在利用模板抽取评价单元的基础上ꎬ进一步利用情感词典计算偏好程度ꎬ构建了用户偏好矩阵ꎬ实验结果表明ꎬ由偏好矩阵计算出的偏好值和用户评分之间没有显著差异ꎮ现有研究主要集中于评价单元的抽取ꎬ针对消费者偏好的研究极少ꎬ且文献[8]用产品特征的评价均值来度量消费者偏好的方法和我们的观察不符ꎮ如有以下用户评论:例1电池中度使用也可以用一天半左右ꎬ就是有点发热!值得购买!4.0分例2机子是个裸机ꎬ是低端版的ꎬ价钱稍贵ꎮ电池不怎么耐用ꎬ一天要充两回电ꎮ好在机子速度不错ꎬ也是正品ꎬ赞!5.0分在例1中可以抽取的产品特征㊁评价短语及评价值(量化为1~5分)为<电池ꎬ一天半左右ꎬ4><发热ꎬ有点ꎬ2>ꎬ按照文献[8]的方法ꎬ用户评论的评分应为3分ꎬ而实际上用户给出的评分为4分ꎮ在例2中ꎬ可抽取<价钱ꎬ稍贵2><电池ꎬ不怎么耐用ꎬ2><速度ꎬ不错4>ꎬ按照文献[8]的方法ꎬ用户评论的评分应为3分ꎬ但用户评分为5分ꎮ分析以上两个例子ꎬ我们发现ꎬ用户并不会同等看待所有产品特征ꎬ而是对某些特征有所偏好ꎬ从而对产品进行总体评分时会将偏好的特征赋予较大的权重ꎮ如例1的用户偏好 电池 ꎻ例2的用户明显偏好 速度 ꎮ因此ꎬ提出一种新的方法从产品评论中挖掘消费者偏好ꎮ首先ꎬ从产品评论中挖掘产品特征㊁特征评价值及消费者信息ꎮ然后ꎬ利用Logistic回归构建消费者偏好模型ꎬ并实证考察不同消费人群的偏好信息ꎮ1㊀模型构建框架及关键技术通过网络爬虫从B2C电子商务网站中抓取某种产品的所有评论信息ꎬ从评论中挖掘出产品特征㊁产品特征评价值(通过将特征对应的观点及强度转化为具体的数值得到)以及消费者的信息ꎬ最后利用二元Lo ̄gistics回归分析确定不同类别消费者关于产品特征的偏好ꎮ系统的总体框架如图1所示ꎮ图1㊀产品评论中消费者偏好模型构建框架1.1㊀评论文本抓取主流的电商网站有京东㊁天猫㊁苏宁和亚马逊等ꎬ前三家均存在好评返现等情况ꎬ评论的可信度不高ꎬ而亚马逊更注重评论的真实性和质量ꎬ因而编写网络爬虫从亚马逊中国网站爬取某热门手机的评论信息ꎬ包括用户链接㊁评论文本和评分ꎮ为识别消费者信息ꎬ抽取评论中的用户链接ꎬ根据用户链接爬取此用户发表的所有商品评论信息(包括用户名以及每条商品评论的商品名㊁评论标题㊁评论文本)ꎮ由于在后续消费者偏好的挖掘处理中ꎬ消费者的性别及产品特征的评价值均通过机器学习得到ꎬ故分别抓取同一厂商热销的两款手机评论数据(分别称为A款和B款)ꎬ其中A款评论数据用于模型训练ꎬB款评论数据用于预测ꎮ以A款评论数据为例ꎬ包括A款手机评论文本㊁评分及A款手机用户发表的所有评论信息ꎮ1.2㊀消费者性别识别消费者的昵称㊁购买的商品名称㊁评论标题或文本中指示身份的词语㊁评论文本的用词习惯等都会隐含指示消费者的信息[9]ꎮ人工对用户发表的所有评论进行阅读ꎬ标注性别信息ꎬ以文献[9]中的方法抽取特征ꎬ采用最大熵方法建模ꎬ然后用模型预测未标注的用户性别ꎮ75第12期胡龙茂ꎬ等:基于产品评论的消费者偏好模型构建研究1.3 评价单元抽取及评价赋值1.3.1㊀评价单元抽取评价单元的抽取主要包括两种方法:一是基于规则模板的方法ꎬ这种方法无须人工标注数据ꎬ但抽取精度不太高ꎻ另一种是基于条件随机场的方法ꎬ该方法需要人工标注语料ꎬ如果能够构造好的特征ꎬ往往能取得不错的抽取精度ꎮ由于抽取精度是关系到后续偏好识别的关键步骤ꎬ本文采用CRF方法ꎮ对评论文本进行分词和词性标注ꎬ在特征选取中除采用传统的词及词性特征外ꎬ提取相关词㊁句首距离㊁后指转折词及前指副词4种语义特征ꎬ并在CRF抽取评价单元的基础上ꎬ对孤立的产品特征采用StanfordNLP依存句法分析ꎬ抽取其对应的评价短语ꎮ4种语义特征如下所示ꎮ(1)如果中的相关词一个词是产品特征词ꎬ则与其相关度高的词很有可能也是产品特征词ꎮ利用扩展同义词林计算两个词语的相似度[10]ꎬ再计算词语的语素相似度[11]ꎬ将二者结合ꎬ形成词语的相似度ꎬ公式如下:NSw1ꎬw2()=CSw(1ꎬw2)2CSw(1ꎬw2)+MSw(1ꎬw2)+MSw(1ꎬw2)2CSw(1ꎬw2)+MSw(1ꎬw2)ꎬ(1)式中NSw1ꎬw2()表示两个词的相似度ꎬCSw(1ꎬw2)为词林相似度ꎬMSw(1ꎬw2)为语素相似度ꎮ产品特征主要由名词和名词词组组成ꎬ利用相似度计算名词相关词的公式如下:RWlistw1()=w2{NSw1ꎬw2()ȡλꎬ(2)式中λ代表阈值(通过实验调整优化ꎬ最终设置为0.5)ꎮ统计每个名词在评论中出现的频次ꎬ取相关词列表中频次最高的词为当前词的相关词ꎮ(2)句首距离ꎮ用户往往采用开门见山的方式对某个产品特征进行评价[12]ꎬ这使得在分句句首或离分句句首很近的词成为产品特征的可能性增大ꎮ如分词后的用户评论 手机反应还一般吧ꎬ外形不错 中存在 反应 外形 两个产品特征ꎬ其中 反应 的句首距离为2ꎬ 外形 的句首距离为1ꎮ(3)后指转折词ꎮ转折词表明用户会对某个产品特征持有负面评价ꎮ常见的转折词有 就是 只是 等ꎮ(4)前指副词ꎮ 也 都 不 确实 和 真的 等副词后面往往是评价语ꎬ其前面往往是所评价的产品特征ꎮ采用上述特征对CRF模型进行训练ꎬ然后用训练后的模型对评论进行标注ꎬ标注结果中包含产品特征和评价短语ꎮ如果产品特征附近有评价短语ꎬ则配对成评价单元ꎻ否则ꎬ产品特征成为孤立产品特征ꎮ采用文献[7]中提出的nsubj关系抽取孤立产品特征对应的评价词ꎬ然后将与评价词依存关系为advmod和neg的词抽取作为评价词的修饰词ꎬ最后将评价词和修饰词组成评价短语ꎮ由于用户评论存在随意性(如没有断句)和口语化现象ꎬ一些产品特征未能被CRF模型识别ꎮ将CRF模型识别超过一定次数的产品特征作为频繁特征ꎬ在评论文本中进行查找ꎬ如果未被CRF模型标注ꎬ则进行标注ꎬ并按依存关系抽取其后的评价短语ꎬ构成遗漏的频繁评价单元ꎮ经上述抽取过程ꎬ我们能够抽取到显式的评价单元ꎮ然而ꎬ用户评论中还存在一些隐式评价单元ꎬ如在评论 便宜ꎬ配置不低ꎬ细节之处还有提升的空间 中ꎬ便宜指的是价格ꎬ评论中存在隐式评价单元<价格ꎬ便宜>ꎮ中文词语之间存在固定的搭配关系ꎬ特定的形容词往往只会修饰固定的几个名词[13]ꎬ如在手机评论语料中ꎬ与形容词 好 经常搭配的名词有 手感 信号 和 质量 ꎮ抽取评价短语中的形容词(即评价词)ꎬ将相同评价词修饰的产品特征归集到一起ꎬ统计出现频率最高的产品特征ꎬ如果频率超过某个阈值ꎬ将此产品特征作为此评价词默认评价的产品特征ꎮ在标注后的评论句中查找评价词ꎬ如果评价词前面没有产品特征ꎬ则将评价词前面最近的名词作为产品特征ꎬ然后将评价词前面的副词作为评价词修饰词ꎬ从而形成隐式评价单元ꎮ1.3.2㊀合并同类产品特征由于用户表述习惯不同ꎬ相同的产品特征会用不同的词语表示ꎬ如 价格 还会说成 价钱 和 价位 ꎮ另外ꎬ用户还会对同类特征的不同方面进行评价ꎬ如对于 外观 ꎬ可能的评价有 正面 背面 或 侧面 ꎮ85长㊀春㊀大㊀学㊀学㊀报㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀第29卷为减少特征的稀疏性ꎬ需对同类产品特征进行合并ꎮ为保证后续偏好分析的精度ꎬ采用人工方式对同类产品特征进行合并ꎮ1.3.3㊀特征评价值用户对产品特征的评价不但有极性ꎬ还有强度上的差异ꎮ极性词通常为形容词(如 好 )ꎬ也包括少数动词(如 喜欢 )ꎮ强度词通常为程度副词ꎬ如 非常 等ꎮ用知网情感词典和评价词典标注评价短语中的评价词ꎬ正面评价词标注为1ꎬ负面评价词标注为-1ꎻ对于未出现在知网情感词典中的评价词ꎬ人工标注其情感倾向ꎮ在文献[14]的基础上ꎬ将情感强度词设置如表1所示ꎮ表1㊀情感强度词程度级别词汇0.5稍微些许略略微多少有点有些有点儿0.75较较为比较不大不太不很还尚1.25很更更加格外太忒挺非常超特别相当十分甚颇蛮够真尤其好1.5最极分外㊀㊀评价短语的情感分计算公式如下所示:特征评价值=程度级别ˑ极性(3)根据式(3)计算得出评价值后ꎬ仿照用户评分ꎬ将评价值离散化为5个等级如公式(4)所示ꎮscore_dfea=1ꎬ-1.5ɤscorefea<-12ꎬ-1.0ɤscorefeaɤ-0.53ꎬ-0.5<scorefea<0.54ꎬ0.5ɤscorefeaɤ15ꎬ1.0<scorefeaɤ1.5ìîíïïïïïïï㊀ꎬ(4)式中ꎬscore_dfea表示离散化的评价值ꎬscorefea表示未离散化的评价值ꎮ1.4㊀Logistics回归Logistics回归模型是一种对二分类因变量(因变量取值有1或0两种可能)进行回归分析时经常采用的非线性分类统计方法[15]ꎮ借助该模型能够分析多个自变量(连续变量或分类变量)与一个二分类因变量变化的依存关系[16]ꎮ公式如下所示:logitP()=lnP1-P=β0+β1x1+β2x2+ +βkxk(5)式中:P为事件(用户的评分为好评)发生的概率ꎻx1ꎬx2ꎬ ꎬxk为自变量ꎬ表示特征评价值(1~5分)ꎻβ0为截距ꎻβ1ꎬβ2ꎬ ꎬβk为回归系数ꎮ由于自变量都是同量纲的ꎬ回归系数越大ꎬ其对应的自变量对因变量的贡献越大ꎬ故回归系数可以看成是消费者对产品特征的偏好系数ꎮ2㊀实验结果与分析2.1㊀数据环境及数据集为验证模型的有效性ꎬ编写网络爬虫从亚马逊中国网站爬取某国产手机厂商两款(分别称为A款和B款)畅销产品的用户评论ꎬ并且对于每条用户评论ꎬ爬取此用户对所购其他产品的评论ꎮ评论数据中共包含A款手机评论1169条(对应爬取此1169个用户对于其他产品的评论)ꎮB款手机评论1033条(对应爬取此1033个用户对于其他产品的评论)ꎬA款手机评论用于评价单元识别模型的构建ꎻA款手机用户对其他产品的评论用于性别识别模型的构建ꎬB款手机评论及B款手机用户对其他产品的评论用于从构建好的模型抽取评价单元及识别用户性别ꎮ实验所用编程语言采用pythonꎬ自然语言处理工具采用StanfordNLPꎬ条件随机场采用CRF++0.58ꎬLo ̄gistics回归分析采用SPSS20ꎮ95第12期胡龙茂ꎬ等:基于产品评论的消费者偏好模型构建研究2.2㊀用户性别识别采用A款手机评论数据ꎬ按文献[9]构建最大熵模型ꎬ利用此模型识别B款手机评论中1033个用户的性别ꎬ其中女性用0表示ꎬ男性用1表示ꎮ2.3㊀评价单元抽取采用A款手机评论数据ꎬ构建2.3.1节提出的CRF评价单元识别模型ꎬ在B款手机评论中ꎬ共识别出评价单元586个ꎮ将出现次数超过3次的产品特征作为频繁特征ꎬ再次在评论文本中进行标注和识别ꎬ共识别遗漏的评价单元354个ꎮ将上两步抽取的评价单元中的评价短语分类ꎬ统计评价词对应的产品特征的频次ꎬ表2显示了出现10个常见评价词对应的频率最高的三个产品特征ꎮ表2㊀评价词对应的频率最高的三个产品特征评价词(出现次数)对应频率最高的产品特征(频次)不错(50)质量(12)㊁外观(5)㊁性能(5)好(49)信号(9)㊁性能(5)㊁性价比(4)高(48)性价比(39)㊁配置(3)㊁像素(2)快(45)运行速度(14)㊁速度(7)㊁反应(8)流畅(35)运行(20)㊁系统(8)㊁操作(3)耐用(23)电池(23)漂亮(16)外观(12)㊁外形(3)㊁界面(1)清晰(16)屏幕(7)㊁摄像头(2)㊁照相(2)大(14)屏幕(5)㊁内存(4)㊁电池容量(2)长(10)待机时间(5)㊁待机(1)㊁开机时间(1)㊀㊀设置出现频率超过30%的产品特征为评价词对应的默认产品特征ꎬ如表2中粗体所示ꎮ按照默认产品特征ꎬ从评论文本中抽取了评价单元137对ꎮ经过上述三个步骤ꎬ从评论文本中共获得评价单元1077个ꎬ其中共评价了102个产品特征ꎮ人工识别同类产品特征ꎬ共识别为16类ꎬ分别为:运行㊁外观㊁电池㊁屏幕㊁质量㊁拍照㊁性价比㊁发热㊁价格㊁信号㊁系统㊁手感㊁配置㊁音质㊁功能㊁通话ꎮ在人工识别时发现ꎬ 系统 存在两种含义ꎬ一种是 操作系统 (评价词为 人性化 好用 或其反义词等)ꎬ仍将其标识为 系统 ꎻ另一种是 运行 (评价词为 快 流畅 或其反义词等)ꎬ将其重新标识为 运行 ꎮ表3显示了部分同类产品特征ꎮ表3㊀部分同类产品特征产品特征类别产品特征运行运行速度运行速度反应反应速度操作性能流畅度外观外观外形外形设计外壳机身界面UI画面侧面背面后盖样子做工设计样式颜色电池电池电池容量待机待机时间续航耗电耗电量电池续航能力电池消耗续航能力电池待机续航方面掉电屏幕屏幕屏幕分辨率屏幕像素分辨率触屏清晰度拍照拍照照相相机照片照相功能相机像素拍照性能照相质量相片质量拍照效果摄像头摄像头清晰度像素㊀㊀按照公式(3)计算出产品特征的评价值ꎮ统计产品特征出现的次数及评价均值ꎬ如图2所示ꎮ从图2中可以看出ꎬ用户评价次数最多的产品特征依次为 运行 外观 和 电池 ꎬ评价次数最少的产品特征依次为 通话 功能 和 音质 ꎮ评价均值较高的产品特征依次为 性价比 运行 和 手感 ꎬ评价06长㊀春㊀大㊀学㊀学㊀报㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀第29卷图2㊀产品特征出现次数及评价均值均值较低的产品特征依次为 质量 发热 和 音质 ꎮ用户的评价值和手机厂商的产品宣传还是比较一致的ꎬ此款手机为华为的千元级智能手机ꎬ主打性价比和运行的流畅性ꎬ对音质没有过多的诉求ꎮ由于主打性价比ꎬ限制了设计和软硬件成本ꎬ质量较难管控ꎬ导致用户对质量评价较低ꎬ用户反映最多的为 黑屏 死机 和 按键失灵 ꎮ2.4㊀模型构建和分析从评价单元的抽取结果中可以看出ꎬ不少用户只是对产品给出总体评价而没有针对具体的产品特征展开评价ꎬ还有少数用户使用混合评价ꎬ既对产品特征评价ꎬ也对服务(如快递㊁电商平台)展开评价ꎮ在这两种评价中ꎬ用户给出的评分不是(或不纯粹是)产品特征评价的综合ꎬ在构建偏好模型时需要丢弃ꎮ通过丢弃上述两种评价ꎬ共获得用于构建偏好模型的有效评论521条ꎬ评价单元1027个ꎮ用户通常只会评价比较关注的特征ꎬ如果某类特征出现次数较少ꎬ说明用户关注度较低ꎬ不宜放到偏好模型中ꎮ取出现次数超过10%的特征作为常见特征ꎬ包含运行㊁外观㊁电池㊁屏幕㊁质量㊁拍照㊁性价比和发热共8个特征ꎮ观察发现ꎬ即使是用户关注度较高的8个常见特征ꎬ也存在很多缺失值ꎮ因此ꎬ用户如果对某个常见特征没有作出显式评价ꎬ表明其态度为不置可否ꎬ由于本文中正面评价取值为1ꎬ负面评价值为-1ꎬ故可将用户没有评价的产品特征的评价值设置为0ꎮ补充缺失值后ꎬ按照公式(4)将评价值离散化为1~5分ꎮ为便于Logistics回归分析ꎬ将用户评分二值化ꎬ参照亚马逊中国网站的设置ꎬ将评分小于等于3分作为差评(用0表示)ꎬ4分及5分作为好评(用1表示)ꎮ用户性别及评分的统计数据如表4所示ꎮ表4㊀用户性别及评分分布好评差评总计男298104402女8831119总计386135521㊀㊀将八个常见产品特征的评价值(分别用x1~x8表示)和用户性别(x9)作为自变量ꎬ将二值化的用户评分作为因变量ꎬ利用SPSS20进行二元Logistics回归分析ꎬ自变量的加入方式采用向前步进ꎬ获得全体用户的Logistics模型如式(5)所示:logit(P)=-25.103+1.136x1+0.839x2+1.264x3+1.197x4+2.959x5+1.321x8ꎬ(5)从式(5)中可以看出ꎬ拍照(x6)㊁性价比(x7)和性别(x9)在模型中不显著ꎬ而质量(x5)㊁发热(x8)和电池(x3)的系数最大ꎮ总体而言ꎬ用户最为偏好质量ꎬ其次为发热情况ꎬ再次为电池ꎬ而拍照㊁性价比和性别对评分的影响不大ꎮ提取女性用户的数据ꎬ尝试建立女性用户的偏好模型ꎮ由于女性用户的差评数据为31条(见表4)ꎬ而在Logistics回归模型中ꎬ为保证统计意义ꎬ每个水平的数据应至少为自变量个数的10倍[17]ꎬ故选取最常见16第12期胡龙茂ꎬ等:基于产品评论的消费者偏好模型构建研究特征中的3个作为自变量构建模型ꎬ结果如式(6)所示:logit(P)=-14.498+1.789x1+1.120x3+2.281x5ꎬ(6)类似地ꎬ提取男性用户的数据ꎬ将前5个最常见的产品特征作为自变量ꎬ构建男性用户偏好模型如公式(7)所示:logit(P)=-16.103+1.124x1+1.485x3+3.111x5ꎬ(7)从式(6)和式(7)可以看出ꎬ女性用户和男性用户的共同点是最为偏好质量(x5)ꎮ其差异为女性用户除质量外ꎬ更为偏好运行(x1)ꎬ其次才是电池(x3)ꎻ而男性用户除质量外ꎬ更为偏好电池(x3)ꎬ其次为运行(x1)ꎮ模型的差异反映出女性用户偏感性ꎬ偏好手机运行更加流畅ꎬ这也可能是苹果手机吸引女性用户的一个主要原因ꎬ而男性用户更看重电池是否耐用ꎬ这也可能是与男性用户出门携带物品力求精简有关ꎮ2.5㊀建议B款手机的厂家应严把质量关ꎬ提升品控能力ꎬ让用户用得放心ꎻ另外ꎬ厂家还应改进设计ꎬ提高手机的散热效果ꎮ分用户群体来说ꎬ此款手机的主要用户为男性ꎬ为提升用户体验ꎬ应适当提高电池容量或减少系统的耗电量ꎬ使得用户不再为充电而焦虑ꎬ将电池性能作为主要卖点着力宣传ꎻ虽然女性群体用户只占约五分之一ꎬ但女性的消费能力强ꎬ如果希望获得女性用户的青睐ꎬ应优化系统设计ꎬ使得运行更加流畅ꎬ有效宣传给女性用户ꎮ3㊀结语本文首先采用CRF模型抽取评价单元㊁频繁特征抽取遗漏评价单元㊁评价词抽取隐式评价单元3种方法ꎬ从评论中抽取评价单元ꎬ利用情感词典计算评价短语的情感分ꎬ然后在获得用户的所有评论的基础上构建最大熵模型识别用户性别ꎬ最后以常见产品特征为自变量㊁用户评分为因变量ꎬ利用Logistics模型分别构建了总体偏好模型及不同性别用户偏好模型ꎬ分析了群体用户和不同性别用户的偏好并给出了相应建议ꎮ本文也存在一些不足ꎬ主要是评论样本不够多ꎬ筛选不出足够的评价多个产品特征的评论文本ꎬ使得产品特征评价值矩阵中缺失值过多ꎬ虽然采用中性评价值代替缺失值的方法比较合理ꎬ但离用户的真实评价仍会有偏差ꎬ势必会影响后续偏好模型的解释效果ꎮ下一步研究中应选择评论数量更多的产品进行偏好挖掘ꎬ并提高评价单元的抽取精度ꎮ参考文献:[1]㊀HuMinqingꎬLiuBing.Miningandsummarizingcustomerreviews[C]//Procofthe10thACMSIGKDDInter-nationalConferen ̄ceonKnowledgeDiscovery&DataMining.NewYork:ACMPressꎬ2004:168-177.[2]㊀陈炯ꎬ张虎ꎬ曹付元.面向中文客户评论的评价搭配识别研究[J].计算机工程与设计ꎬ2013ꎬ34(3):1073-1077. [3]㊀王娟ꎬ曹树金ꎬ谢建国.基于短语句法结构和依存句法分析的情感评价单元抽取[J].情报理论与实践ꎬ2017ꎬ40(3):107-113.[4]㊀唐晓波ꎬ刘一平.基于依存句法的跨语言细粒度情感分析[J].情报理论与实践ꎬ2018ꎬ41(6):124-129.[5]㊀JakobN.ꎬGurevychI.ExtractingOpinionTargetsinaSingleandCross-DomainSettingwithConditional[C]//ProceedingsofEMNLP-2010CambridgeꎬMA:ACMꎬ.2010:1035-1045.[6]㊀马晓君ꎬ金爽ꎬ杨淑田.中国电子商务平台产品评论意见挖掘 基于条件随机场模型的实证研究[J].系统科学与数学ꎬ2015ꎬ35(11):1327-1346.[7]㊀李志义ꎬ王冕ꎬ赵鹏武.基于条件随机场模型的 评价特征-评价词 对抽取研究[J].情报学报ꎬ2017ꎬ36(4):411-421. [8]㊀胡新明ꎬ夏火松.在线评论中用户商品属性偏好识别方法研究[J].情报杂志ꎬ2012ꎬ31(9):197-201.[9]㊀胡龙茂.中文在线评论的用户性别判定研究[J].通化师范学院学报ꎬ2016ꎬ37(12):69-72.[10]㊀陈宏朝ꎬ李飞ꎬ朱新华ꎬ马润聪.基于路径与深度的同义词词林词语相似度计算[J].中文信息学报ꎬ2016ꎬ30(5):80-88. [11]㊀刘丽珍ꎬ赵新蕾ꎬ王函石ꎬ等.基于产品特征的领域情感本体构建[J].北京理工大学学报ꎬ2015ꎬ35(5):538-544. [12]㊀周红照ꎬ等.语义特征在评价对象抽取与极性判定中的作用[J].北京大学学报(自然科学版)ꎬ2014ꎬ50(1):93-99. [13]㊀王宁ꎬ苑春法ꎬ黄昌宁.汉语名词和形容词的聚类算法研究[C]//自然语言理解与机器翻译 全国第六届计算语言学联合学术会议论文集.北京:清华大学出版社ꎬ2001:147-152.[14]㊀史伟ꎬ王洪伟ꎬ何绍义.基于语义的中文在线评论情感分析[J].情报学报ꎬ2013ꎬ32(8):860-867.(下转第70页)常的日间功能ꎮ总之ꎬ医学生的心理健康值得我们去关注㊁关怀并采取适当的措施去改善ꎮ参考文献:[1]㊀杨廷忠.健康行为理论与研究[M].北京:人民卫生出版社ꎬ2007:171-176.[2]㊀贾雪媛ꎬ刁兴隆ꎬ王兰英ꎬ何福根.蒙医护士工作压力源调查分析[J].内蒙古民族大学学报(自然科学版)ꎬ2012ꎬ27(1):103-106.[3]㊀赵风云ꎬ张桂珍.护士压力与职业疲溃感的研究[J].内蒙古民族大学学报(自然科学版)ꎬ2008(5):595-597. [4]㊀常丽萍.大学生睡眠质量与焦虑抑郁状况及其相关性分析[J].医学信息ꎬ2018ꎬ31(18):106-108.[5]㊀阎俊.大学生睡眠质量㊁抑郁㊁焦虑现状调查研究[J].甘肃医药ꎬ2017ꎬ36(7):556-558.责任编辑:程艳艳MediatingandModeratingEffectsofSleepingonPsychologicalStressesandEmotionalDisordersofMedicalStudentsXUQianꎬSHIDandan(DepartmentofBasicMedicineꎬGuangzhouUniversityofChineseMedicineꎬGuangzhou510006ꎬChina)Abstract:Thispaperexploresthemediatingandmoderatingeffectsofsleepingbetweenpsychologicalstressesandemotionaldisordersofmedicalstudents.520medicalstudentsareinvestigatedbyusingself-madequestionnairesꎬChinesePerceivedStressScale(CPSS)ꎬPittsburghSleepQualityIndex(PSQI)ꎬSelf-ratingDepressionScale(SDS)andSelf-ratingAnxietyScale(SAS).Theresultsshowthatthemediatingeffectsofsleepingonanxietyanddepressionaccountedfortheproportionoftotaleffectsarerespectively43.33%and43.40%.Therearenosignifi ̄cantdifferencesinSASstandardscoreandSDSstandardscoreofinteractionbetweensleepindexandstresscentral ̄izationꎬwhichmeansthatsleepqualityofmedicalstudentscandirectlypredictwhethertheywillhaveemotionaldisorderssuchasanxietyanddepressionꎬandstresseshavecertainmediatingeffectsonanxietyanddepressionbuthavenomoderatingeffects.Keywords:sleepingꎻpsychologicalstressꎻemotionaldisorderꎻmediatingeffectꎻmoderatingeffect(上接第62页)[15]㊀姜广辉ꎬ等.基于Logistic回归模型的北京山区农村居民点变化的驱动力分析[J].农业工程学报ꎬ2007(5):81-87. [16]㊀徐嘉兴ꎬ李钢ꎬ陈国良.基于logistic回归模型的矿区土地利用演变驱动力分析[J].农业工程学报ꎬ2012ꎬ28(20):247-255.[17]㊀张文彤ꎬ董伟.SPSS统计分析高级教程(第2版)[M].北京:高等教育出版社ꎬ2013:162-164.责任编辑:程艳艳ResearchonEstablishmentofConsumerPreferenceModelBasedonProductCommentsHULongmao1ꎬ2ꎬHUDaixin2(1.SchoolofComputerandInformationꎬHefeiUniversityofTechnologyꎬHefei230601ꎬChinaꎻ2.AnhuiFinanceandTradeVocationalCollegeꎬHefei230601ꎬChina)Abstract:Commentspublishedbyusersimplyconsumers preferencetoproductfeatures.Itishelpfulforcompa ̄niestodevelopdifferentiatedmarketingstrategiesbyeffectivelyminingconsumers preferenceinformation.Firstlyꎬthemaximumentropymodelisusedtoidentifythegenderoftheconsumer.SecondlyꎬCRFmodelꎬfrequentfeaturesandevaluationwordsareusedtoextract productfeature ̄appraisalphrase fromthecommenttextsꎬandtheemo ̄tionaldictionaryisusedtoassignavaluetotheappraisalphrase.FinallyꎬbinaryLogisticregressionanalysisisusedtoestablishtheconsumerpreferencemodelbytakingtheevaluationvalueofproductfeaturesastheindependentvariableandtheuserratingasthedependentvariable.ThispaperꎬtakingthecommentsontwokindsofpopularmobilephonesfromAmazonwebsiteasexperimentalcorpusꎬestablishestheconsumers overallpreferencemodelandthepreferencemodelofdifferentgenderconsumers.Themodelshowsthatpreferencesaredifferentbetweenmaleconsumersandfemaleconsumers.Thecorrespondingmarketingrecommendationsaregiven.Keywords:productcommentꎻconsumer spreferenceꎻevaluationvalueofproductfeatureꎻuserratingꎻLogisticsregression。
基于随机森林和XGBoost算法的二手车价格预测

随机森林是从数据表中随机选择K 个特征建立决策 树, 重复n 次。这K 个特征经过不同随机组合建立起n 棵决 策树, 对每个决策树都传递随机变量来预测结果, 从n 棵 决策树中得到n 种结果。决策树会预测输出值, 通过随机 森林中所有决策树预测值的平均值计算得出最终预测 值, 最终得到筛选出的K 个变量的重要度。在随机森林中 某个特征X 的重要性的计算方法如下:
…
yi(t)=
fk(xi)=yi(t-1)+ft(xi)加入第n棵树。
(xi)+ hift(xi)}+γT+ λ wj2
(4)
因为对于 {gift(xi)+ hift(xi)}可以看作是每个样本 在第t 棵树的叶子节点得分值相关函数的结果之和,所以 可以从第t 棵树的叶子节点上来表示[9]。
3.3 实证分析
虑优化的方法,f(x)为决策树模型,给出权重w和树结构q 即可确定一棵决策树, 而树结构q 实质上就是划分分裂节 点的问题,所以f*(x)可以转化为找最优权重w和划分分裂 节点的问题[6]。
obj(θ)=
l(yi, )+
Ω(fk)
(2)
其中l(yi, )为样本xi的训练误差,Ω(fk)表示第k棵树
的正则项,Ω(fk)=γT+ ||w||2,其中Ω为惩罚项控制模型
的复杂度, 同时使w 更光滑从而避免过拟合。通过最小化
正则化损失函数Ω(fk)得到最优参数P *,继而可以得到既 简单又精确的模型f*(x)即:
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《公共管理与政策研究方法论》
第9讲
2016年11月14日二手数据分析
马亮博士副教授
中国人民大学公共管理学院
多元的方法——
管理学
资料来源:
Scandura & Williams (2000)
多元的方法——管理学
对2008-2011年间涉及战略管理研究的四本顶尖学术期刊SMJ、AMJ、OS、JIBS 进行分析,其所发表的实证论文中,二手数据的占比达到“半壁江山”。
资料来源:周长辉(2012, p. 217)。
定量研究方法的分支及占比:
二手数据共计210篇,合计44.8%。
Groeneveld, S., Tummers, L., Bronkhorst, B., Ashikali, T., & Van Thiel, S. (2015). Quantitative Methods in Public Administration: Their Use and Development Through Time.International Public Management Journal, 18(1).
多元的方法——中国公共管理学
资料来源:
Wu, He, Sun (2011)
不同学科的二手数据
•经济学:主要是二手数据,特别是各类统计年鉴•金融学:证券市场股价、上市公司年报、各类二次数据库
•社会学:主要是一手调查数据,包括问卷和访谈•心理学:主要是一手数据,通过调查或实验获取•政治学:各类政策、决策、报告、履历
•管理学:
–宏观研究:主要是一手企业调查和二手案例分析
–微观研究:基本上都是一手员工调查
•公共管理学、公共政策学、公共财政学
–约20-40%的数据来源是二手数据(调查或非调查)。
二手数据分析的意涵
•什么是二手数据?倒几手才是二手?三手、四手?•定义:数据的目的与来源
–一手或原始数据(primary/first hand/original
data)
–二手数据(secondary data)
•孰优孰劣?孰主孰次?相互补充?“非你莫属”?•数据驱动还是理论驱动?数据在先还是理论在先?
–Cook:the theory-data match
•一手与二手数据的边界日趋模糊。
–商业调查中的“搭车调查”、与政府部门的合作实验–网络搜索、API数据抓取、大数据
为什么要用二手数据?•“在我看来,中国可以说遍地都是数据金矿。
我这里说的数据金矿,就是指二手数据。
”
•“但二手数据确如金矿,只不过丰富而珍贵的二手数据大多是以‘矿石’的形式存在着,它等待着有心人去探索、识别和开发。
研究者要像淘金者一样去‘淘’。
虽说‘淘’金的过程并不容易,但终归比问卷调研更能做到自主可控。
”
周长辉. (2008/2012). 二手数据在组织管理学研究中的使用
.陈晓萍, 徐淑英, & 樊景立. 组织与管理研究的实证方法(第
九章). 北京:北京大学出版社.
二手数据的优势是什么?
•总体(population)或大样本(large-N)
–通常来说,二手数据的样本量较大,且多数可以提供跨年、跨季的纵贯数据,进而有利于构造面板数据。
•客观性、可复制和可重复性
–信度(validity)与科学本质
–“他律性”与学术伦理,可以减少学术造假。
•多源数据和三角测量(triangulation)
–避免共同方法偏误(CMB/CSB)
–多角度认识事物,从而更精确地观测并发现规律。
•数据采集成本低廉
–许多情况下甚至是免费的
–成本是相对而言,因为数据清洗和处理成本未必低。
•非侵入性或无干涉的研究
二手数据的局限与劣势
•数据的可靠性(信度)可能欠缺
–“官出数字,数字出官。
”层层上报的遗漏、误差与蒙骗。
•中国官方GDP数据的水分、空气污染等环境数据造假。
–不同地区和国家的定义和测量方式不同。
•数据不“解渴”,测量的效度不高
–没有问到最需要的问题,没有使用成熟量表提问,或者无法匹配到具体的地区(如县)、组织乃至个人。
–理论构念无法得到最佳的衡量,或者操作方式不同。
•例如,犯罪率的低估或低报、对交通事故的认定。
•数据分析与处理都很“费劲”
–数据编码、清洗、匹配、合并、管理等需要大量工作。
•数据的开发与再开发程度
–数据被“用烂了”,有人“捷足先登”,数据的再开发和再利用程度有限,需要“绞尽脑汁”和“独辟蹊径”。
数据公开与复制研究(Replication)(King, 1995)
二手量化数据的处理
•数据来源
–中国各级政府的统计年鉴、年报、季报、月报
–国际组织等的跨国数据、区域数据
–其他国家的统计年鉴和调查数据
–商业咨询公司数据(Compustat、国泰安、零点)–其他研究者分享的数据
•量化数据的清洗与合并
–一个数据库的内部清洗与整理
•“情人眼里出西施”
–多个数据库的合并管理
•“变废为宝”、“化腐朽为神奇”
质性数据的二次分析(secondary analysis of qualitative data)•数据来源
–文本:访谈记录、问卷开放题、实地手记、日记、年谱、档案等。
–影像:录音、图片/照片、录像/视频。
–共享:英国质性数据中心(Qualidata,1994)
•质性数据的二次分析(质性→质性)
–区别于文档分析:是否曾被其他研究者使用过?
–分析类型:原始数据的收集者是否参与?
–区别于质性数据的量化分析:元分析/系统综述?
•质性数据的转换(质性→量化)
–从文本、图片、视频等质性数据转化到量化数据
–编码(coding)至关重要
•内容分析(content analysis)或扎根理论(grounded theory)
几个实例
•治理研究的挑战:多层模型(Heinrich & Lynn, 2001)。
•公务员调查数据的二次利用(Fernandez, et al., 2015)。
•公共政策/计划/项目绩效的数据(Moynihan, 2013)。
大数据技术
•数据开放、数据共享与云计算
•科学2.0、研究2.0与政府2.0
•原始获取的大数据
–电子病历、网上投诉、政府采购、审判文书等。
•二次开发的大数据
–谷歌流感、百度迁徙、淘宝消费、微博热度等。
•实例与趋势
–经济学的应用(Einav& Levin, 2014)
值得讨论的问题
•在条件允许的情况下,尽可能开展一手数据收集,特别是通过调查和观察,抢救式记录中国公共管理的历史进程。
–中国公务员价值观、态度、动机与行为调查
–中国政府部门决策、行为、绩效调查
•如果有可用的数据,为什么不用?培养数据敏锐性和嗅觉,让数据找你,而不是你找数据!
–“好记性不如烂笔头”,随时随地记录和整理数据。
•“万事万物是普遍联系的。
”
–研习如何嫁接和联系多个数据库,如跨层分析或分层
线性模型的使用。
•实证公共管理研究:理论与数据的水乳交融
下一次课程研讨的论文清单
1.Brower, R. S., Abolafia, M. Y., & Carr, J. B. (2000). On improving
qualitative methods in public administration research.
Administration & Society, 32(4), 363-397.
2.Gerring, J. (2004). What is a case study and what is it good for?
American Political Science Review, 98(02), 341-354.
3.Ospina, S. M., & Dodge, J. (2005). It's about time: Catching
method up to meaning -the usefulness of narrative inquiry in
public administration research. Public Administration Review,
65(2), 143-157.
4.Cappellaro, G. (2016). Ethnography in public management
research: A systematic review and future directions. International Public Management Journal, 1-35.
5.Suddaby, R. (2006). From the editors: What grounded theory is
not. Academy of Management Journal, 49(4), 633-642.
谢谢!
Email: liangma@。