误差分析下的居民出行抽样调查结论可靠性研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
误差分析下的居民出行抽样调查结论可靠性研究
石飞;王宇
【摘要】Resident trip survey is one of the most important survey categories of urban transportation planning, which is mainly conducted via questionnaires, household and sampling surveys at present, whose sampling rate can directly affect the precision or the size of error when arriving at the conclusions of the surveys. This paper firstly introduced the concepts and methods relating to error analysis, such as absolute error, significant digits and error propagation etc., and established the reliability evaluation criteria. Based on the information and main conclusions of the resident trip survey in downtown area of Nanjing in 2011 and 2012, it analyzes the reliability of the data of average numbers and mode structures of resident trip. The results shows that:the key conclusions are not reliable under the current adopted sampling size and sampling rate to investigate resident trip characteristics, and it is difficult to reflect their respective approximate value, as well as to compare the magnitude of the data between different years;the survey sampling rate to meet the precision requirement should be as high as 9%. Finally it is pointed out that the recommended values of sampling rate in some guidelines are lack of scientific support.%居民出行调查是城市交通规划中最为重要的调查门类之一,当前主要通过问卷、入户和抽样的方式完成,而抽样率直接影响调查结论的精度或误差大小.首先介绍了与误差分析相关的概念和方法,如绝对误差、有效数字和误差传递等,并建立了可靠性评判标准.然后基于南京市江南八区2011年和2012年的
居民出行调查信息及主要结论,分析人均出行次数和居民出行方式结构数据的可靠性.结论显示:就目前采纳的样本量和抽样率调查居民出行特征所得到的关键结论并不可靠,难以反映各自的近似准确值,也难以比较不同年份的数据大小关系;指出满足精度要求的调查抽样率应高达9%.最后指出相关导则中的抽样率推荐值缺乏科学性.【期刊名称】《交通运输系统工程与信息》
【年(卷),期】2016(016)006
【总页数】6页(P222-227)
【关键词】城市交通;抽样率;误差;居民出行调查;可靠性
【作者】石飞;王宇
【作者单位】南京大学建筑与城市规划学院,南京210093;南京大学建筑与城市规划学院,南京210093
【正文语种】中文
【中图分类】U491.1
测量值与真实值之间的差异称为误差,通常设为ε.由于仪器、实验条件、环境等因素的限制,测量不可能无限精确,测量值与客观存在的真实值之间总会存在着一定的差异.测量有直接的,也有间接的.因此误差也有直接和间接之分.误差是不可避免的,但可通过增加调查样本量减小.
对于城市交通领域的各项交通调查而言,大量存在着调查误差.如在居民出行调查(或OD调查)中,会问询并记录被调查者的基本信息(如年龄、性别、职业等)、每日出行信息(如出行次数、出行方式、出行目的等).在一张完整调查表中事实上集中了大量被调查信息,或称观测值,这些观测值由于样本量的选取而不
可避免产生误差.需要予以重视的是,目前国内多地的居民出行调查样本量和抽样
率选取各异,那么根据一定样本量得到的结论是否可靠?据此可引出居民出行抽样调查结论可靠性这一术语,意指抽样调查结论的数值“满足科学性定义和分析过程的准确程度”,简单说来即“可被信赖的程度”.可靠性的评判标准则可源自误差
分析理论.
下文将首先简要介绍与误差分析相关的概念、方法及评判标准,然后结合南京市2011年和2012年居民出行调查的主要结论,评判其统计数据合理性.
本节将首先介绍与可靠性评价相关的误差基本概念、有效数字、误差传递,进而提出适用于本文、基于误差分析的居民出行抽样调查结论可靠性的评价方法.
1.1 绝对误差与抽样率
通常,准确值x与其近似值x*之差称为近似值x*的绝对误差.在数值计算中,记为,简记为e*.估计绝对误差的上界,那么叫做近似数x*的绝对误差限,简称误差限,可简记为ε*.如:若取π*=3.14为π=3.141 59…的近似值,则,于是可作为π的绝对误差限.有了绝对误差限就可以知道精确值π的范围:π=3.14±0.002.
绝对误差与抽样率关系紧密.不难理解:抽样率越高,误差越小,这里的误差既可
是绝对误差,也可是相对误差.笔者曾经撰文研究居民出行调查的抽样率模型[1-2],得到
式中:f为抽样率;N为总体;d为误差限;uα是标准正态分布的双侧α分位数,与置信度有关,本文取95%的置信度,uα取1.96;S2为总体方差为第h层的总体方差;Wh表示层权为第h层单位的总数.
式(1)为简单随机抽样方法对应的抽样率模型,式(2)则对应于分层抽样方法的抽样
率模型.显然,两者的关键区别在于分层抽样中的,若各层方差相同,也即无需再
分层,则式(2)可简化为式(1),或称式(1)是式(2)的一个特例.
相反的,若已知设计样本量或设计抽样率,则可根据式(1)推算绝对误差d,公式
为
式中:s为标准差.
1.2 有效数字与绝对误差
通常,把测量结果中能够反映被测量大小的带有最后一位存疑数字的全部数字叫有效数字.当保留n位有效数字时,若第n+1位数字≤4就舍掉;若≥6时,则第n
位数字进1;若=5则需分情况另行讨论.此外,由于最后一位有效数字为存疑数字,是不可靠的,因此其本身带有误差,一般认为基于有效数字的角度,数字最小刻度的1/2即为自带绝对误差.
在居民出行调查中,最重要的两个结论为:人均出行次数和居民出行方式结构.前
者为数字形式,后者则为一系列百分比的向量数据.为了显示不同年份尤其是相邻
年份间同一计量指标的区别(这些区别很有可能会在0.01的数量级上),通常要
求人均出行次数的有效数字能够达到小数点后两位(如2.74),要求出行方式比
重的有效数字(非百分比)能够达到小数点后三位(如0.056).因此,前者对应
的自带绝对误差(即最小刻度的1/2)为0.005,后者则为0.000 5.
1.3 统计过程与误差传递
任何测量或调查活动结束后必然有大量的统计分析工作.有的统计过程较为简单,
但也有较为复杂的统计过程.对于后者,则必须分析误差传递.误差的传递来源于根
据直接测量值计算间接测量值的过程.由于直接测量值存在误差,因而在加减乘除
及更为复杂运算时,各直接测量值误差会不同程度的导致间接测量值也产生误差.
间接测量值的绝对误差公式为[3]
式中:△y为间接测量值的绝对误差;△xi为直接测量值xi的绝对误差为误差传递
系数.
1.4 可靠性评判标准
如前所述,抽样调查结论数值的可靠性意指“满足科学性定义和分析过程的数值准
确程度”.依据以上分析,存在根据抽样率推算的计量指标绝对误差d(或误差传递后间接测量值的绝对误差△y),以及该指标的自带绝对误差ε,可根据两者大小关系判定抽样调查结论数值的可靠性.易知:d≤ε时,计量指标可靠;d>ε时,计量指标可靠性不足.
通常情况下,可以根据两个误差(d和ε)的相对大小关系进一步深化如“比较可靠”、“可靠”、“很可靠”等的判定规则.但由于数值自带绝对误差非连续数字(如2.74的自带绝对误差为0.005;2.7的自带绝对误差为0.05),对可靠性的评判显然遵循“0-1法则”,即理论上应只有“可靠”和“不可靠”两个选项.但为了突出某些较为极端不可靠的情况(如d>10ε),补充了判定规则,对于可靠的情况,则无需再细化.修改后的规则如下:
(1)当d≤ε时,计量指标可靠、数值中各数字均科学有效;
(2)当5ε≥d>ε时,计量指标可靠性不足;
(3)当10ε≥d>5ε时,计量指标可靠性严重不足;
(4)当d>10ε,即实际误差大于等于10倍自带误差时,原数值最后一位有效数字完全没有意义,必须删除,此时可称数值错误或失真.
另一方面,可针对不同类型的规划编制要求,通过增减有效数字来明确自带绝对误差,进而确定各类规划项目的抽样率和样本量.
(1)对于绝大多数中观和微观类交通规划项目,要求人均出行次数的有效数字应能够达到小数点后两位(如2.74),要求出行方式比重的有效数字(非百分比)能够达到小数点后三位(如0.056或5.6 %);
(2)对于宏观类交通规划和绝大多数城市规划类项目,人均出行次数的有效数字可下降为2位数(如2.7),出行方式比重的有效数字(非百分比)可下降到小数点后两位(如0.06或6%).
人均出行次数是居民出行调查中最容易获取的指标,也是表征当前和预测未来全天
出行量的重要基础数据.根据《南京市交通发展年报》2012和2013版中所反映的2011年和2012年居民出行调查结论,人均出行次数分别为2.76人次/日和2.74人次/日.
如前所述,为了显示不同年份尤其是相邻年份间同一计量指标的区别(这些区别很有可能会在0.01的数量级上),通常要求人均出行次数的有效数字能够达到小数
点后两位(如2.74),因此其自带绝对误差(即最小刻度的1/2)为0.005.接下来,需要了解根据实际抽样率得到的绝对误差d.根据式(3)及2011年和2012年
居民出行调查数据(表1),可知d分别为0.024 99和0.024 71,显然均大于
0.005,这表明人均出行次数这一指标的可靠性严重不足.事实上,抽样率仅为1‰~2‰的居民出行调查很难获取可靠性强的统计结论.
进一步修正现有数据.0.024 99和0.024 71可近似为0.025,是最小刻度的1/2,即0.005的近5倍,因此需要修正现有数据2.76±0.025和2.74± 0.025.科学取
值应为绝对误差的偶数倍,即0.025的偶数倍或0.05的倍数,因此,2011年和2012年修正后的人均出行次数Xˆ应分别为2.75和2.75人次/日,显然,按照实
际抽样率和调查样本量,无法区分相邻年份人均日出行次数的大小变化,这与交通年报上显示的有0.02人次/日差异的结论截然不同.从另一个角度,即使是
2.76±0.025和2.74±0.025,两个数值区间也有约60%(=(2d-0.02)/2d)的重合区,显然难以说明两者的数值大小关系.
居民出行方式结构是居民出行调查中相对容易获取的指标,也是表征当前和预测未来出行方式结构的重要基础数据.《南京市交通发展年报》2012和2013版中所反映的2011年和2012年居民出行调查结论如表2所示.
如前所述,为了显示不同年份尤其是相邻年份间同一计量指标的区别,通常要求出行方式比重的有效数字(非百分比)能够达到小数点后三位(如0.056).因此,
对应的自带绝对误差(即最小刻度的1/2)为0.000 5.下面以轨道交通出行比重为
例分析结论可靠性.
首先,应形成如下共识:依据居民出行调查统计分析得到的轨道交通出行方式结构X%,应等价于人日均轨道交通出行次数Xr除以人日均全方式出行次数X,即
Xr/X.然后,基于上述认识,一方面可以沿用式(3)计算人日均轨道交通出行次数的标准方差sr和绝对误差dr,另一方面则需考虑误差传递并根据式(4)进一步计算轨道交通出行比重的绝对误差Dr%.
经计算,可知两个年份的轨道交通出行比例分别为0.051±0.004 005和
0.056±0.004 415,其绝对误差均大于0.000 5,可靠性严重不足.若简化两个绝对误差为0.004,考虑到科学取值应为绝对误差的偶数倍,即0.004的偶数倍或0.008的倍数,则2011年和2012年修正后的轨道交通出行比例应分别为0.048和0.056或4.8%和5.6%.显然,交通年报上显示的有0.5%差异并不准确.从另一个角度,即便是0.051±0.004和0.056±0.004,两个数值区间也有近
40%(=(2Dr%-0.005)/2Dr%)的重合区,显然也难以充分说明相邻年份两数值的大小关系.
根据上述分析可知,就目前采纳的样本量和抽样率调查居民出行特征所得到的关键结论并不可靠,难以反映各自准确值(如上文中修正的轨道交通出行比重分别为4.8%和5.6%),也难以比较不同年份的数据大小关系(如上文中人均出行次数2.76±0.025和2.74±0.025有高达60%的重合区域).
对观测误差缺少分析和当前普遍希望节省调查资金是导致结论不科学的重要原因[4].针对前者,交通规划师较缺乏对于现实中误差存在的深刻认识,不了解误差与抽样的关系,各类教材也并未讲清楚究竟应当采纳怎样的抽样率,引用西方的推荐抽样率也未能说明其来源和推演过程.对于后者,不难理解主管部门和规划咨询方大都希望减小工作量.当然,正因为没有科学的误差分析和抽样率模型的指引,也会导致实际操作中的简化工作和最终不科学的调查结论.
基于上文的数据,根据式(1)计算了符合以最小刻度的1/2为绝对误差的简单随机
抽样率.针对人均出行次数,绝对误差限设定为0.005,则推算理论上的调查抽样
率约为5%,样本量约为18万人;针对出行方式结构,绝对误差限设定为0.000 5,则推算理论上的调查抽样率约为9%,样本量约为33万人.两者取其较高值,
则科学的抽样率应大致为9%.
当然,如若退一步,即要求人均出行次数的有效数字达到小数点后一位(如2.7),要求出行方式比重的有效数字(非百分比)能够达到小数点后两位(如0.06),
则亦可计算理论上的抽样率,分别为1‰和1.5‰.显然,当前实际实行的抽样率(约1.6‰)均满足这一要求,但带来的问题是由于精度下降将无法区分相邻两年或多年的人均出行次数及出行方式比重大小.
毫无疑问,居民出行调查是城市交通规划中最为重要的调查门类,也是诸多特大城市的例行调查项目之一,并进而指导交通需求预测和交通设施规划[5].调查结论中
如人均出行次数、居民出行方式结构等同时也是城市总体规划、控制性详细规划等法定规划中的重要内容.因此,必须强调居民出行调查的科学性.
住房城乡建设部于2014年印发了《城市综合交通体系规划交通调查导则》,其中明确规定:在城市综合交通体系规划中,100万人口以上城市的最小抽样率不低
于1%,50万~100万人口城市不低于2%,20万~50万人口城市不低于3%,20万人口以下城市不低于5%.但未给出依据或说明.2011年修订的《江苏省城市
综合交通规划导则》给出了类似的抽样率,但也仅仅是寥寥数字不加说明.笔者认为,两本导则中的推荐抽样率与本文的推算结果相去甚远,显示出当前业内交通调查的指导性文件仍缺乏科学性.2016年正式实施的北京市地方标准《城市交通综合调查技术规程》更是回避了抽样率问题.
尽管公交IC卡、出租车GPS数据、手机信令数据等大数据资源为我们开拓了调查思路,但由于上述数据的交通方式单一、常住/暂住人口难以区分、数据无法覆盖
全方式出行等缺陷,依靠信息等技术获取的大数据难以在短期内替代抽样调查[6]. 多位政界和业界专家均指出:城市交通规划是当前城市规划领域中最为严谨和科学的规划门类.但显然,交通规划和研究的科学性仍可更强,我们还可以做得更好.
【相关文献】
[1]石飞,陆振波.基于居住地分层的居民出行调查方法[J].吉林大学学报(工学版),2009,39(4):906-909. [SHI F,LU Z B.Resident trip survey based on
residentialareastratification[J].JournalofJilin University(Engineering and Technology Edition),2009, 39(4):906-909.]
[2]石飞,陆建,王炜,等.居民出行调查抽样率模型[J].交通运输工程学报,2004,4(4):72-75.[SHI F,LU J, WANG W,et al.Sampling methods of resident trip investigation[J].Journal of Traffic and Transportation Engineering,2004,4(4):72-75.]
[3]冯士雍,施锡铨.抽样调查理论、方法与实践[M].上海:上海科学技术出版社,1996.[FENG S Y,SHI X Q. The theory,method and practice of sampling survey[M]. Shanghai:Shanghai Science and Technology Press, 1996.]
[4]崔洪军,申晓静,刘宇,等.基于交通区数目抽样率确定新方法[J].武汉理工大学学报,2012,34(6):67-70. [CUI H J,SHEN X J,LIU Y,et al.A new method to determine the sampling rate of OD survey based on the number of traffic area[J].Journal of Wuhan University of Technology,2012,34(6):67-70.]
[5]杨东援,段征宇.大数据背景下的城市交通理论变革[J].城市规划学刊,2015(4):120.[YANG D Y, DUAN Z Y.The changes of urban traffic theory under the background of big data[J].Urban Planning Forum, 2015(4):120.]
[6]吴子啸,付凌峰.城市综合交通调查的规范与创新[J].城市交通,2016,14(2):11-16.[WU Z X,FU L F. Regulation and innovation of urban comprehensive transportation survey[J].Urban Transport of China, 2016,14(2):11-16.]。