如何检验统计数据是否准确合理
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
如何检验统计数据是否准确合理
数据报表在统计完成后,或多或少会出现一些不准确或不合理的数据。
针对这些数据找出一套合理的检验方法则至关重要。
因为不准确或不合理的数据宁可不提供也不能让其产生错误的判断或决策。
如何检验统计数据是否准确合理,提出如下几种检验方法:
1.数据报表是否符合数据需求者的要求
在日常工作中,数据需求者对数据存在形式不甚了解,需要数据提供者按照他们的要求去挖掘,以达到两方在统计数据时的统一口径。
这一步往往是数据提供者根据日常工作积累提出一些统计过程中需要明确的数据项或统计条件等。
所以针对这种需要工作经验积累的在提问时要问的比较详细。
否则可能因为少了一个条件数据就要重新统计从而降低工作效率。
在提问时也需有针对性的提,提双方都需要的统计口径,当需求者对所提问模棱两可也须诱导他们给出正确的统计需求。
2.查询语句的逻辑要求是否正确
在需求弄清楚后,就要开始针对需求编写相关查询语句。
其中的语句逻辑性也是重要一环,一般的数据需求很少是单表查询,往往都是涉及几个表,或跨数据库,抑或跨服务器等,这样就要求对这些表进行关联。
表之间关联就是一种逻辑顺序。
根据每个表提供的某个具有唯一性的字段进行关联时就要检查这种逻辑顺序了。
关联好之后可以根据系统提供的查询语句执行过程进行查看。
检查这个执行过程是否是按照既定的要求进行关联的。
不能盲目的根据已存在的字段随意进行关联,那样查询出来结果固然有了,但是是否正确值得商榷。
此外当遇到一个查询语句的逻辑关系无法满足统计要求时,可尝试用临时表关联出正确的逻辑要求,而不能因为一个查询语句简便致使逻辑语句出现明显的错误。
3.查询的条件是否符合数据定义
表之间的逻辑顺序处理好之后,就要根据既存的数据定义对相关字段加条件限制,以达到筛选出正确的数据结果集。
根据已经存在的数据定义在编写查询语句时如果出现偏差,如某个(些)数据没统计进去,或不该出现的数据反而出现了。
这时就要检查条件是否都满足了数据定义的要求。
如果是,那么是不是对数据定义的个人理解出现了问题,或者在对这个数据进行定义时本身就有问题,有问题就要提出进行确认。
直到所写条件满足这个数据定义。
切不可为了完事而不顾数据统计需求,这样查询出来的数据根本没有任何意义。
4.数据对比
在完成了对数据的需求明确,逻辑清楚,条件正确等步骤之后,统计出的结果集是否就
是需求者所需数据,这里就有比较重要一步:数据对比。
数据对比有多种形式,下面列出几种常用的数据对比方法。
4.1往期数据对比
与以往数据进行对比,一般检查这个数据的百分比,例如成交率,完成率,接通率等。
商务部的客户成交率运用对比分析的方法我们可以得出其范围处于15%~25%之间,当某一时间段的成交率超出或低于这个范围,我们可以确定其为异常数据,从而查找产生异常的原因。
这些统计数据范围都是有据可循的,因此在进行对比时并非无凭无据,例如热线部成交率介于25%~45%之间,这些范围通常取几个月甚至一年12个月中其最大值和最小值作参考。
通过取样的方法对这些数据的整理然后得出相应阀值是有一定理论依据的。
此外如果涉及相关历史数据我们也可以进行分组对比,如增值部某几个月的销售业绩与去年这几个月的数据进行对比,根据每月的差值或者环比来进一步确定这几个月的销售数据是否正常,当差值或环比处于某个值之内,如高于或低于上月业绩的30%以内,可以判断业绩处于正常范围,不在此范围之内的就要向系统部反映是什么原因造成了这种异常数据。
也可以根据以往的数据走势,判断本月或本周的一个大概走势,相比上月或上周是增是减还是基本持平,这个需要查询人员有良好的图表作业能力,能够清楚的将当前的数据走势反映在图表上,以达到对比的目的。
具体操作方法可以向系统部提出具体数据对比的需求,将一些公司经常使用的报表的常用数据项作为检测参数,经过计算后超出正常范围内的数据予以警示。
往期数据对比虽然其准确性不高,但是可以根据与往期数据对比预估出当前数据的大概范围,低于或超出太多则这个数据就需要重新审视检查。
4.2当前数据对比
这个对比其实和往期没多大差别,只是有些数据在统计第一次后,可能会统计第二次或第三次。
这时候第一次的数据就可以作为一个参考。
如果之后统计的数据和第一次有出入,检查有出入的原因并予以更正。
在排除已知的各种因素后还是不能达到前后一致,那我们就认为这个数据是浮动变化的,比如每日下单数据。
这样的数据下次就不在对比范围之列了。
如果这些数据经过几次查询都能保持一致,那么认为这个数据在某个时间段内是固定。
下次统计时可以以某个时间段的统计数据为标准,其他关于这个数据的查询可以以此作为参考。
比如产品和原料的每月发货,当确定一次统计数据之后,其他与之相关联的数据需求基本可以确定了。
4.3系统平台数据对比
系统平台数据通常就是BRM,BIM系统里面存放的数据报表。
这些数据虽然都是从后台数据库中抓取以页面的形式显示出来的,但是其具体逻辑查询语句部分是不可知的。
因其使用范围广及正确性相对比较高,可以作为一般查询语句的对比对象。
比如热线部进线量,财务月报等。
根据其提供的报表样式以及部门确定的查询条件,可以编写出对应的查询语句以方便某些特殊需求。
需要注意的是当系统里的参数变化之后,本地的查询也要及时修改相关逻辑或查询条件,保证不会因为系统更新而还使用原始查询造成两者数据不一致。
4.4查询代码的对比
一些业务上的查询语句通常以存储过程的形式存放在后台数据库中,在提取业务上的相关数据,可对比参考存储过程中的相关查询语句。
以目的明确的查询形式显示出具体结果集。
这需要对相关的数据存储过程比较了解。
因为存储过程很多以变量形式存在,而不是具体的查询语句,而且一个存储过程往往涉及多个查询。
具体哪一个才是所需的对比对象,也需要对存储过程进行仔细阅读。
从上面的一些方法来看,数据的正确合理一般经过这三个阶段,前期的数据需求明确,中期数据编码清楚,后期有相关数据对比。
当然这些方法不一定都有效,可能还有更好的方法。
但作为日常数据查询检查可以作为参考。