统计数据质量及其评估方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

注 $ 本文系湖北省统计科研计划重点项目
!"
统计与决策
!"#"$
工作视点 345367489:;:<5
述的准确性 ! 相关性和操作的简便性也 可以用这一形式来衡量其好坏 " 数据正确性的比率评估 " 设错误数 据 的 数 量 为 !" # 全 部 数 据 的 数 量 为 ! # 则 可 用 ! #"$!" % ! 来 评 估 数 据 的 正 确 性 " 而 在 实 际 应 用 中 #要 注 意 使 用 一 套 明 确 的标准来规范如何确定数据单位即是 以一组数据还是以一个数字作为计量 错 误 数 据 的 单 位 #以 及 如 何 确 定 数 据 是 错误的 " 数据完整性的比率评估 " 数据的完 整性可以从许多角度来研究 # 可以是数 据概念 ! 定义的完整性 # 延续时间上的完 整性和空间范围的完整性 # 因此就产生 许多不同的评估方法 " 就数据概念的完 整性而言 # 数据完整性的定义就是指数 据系统中所包含的概念 ! 定义的广度 # 即 这些概念 ! 定义没有被数据系统遗漏的 程度 " 而数据在延续时间上的完整性可 考虑用缺失值在数据序列中的作用来反 映 " 关于数据在空间范围的完整性 # 可以 理解为系统中的数据具有空间范围上的 广度 " 例如 # 假设某数列必须至少包含我 国 &’ 个地区的数据才能满足研究要求 # 而实际上它只有我国 (& 个地区的数据 # 则该数列是不完整的 # 完整性较差 " 以上 三种完整性都可以用比率来衡量 # 设数 据系统中不完整项的个数为 !)# 总的项 目 数 为 ! # 则 完 整 性 可 通 过 " *)$!) % ! 来 衡量 " 数据一致性的比率评估 " 数据的一 致性也可以从很多角度考察 # 可以是指 数据在数据系统内部 ! 前后期之间的一 致性 # 也可以是指与其他数据来源或统 计框架之间的一致性 " 设某种一致性中 # 不一致数据的项数为 !)#总的数据项为 !# 则可用 #*)$!) % ! 来衡量数据的一致性 " (+ 最大最小值法 " 最大最小值法适 用于衡量数据质量中需要对多种指标进 行加总的维度 # 评估的关键是要找出各 类指标中的最大值或最小值 " 最小值法 就是对某一维度规定一个不高于其衡量 指标最小值 $ 标准化为 ’ 到 ) 之间 % 的下 限 # 是一种保守的评估方法 " 最大值法适 用于可以进行不太保守的评估 # 而单个 指标值可以用比率表示 " 例如 # 适当的数 据量和可信度可以用最小值法来评估# 而数据的时效性和可获取性这两个维度 可用最大值法 " 可信度的最小值评估 " 可信度是指 数据被认为真实 ! 可靠的程度 # 从某些角 度来说 # 它反映了评估者对数据来源的 可信程度 ! 与通用标准对照的可信度以 及根据经验值判断的可信度的评估 " 以 上三个指标都可以用一个 ’ 到 ) 之间的 数来表示 # 从而对于数据总体上的可信 度就可以用三个指标值中的最小值来衡 量 " 例如 # 假设数据来源的可信度为 ’+, # 与通用标准对照的可信度为 ’+- # 而根据 经验值估算的可信度为 ’+. # 则该数据总 的可信度为 ’+/" 正如前面所述 # 最小值 法是一种保守的评估方法 # 因此也可考 虑用三个指标值的加权平均来评估数据 的可信度 " 适当数据量的最小值评估 " 适当的 数据量是指系统中数据的个数既不太少 也不过多 " 常用的评估方法是先计算两 个指标值 # 一个是实际数据的数量与研 究所需数据数量的比值 & 另一个是所需 要的数据量与能够提供的数据量的比 值 # 然后取这两个比值中数值最小的一 个" 数据时效性的最大值评估 " 数据的 时效性反映了数据对当前研究而言及时 的程度 " 设数据被系统接收的第一时间 为 0)# 数 据 的 录 入 时 间 为 0(# 数 据 到 达 用 户端的时间为 0&# 则用 0’#0)10&$0( 表示数 据的流通时间# 用 0 表示数据保持有效 性 的 时 间 的 长 短 # 计 算 $ *)$0’ % 0 # 然 后 在 ’ 和 $ 间取两者中的最大值来评估数据 的时效性 " 数据可获取性的最大值评估 " 数据 的可获取性反映了用户获取数据的难易 程度 " 在此介绍数据可获取性的最大值 评估侧重于时间上的可获取性 " 设 0) 为 用户要求获取数据到用户获得数据的时 间 间 隔 #0( 为 用 户 要 求 获 取 数 据 到 数 据 失 效 的 时 间 间 隔 # 令 %*)$0) % 0(# 在 ’ 与 % 之间取两者中的最大值来评估数据的可 获取性 " 此外也可以从获取数据的渠道 来反映数据的可获取性 # 包括数据获取 渠道的机构 ! 各渠道间的相互关系以及 渠道的长度和广度 " 在评估中 # 如果获取 数据的时间 ! 机构以及渠道的长度广度 同等重要 # 那么可分别对这三项进行数 据可获取性的评估 # 最后采用最小值法 作综合评估 " &+ 加 权 平 均 法 " 对 于 复 杂 的 多 元 维 度的评估 # 可采用对维度中各类指标进 行加权平均的方法 # 与最大最小值法相 比 # 加权平均充分考虑到了各类指标的 影响 " 如果企业可以区分和量化衡量某 一维度的每个指标的重要性 # 加权平均 就是比较合适的评估方法 " 为了确保评 估值是标准化的 # 每个指标的权数必须 介 于 ’ 和 ) 之 间 # 并 且 它 们 的 和 等 于 )" 如果企业能够确定出衡量数据可信度各 指标的重要程度 # 加权平均也可用于前 面提到的数据可信度的评估 " 需注意的是 # 企业在进行数据质量 评估时 # 可同时采用主观评价和客观评 估两种方法 " 如果评估结果一致 # 则说明 评估较准确 & 如果不一致 # 则可以通过对 结果进行比较 # 找出两种方法评估结果 的差异以及产生差异的根本原因 # 采取 相应措施改善数据质量 " 三 ! 统计数据质量评ห้องสมุดไป่ตู้和管理体系 的基本框架 $一 %制 定 统 计 数 据 质 量 评 估 标 准 ! 强化数据质量管理意识 为了实施全面数据质量管理 # 我国 政府统计部门和行业管理部门应编制数 据质量管理手册 # 建立质量评估标准 # 为 加强统计数据监测和监管提供依据 " $二 %建 立 统 计 数 据 质 量 评 估 体 系 ! 重视对数据质量的全面 " 系统的评估 数据质量评估体系的内容是一个多 层次的概念 # 主要包括以下内容 ’ )+ 企 业 内 部 自 我 评 价 " 企 业 内 部 围 绕数据质量评估标准 # 通过与统计项目 负责人面谈 ! 与主要用户会谈 ! 查阅有关 文件资料等方式 # 对企业数据进行全面 评估并形成数据质量审计报告 # 递交行 业管理部门讨论 # 最后将讨论的意见和 质量改进方案反馈给各个具体项目负责 人 # 监督并按要求改进数据质量 " (+ 企 业 外 部 专 家 评 价 " 由 专 家 ! 学 者 ! 社会大众从数据质量标准和用户使 用的角度进行评价 # 分析存在的问题 # 并 提出相应改进措施 " &+ 引 进 国 际 数 据 质 量 认 证 标 准 体 系 " 主要是从数据调查的过程开始 # 进行 数据的质量管理与控制 " 其内容包括三 方面 ’ 一是提供基本调查数据的搜集过 程和调查方法 & 二是采用抽样检验方法 检查误差率 是 否 处 于 可 接 受 的 范 围 !有 没有系统误差等 & 三是定期开展数据质 量评估 # 提出改进的目标 # 使调查数据质 量管理工作保持相应的连续性 " 2+ 统 计 数 据 质 量 管 理 机 构 的 定 期 质 量检查 " 在主管部门和企业内部成立统 计数据质量评估工作小组 # 经常性地对 统计数据质量状况进行独立评估 # 并形 成评估报告 # 为加强和改进统计数据质 量提供坚实的组织保障 " $ 三 % 开展统计数据质量的量化分 析 ! 制定数据质量改进目标 通过建立一套数据质量调查和量化 指标评价体系 # 全面分析和评价数据的 质量状况 # 通过主观评价和客观评价方 法 # 对统计数据质量开展量化分析 # 根据 结果提出改进数据质量的具体目标 " !作者单位 % 中南财经政法大学信息学院 " " 责任编辑 % 亦 民 #
!"#"$
工作视点 &’(&)*’+,-.-/(
2006 年 第 2 期! 总 第 207 期 "
统计数据质量 及其 评估方法
!刘 洪
黄 燕
究的需要 " ! 四 " 客观性 " 数据的客观 # 公正和无 偏程度 " 在客观 # 公正的基础上收集统计 数据 " ! 五 " 可获取性 # 可获取性主要指用 户获取数据的便利程度 ! 这些数据及时 更新和修正的难易程度以及用户获得及 时的专业服务和技术支持的便利程度 " ! 六 " 有用性 # 数据的有益程度及它 的使用能为用户带来利益的程度 " 数据 所提供的信息是用户所关注的 # 感兴趣 的 ! 对用户来说是有价值的 " 有用性还包 括安全性即数据的使用权受到一定的限 制以确保数据保密性的程度 " ! 七 " 用户满意度 # 指数据在其来源 或内容方面所获得的用户的认可和肯 定 ! 所提供的数据被认为真实 # 可靠的程 度以及数据的量 # 规模能够满足当前研 究需要的程度 " 这一特性充分考虑了用 户的感受和意见 " ! 八 " 操作的简便性和可说明性 # 包 括数据易于操作的程度及应用与不同研 究的难易程度 % 数据能够用适当的语言 # 符号和单位来说明的程度 ! 以及所下定 义清晰明了的程度 % 数据能够被用户理 解掌握的难易程度等 " 以上八个方面都能够很好地反映统 计数据能否满足用户需求方面的特征! 充实了统计数据质量的内涵 " 二 ! 企业统计数据质量的评估方法 目前大多数企业统计数据质量的测 度都只局限于某些特殊的单项数据质量 的测度 ! 并且在数据质量管理中 ! 缺乏建 立可行性数据质量评价机制所必须的基 本原则 ! 为此 ! 我们在对企业统计数据质 量内涵分析的基础上 ! 根据我国企业的 实际情况 ! 提出以下关于企业数据质量 评估的方法 " 在数据质量评估中 ! 存在着来自数 据参与方 & 包括数据收集方 # 数据提供方 及用户 ’ 的主观评价以及关于数据质量 内涵各个方面的客观评估两方面内容 " ! 一 " 主观评价法 数据质量的主观评价反映了数据 参 与 方 的 要 求 和 感 受 !如 果 他 们 认 为 某 一数据质量不 高 !那 么 这 一 看 法 将 会 影 响他们对数据质量进行客观的评价 " 数 据参与方中的任何一方对数据的评价 都 难 以 摆 脱 其 自 身 观 点 的 局 限 !因 此 这 些关于数据质量的评价难以达到一致" 例 如 !在 实 际 中 存 在 着 数 据 提 供 方 评 价 其 数 据 的 提 供 是 及 时 的 最 新 的 !而 用 户 却否定这一评价 %或 者 !用 户 认 为 数 据 难以操作以 满 足 实 际 研 究 的 需 要 !而 数 据提供方却不同意这样的评价等情况" 目前还没有一个很好的能够综合平衡 各 方 评 价 的 方 法 !这 一 领 域 还 需 要 进 一 步的研究 " ! 二 " 客观评估法 客观评估是对数据质量内涵的各个 方面的客观测度 ! 包括与研究目标有关 和独立于研究目标两种原则 " 独立于研 究目标的评估原则是从一个不考虑当前 研究目标的具体要求 # 不考虑数据前后 期之间的联系的角度来反映数据质量 的 ! 这一原则可用于其他研究的数据质 量的评估 " 而与研究目标有关的评估原 则则要考虑机构的商业性规定 # 企业和 政府的规章 以 及 数 据 提 供 方 的 限 制 !并 且该原则用于某种特定的 # 前后期有联 系的数据质量的评估 " 企业在对数据质 量进行客观评估时 ! 应该遵循一套固定 的准则 ! 从而逐步建立能够满足自身需 求的评估机制 " 在数据质量评估中 ! 最难 的问题通常是准确地确定出能够反映企 业数据质量的一个维度或者一个维度的 几个侧面 ! 而有关这一问题已经在上述 数据质量内涵的分析中得到解决 " 常 用 的 客 观 评 估 方 法 有 比 率 法 #最 大最小值法以及加权平均法三种 " !" 比 率 法 " 比 率 法 是 指 用 期 望 值 与 总值的比率来反映企业数据质量某些方 面的好坏 " 然而大多数人喜欢测量例外 值 ! 此 时 可 以 考 虑 用 (!# 例 外 值 $ 总 值 )! 该指标是一个正指标 ! 当其等于或接近 于 ! 时 ! 表明所反映的情况好 % 当其等于 或接近于 % 时 ! 表明所反映的情况差 " 尽 管这两类指标都能够反映同样的情况! 不同的是用期望值与总值的比率有助于 纵向比较 ! 以反映数据质量某些方面的 改进 ! 而后者更方便计算和评估 " 许多传 统的衡量数据质量的指标如数据的正确 性 # 完整性及一致性常采用比率形式 ! 而 数据质量内涵所包括的其他维度诸如表 现代社会中信息已经成为生产力的 要素之一 ! 统计信息在决策中的作用越 来越大 ! 而科学的决策又依赖于准确可 靠的统计数据 " 随着质量观念的变化 ! 人 们对统计数据质量概念的认识也从狭义 向广义转变 ! 成为一个具有丰富内涵的 综合性概念 ! 要求从多维度的综合性角 度来衡量统计数据质量 " 因此 ! 重新定义 企业统计数据质量的概念 ! 确定企业统 计数据质量的评估方法 ! 是保证统计数 据质量 # 建立统计数据质量评价和管理 体系首先要解决的问题 " 一 ! 企业统计数据质量的内涵 统计数据可以视为一种统计产品! 而这一产品在信息化时代受到了更多的 关注 ! 其质量的概念也被赋予了更多的 内涵 " 传统的统计数据质量仅仅指其准 确性 ! 通常用统计估计中的误差来衡量 " 在市场经济条件下 ! 准确性已不再是衡 量统计数据质量的唯一标准 " 统计数据 既然作为一种统计产品 ! 其质量的定义 必须从用户的角度出发 ! 把统计数据所 提供的信息是否能满足用户的需求作为 首要考虑因素 ! 因此 ! 企业统计数据质量 就应该是一个具有丰富内涵的综合性概 念 " 统计数据质量不是一个绝对的 # 而是 相对的属性概念 ! 不同的用户在不同时 期对统计数据质量有不同的标准 " 我们 认为 ! 数据质量是指统计信息对用户需 求满足的程度或特性 ! 其内涵应包括以 下方面的内容 $ !一 "准 确 性 " 数 据 是 正 确 的 #可 靠 的 ! 能够充分反映现实情况程度 " 它是指 统计估算值与目标值之间的差异程度" 统计误差越小则准确性越高 " 数据的准 确性还包括表述的准确性即数据描述语 言简洁 # 准确的程度和表述的一致性即 数据在数据集内部 # 前后期之间以及与 其它主要数据来源 # 统计框架之间相互 一致的程度 " ! 二 " 时效性 # 数据对当前的研究而 言是最新的 " 时效性是统计数据能否满 足用户需求的重要特征 " 如果数据不能 在用户做出决策之前传递给用户 ! 那么 对用户来说 ! 数据是毫无意义的 " ! 三 " 完整性 # 数据无缺失的程度 ! 即 是否有足够的广度和深度来满足当前研
相关文档
最新文档