笔迹独体字搭配特征出现率的统计分析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第 14期
王帅帅 :笔迹独体字搭配特征出现率的统计分析
·97·
笔迹独体字搭配特征出现率的统计分析
王帅帅
(中国刑警学院,辽宁 沈阳 110035)
摘要:笔迹特征出现率在笔迹检验中直接影响笔迹特征的价值。独体字的搭配特征是笔迹中可以进行客观测量的一类特征,对独体字 搭配特征出现率的量化可以转化为对具体特征数据的正态分析。通过小样本实验对不同结构类型及笔画关系的独体字笔画进行搭配 关系的统计分析,获知其出现率的量化方法及 搭 配 特 征 的 分 布 区 间,推 动 笔 迹 量 化 检 验 的 发 展,同 时 为 传 统 笔 迹 检 验 鉴 定 提 供 价 值 参 考。 关键词:笔迹;独体字;搭配特征;量化;特征出现率 中图分类号:D918.92 文献标识码:A 文章编号:1008-021X(2018)14-0097-03
传统笔迹检验主要依靠专家经验来完成,在证明力方面收 到一定质疑,如何提高笔迹检验鉴定的客观性和科学性也是笔 迹检验领域现阶段亟需解决的难题。目前,DNA鉴定技术已经 可以较好地使用概率表达其检验鉴定的可信度,在笔迹量化检 验鉴定中,笔迹特征出现率的量化一直以来都是人们的关注重 点。本文借助计算机软件和数理统计学相关方法,通过小样本 实验,在客观精确测量独体字笔画搭配特征数据的基础上对相 关数据进行统计分析,制定出对应的出现率量化方法。
图 5 “厂”字折线连接笔画的离散特征
3.3 独体字搭配特征出现率量化实验结果
使用 SPSS软件对获取的实验数据进行正态性检验,对符 合正态分布的特征通过计算置信区间来获得出现率,本实验分 别计算 95%和 80%置信区间;对于不符合正态分布的特征使用 百分位法计算概率分布区间,本文计算 80%的概率分布区间。 3.3.1 离散关系搭配特征实验结果
3 实验研究 3.1 设计并收集实验样本
以常用汉字为研 究 对 象,为 保 证 实 验 样 本 的 真 实 性,设 计 50个常用汉字为实验样本。组织 90人为样本收集对象在标准 A4打印纸上书写实验样本,样本的书写一律使用中性笔坐姿书 写,并以纸张为衬垫物,正常速度书写。
3.2 笔迹特征数据的提取
1 独体字的搭配特征
独体字是以笔画为直接单位构成的汉字。独体字的搭配 位置关系主 要 是 笔 画 交 接 部 位 和 相 邻 笔 画 间 的 高 低、远 近 关 系。根据汉字中笔画之间的位置关系,将独体字的搭配位置关 系分为以下三种:离散关系,交叉关系,连接关系。
2 数据统计分析方法 2.1 正态性检验
离散关系的搭配特征主要表现在笔画之间空间距离的远 近。本实验研究中选择“二”和“三”作为研究对象,“二”字需 测量两横之间距离,如图 1所示;“三”字需分别测量相邻两横 笔之间的距离,如图 2所示。 3.2.2.2 交叉关系搭配特征数据的提取
交叉关系搭配特征,需要对笔画中交叉点搭配位置进行研 究,测量交叉点两 侧 笔 画 的 长 度,以 其 比 值 为 数 据。 本 实 验 以 “十”字为研究对象,如图 3所示。
2.2 百分位法
如果将一组 数 据 从 小 到 大 排 序,并 计 算 相 应 的 累 计 百 分 位,则某一百分位所对应数据的值就称为这一百分位的百分位 数。可表示为:一组 n个观测值按数值大小排列。处于 p%位 置的值称为第 p百分位数。在对数据进行处理时,先进行正态 性检验,如果符合 正 态 分 布,则 使 用 置 信 区 间 的 方 式 获 得 特 征 出现率分布;若不符合正态分布,则使用百分位法,获得特征出 现率分布区间。
图 4 “厂”字搭配特征
收稿日期:2018-05-12 基金项目:中国刑事警察学院研究生创新能力提升重点项目,项目编号:2017jkf030 作者简介:王帅帅(1992—),河南洛阳人,研究生,公安技术专业文件检验方向。
·98·
山 东 化 工 SHANDONGCHEMICALINDUSTRY 2018年第 47卷
正态性检验是对判断一个总体是否符合正态分布进行假 设检验,是一类特殊的拟合优度假设检验。进行正态假设检的 方法很多,一般根据检验总体的分布特性和数据量来选择最佳 的检验方法,本实验研究最佳的正态性检验方法 k-s检验,可 借助 SPSS软件进行检验。当检验结果的显著性值大于 0.05 时,即符合正态分布。
对于“二”字,以 两 横 之 间 距 离 为 统 计 量 进 行 分 析;对 于 “三”字以第一、二横笔间距与第二、三横笔间距的比值为统计 量。正态性检验结果如表 1和图 6、图 7。
表 1 离散关系特征单样本 k-s检验结果
单一样本 Kolmogorov-Smirnov检定
“二Байду номын сангаас字搭配特征 “三”字搭配特征
3.2.1 实验对象的选择 根据独体字的搭配特征类型,在样本常用汉字中对每个搭
配类型选取具有代表性的单字作为实验数据提取和出现率统 计分析的对象。离散关系选择“二”和“三”为实验对象,交叉关
系选择”十“字为实验对象,连接关系中“T”形关系以“下”为研 究对象,“┣”形关系以“正”为研究对象,折线连接以“厂”为研 究对象。 3.2.2 具体特征数据的提取 3.2.2.1 离散关系搭配特征数据的提取
图 1 “二”字搭配特征
图 2 “二”字搭配特征
图 3 “十”字搭配特征 3.2.2.3 连接关系搭配特征数据的提取
连接关系搭配特征有“T”形连接、“┣”形连接和折线连接 三种,“T”形连接和"┣"形连接特征数据的提取方式和交叉关 系相似。由于折线 连 接 在 书 写 时 常 被 写 成 “T”形 连 接 或 “┣ ” 形连接,或者离散 关 系 搭 配 的 情 况,需 要 对 三 种 情 况 分 别 进 行 统计分析。如图 4和图 5所示。
N
84
87
平均数 常态参数 a,b
标准偏差
1.7923 0.46017
0.8937 0.22341
渐近显著性 (双尾)
0.200c,d
0.200c,d
a.检定分配是常态的,b.从资料计算,c.Lilliefors显著更正,d. 这是 true显著的下限。
王帅帅 :笔迹独体字搭配特征出现率的统计分析
·97·
笔迹独体字搭配特征出现率的统计分析
王帅帅
(中国刑警学院,辽宁 沈阳 110035)
摘要:笔迹特征出现率在笔迹检验中直接影响笔迹特征的价值。独体字的搭配特征是笔迹中可以进行客观测量的一类特征,对独体字 搭配特征出现率的量化可以转化为对具体特征数据的正态分析。通过小样本实验对不同结构类型及笔画关系的独体字笔画进行搭配 关系的统计分析,获知其出现率的量化方法及 搭 配 特 征 的 分 布 区 间,推 动 笔 迹 量 化 检 验 的 发 展,同 时 为 传 统 笔 迹 检 验 鉴 定 提 供 价 值 参 考。 关键词:笔迹;独体字;搭配特征;量化;特征出现率 中图分类号:D918.92 文献标识码:A 文章编号:1008-021X(2018)14-0097-03
传统笔迹检验主要依靠专家经验来完成,在证明力方面收 到一定质疑,如何提高笔迹检验鉴定的客观性和科学性也是笔 迹检验领域现阶段亟需解决的难题。目前,DNA鉴定技术已经 可以较好地使用概率表达其检验鉴定的可信度,在笔迹量化检 验鉴定中,笔迹特征出现率的量化一直以来都是人们的关注重 点。本文借助计算机软件和数理统计学相关方法,通过小样本 实验,在客观精确测量独体字笔画搭配特征数据的基础上对相 关数据进行统计分析,制定出对应的出现率量化方法。
图 5 “厂”字折线连接笔画的离散特征
3.3 独体字搭配特征出现率量化实验结果
使用 SPSS软件对获取的实验数据进行正态性检验,对符 合正态分布的特征通过计算置信区间来获得出现率,本实验分 别计算 95%和 80%置信区间;对于不符合正态分布的特征使用 百分位法计算概率分布区间,本文计算 80%的概率分布区间。 3.3.1 离散关系搭配特征实验结果
3 实验研究 3.1 设计并收集实验样本
以常用汉字为研 究 对 象,为 保 证 实 验 样 本 的 真 实 性,设 计 50个常用汉字为实验样本。组织 90人为样本收集对象在标准 A4打印纸上书写实验样本,样本的书写一律使用中性笔坐姿书 写,并以纸张为衬垫物,正常速度书写。
3.2 笔迹特征数据的提取
1 独体字的搭配特征
独体字是以笔画为直接单位构成的汉字。独体字的搭配 位置关系主 要 是 笔 画 交 接 部 位 和 相 邻 笔 画 间 的 高 低、远 近 关 系。根据汉字中笔画之间的位置关系,将独体字的搭配位置关 系分为以下三种:离散关系,交叉关系,连接关系。
2 数据统计分析方法 2.1 正态性检验
离散关系的搭配特征主要表现在笔画之间空间距离的远 近。本实验研究中选择“二”和“三”作为研究对象,“二”字需 测量两横之间距离,如图 1所示;“三”字需分别测量相邻两横 笔之间的距离,如图 2所示。 3.2.2.2 交叉关系搭配特征数据的提取
交叉关系搭配特征,需要对笔画中交叉点搭配位置进行研 究,测量交叉点两 侧 笔 画 的 长 度,以 其 比 值 为 数 据。 本 实 验 以 “十”字为研究对象,如图 3所示。
2.2 百分位法
如果将一组 数 据 从 小 到 大 排 序,并 计 算 相 应 的 累 计 百 分 位,则某一百分位所对应数据的值就称为这一百分位的百分位 数。可表示为:一组 n个观测值按数值大小排列。处于 p%位 置的值称为第 p百分位数。在对数据进行处理时,先进行正态 性检验,如果符合 正 态 分 布,则 使 用 置 信 区 间 的 方 式 获 得 特 征 出现率分布;若不符合正态分布,则使用百分位法,获得特征出 现率分布区间。
图 4 “厂”字搭配特征
收稿日期:2018-05-12 基金项目:中国刑事警察学院研究生创新能力提升重点项目,项目编号:2017jkf030 作者简介:王帅帅(1992—),河南洛阳人,研究生,公安技术专业文件检验方向。
·98·
山 东 化 工 SHANDONGCHEMICALINDUSTRY 2018年第 47卷
正态性检验是对判断一个总体是否符合正态分布进行假 设检验,是一类特殊的拟合优度假设检验。进行正态假设检的 方法很多,一般根据检验总体的分布特性和数据量来选择最佳 的检验方法,本实验研究最佳的正态性检验方法 k-s检验,可 借助 SPSS软件进行检验。当检验结果的显著性值大于 0.05 时,即符合正态分布。
对于“二”字,以 两 横 之 间 距 离 为 统 计 量 进 行 分 析;对 于 “三”字以第一、二横笔间距与第二、三横笔间距的比值为统计 量。正态性检验结果如表 1和图 6、图 7。
表 1 离散关系特征单样本 k-s检验结果
单一样本 Kolmogorov-Smirnov检定
“二Байду номын сангаас字搭配特征 “三”字搭配特征
3.2.1 实验对象的选择 根据独体字的搭配特征类型,在样本常用汉字中对每个搭
配类型选取具有代表性的单字作为实验数据提取和出现率统 计分析的对象。离散关系选择“二”和“三”为实验对象,交叉关
系选择”十“字为实验对象,连接关系中“T”形关系以“下”为研 究对象,“┣”形关系以“正”为研究对象,折线连接以“厂”为研 究对象。 3.2.2 具体特征数据的提取 3.2.2.1 离散关系搭配特征数据的提取
图 1 “二”字搭配特征
图 2 “二”字搭配特征
图 3 “十”字搭配特征 3.2.2.3 连接关系搭配特征数据的提取
连接关系搭配特征有“T”形连接、“┣”形连接和折线连接 三种,“T”形连接和"┣"形连接特征数据的提取方式和交叉关 系相似。由于折线 连 接 在 书 写 时 常 被 写 成 “T”形 连 接 或 “┣ ” 形连接,或者离散 关 系 搭 配 的 情 况,需 要 对 三 种 情 况 分 别 进 行 统计分析。如图 4和图 5所示。
N
84
87
平均数 常态参数 a,b
标准偏差
1.7923 0.46017
0.8937 0.22341
渐近显著性 (双尾)
0.200c,d
0.200c,d
a.检定分配是常态的,b.从资料计算,c.Lilliefors显著更正,d. 这是 true显著的下限。