港口水域海事安全风险分析法_陈兴伟
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
这其中还涉及到重要性这个参数 , 也称兴趣度 分数或是增益 , 它用于度量项集和规则 , 表征其重要 程度 。 当重要性值为 0 时 , 表示 A 和 B 之间没有任 何关联 ;当重要性值为正或者负 时 , 分别表 示当 A 发生时 , 则 B 发生的概率会上升或者下降[ 6] 。
定义挖掘结构中使用的度量 , 以及定义分析的最终 目标 。 2 .2 数据准备
根据问题的需要收集和选择事故数据 , 并在收 集数据的基础上完成事故数据库的构建和数据预处 理。 2 .3 数据挖掘
运用关联规则算法和挖掘工具对事故数据进行 分析 , 搜寻数据潜在的发生规则和重要信息 。 2 .4 结果分析及应用
关联规则分析是通过搜寻整个事故数据库以找
出同时出现的项 , 而这样可能会在数据中找出太多 的规则 , 需要使用支持度和置信度两个参数来约束 过多规则的产生 。数据挖掘的结果主要用规则 、项 集和依赖关系网络 3 种形式来表示 。 在规则选项页 中显示的每一行均表示一个关联规则 , 所显示规则 的置信度都大于其设定的最小阈值 , 其中概率表示 出现此规则结果的可能性 。 在项集选项页中显示的 每一行表示一个频繁项集 , 且支持度都大于预先设 定的最小阈值 。在依赖关系网络选项页中显示事故 类型与原因之间的整体关系图 , 其中的各个节点间 的箭头表示项之间有关联 , 箭头的方向表示规则中 项之间的关联 。
1 ຫໍສະໝຸດ Baidu联规则技术
1 .1 关联规则的定义
关联规则就是大量数据中项集之间的关联或者
是几种事物之间存在的因果关系 。 关联规则分析就
是在满足最小阈值的情况下找出其中蕴涵的规则或
者因果关系 。 关联规则中主要 有以下两个重 要参
数:
1)置信度 置信度 c , 它是条件概率 P(B A)。 即
Probabili ty(A B)=P(B A)=
1 .2 多维关联规则
在多维数据库的术语中 , 蕴涵式中的每个不同
的谓词称作维 。
假如事故原因和事故结果相关的信息存放在关
系数据库或数据仓库中 , 有“自然原因” 、“船员原因” 和“事故大类”这三个谓词 。根据其定义 , 这种数据
的存储是多维的 。而由这三谓词构成的蕴涵式为 :
自然原因(能见度不良)∧ 船员原因( 望疏忽)
事故大类(碰撞)
(3)
蕴涵式涉及两个或多个谓词的关联规则称为多
维关联规则[ 5] 。
2 关联规则分析实现步骤 :
图 1 描述了本文关联规则分析的基本过程和主 要步骤 :
图 1 数据挖掘流程图 Fig .1 T he f low cha rt of data mining
2 .1 定义问题 该步骤包括分析问题的需求 , 定义问题的范围 ,
摘 要 :海事的发生是由一系列原因导致的 , 通过对事故 各原因 与结果 之间的 关联性 进行分 析 , 找 出其发 生规律 , 这将 直接影响到海事安全管理的效率 。 将数据挖掘中关联规则技术应用到海事安 全风险因素 分析中 , 搜寻事故 诱 因与 结果的频繁项集和规则表达式来发现事故原因的潜在规律 , 为港口水域海事安全 管理工作提 供科学依 据 。 经 初步分析得出船员因素与事故的发生影响最大 , 且与碰撞事故的关联性最大 。 关键词 :水路运输 ;船舶事故 ;港口水域 ;海事安全 ;关联规则 ;数据挖掘 中图分类号 :U676 .1 文献标志码 :A
Abstract:M aritime accide nts are generally caused by a series of reasons .T o analy ze the relevance be tw een causes and results about an accident and to find out their regula r patterns will directly influence the efficiency of maritime safety manag ement.T he asso ciation rule lea rning in data mining is applied fo r risk factor analy sis of maritime safety to search fo r the frequent item sets and r ule ex pressions of causes and re sults for accide nts so as to find out the latent rule o f accident causes , w hich will provide a scientific basis for the maritime safe ty manag ement in ha rbor ar ea.It is indicated by a preliminary analysis that the eleme nts fro m seafare rs hav e the bigg est influence on accidents and relev ance with ship co llision . Key words:w ater way transpo rtation ;ship accident ;harbo r area ;maritime safety ;association r ule ;data mining
选用的数据来自近几年我国某港口水域所统计 的 800 多起船舶海损事故 。 在对这些事故统计资料 进行初步分析的前提下 , 创建了船舶信息 、事故基本 信息 、事故具体信息和事故原因这 4 个关系表 , 构建 了港域海事安全风险雪花型数据库 。 通过运用数据 库平台的数据预处理功能完成对数据的转换 、清理
将发现的规则和信息用适当的方式显示出来 , 从而来说明各个原因集合与事故类型之间的内在联 系 , 最后的结果用于最初问题的解决 。
3 事故原因关联分析
3 .1 定义分析问题 数据挖掘关联规则对找出隐含在多维数据集中
的相互关系是非常有用的 。 一般而言这样的多维数 据集包含了很多数据 , 用人工方式去找出其中的关 系显然是不现实的 。本文所使用的关联规则算法是 通过挖掘事故原因集合出现的置信度和支持度 , 分 别找出事故频繁项集和关联规则的重要性(度), 分 析原因与结果之间的潜在关系 , 并用这种关系去研 究港口水域海事安全风险防范管理工作中存在的问 题与不足(风险因素), 为海事安全管理机构采取相 应管理措施与对策提供科学依据 , 提高海事安全管 理水平与监管能力 。 3 .2 港口水域事故数据的准备
陈兴伟 , 等 :港口水域海事安全风险分析法
69
发事故的频繁程度来得到有价 值的关联规则 表达 式 , 如“原因集合” “事故” 。 关联规则相对数理统 计法更适合于事故的原因分析 , 它不但可以有效地 简化并处理事故记录数据 , 还可以推导出一些有用 的规则表达式 , 以充分展示事故发生的各因素对事 故发生的影响程度 , 是一种比较好的原因分析方法 。
包含 A 和 B 的元组数 包含 A 的元组数
(1)
2)支持度
支持度 s , 是概率 P(A ∪ B), 即
Suppo rt(A B)=P(A ∪B)=
包含 A 和 B 的元组数 元组总数
(2)
同时满足最小置信度阈值和最小支持度阈值的 规则称为强规则[ 4] 。 其中支持度大于最小支持度的
项集称为频繁项集 , 简称频集 。
随着国内外航运业的发展和国际贸易进出口量 的不断增加 , 港口水域船舶交通量日趋繁重 , 航道内 船舶密度也越来越大 , 在港口水域内操船难度剧增 , 事故隐患 、风险不断增大 。 长期以来港口水域海事 主管部门在确保船舶安全方面做了大量的工作 。 但 是 , 由于船舶航行中人为失误和其他不确定因素的 共同影响而造成的船舶交通事故还时有发生 , 使生 命财产遭受损失 、水域造成污染的 风险依然存在 。 船舶安全不仅直接影响到员工的生命安全 、企业的 经济效益 , 同时 , 也关系到企业的可持续发展 、港口 城市的声誉 。
过去对海事安全风险的分析在研究时 , 引用的 事故数据都是针对某一具体事故类型 , 而针对港口 水域事故分析方面鲜有涉及 。 文章在整理分析相关 事故资料的基础上 , 借助关联规则算法对事故各个 诱因与结果之间的关系进行分析 , 找出事故原因集 合发生与事故结果产生之间的潜在规律 , 可为港口 水域船舶安全管理与决策提供理论根据 。
70
中 国 航 海
2009 年第 1 期
和加载过程 。 首先 , 对港域海事安全风险分析数据库中的 4
个关系表设定各自的主索引 , 通过各自的主索引构 建如图 2 所示的数据源视图 。 然后 , 依据关联规则 技术把事故基本信息表确定为事实数据表 , 其他 3 个表为维度表 , 且 3 个维度表都必须链接到事故基 本信息表上 , 并在数据源视图的基础上成功处理并 建立多维数据集(cube), 得到图 3 所示的多维数据 集的数据源视图 。 通过上述操作 , 建立了符合关联 规则算法的港口水域海事安全风险多维数据库 , 完 成了数据库中数据单元也即关系表间连接和预处理 工作 。
第 32 卷 第 1 期 2009 年 3 月
文章编号 :1000 -4653(2009)01 -0068 -04
中 国 航 海
N A V IGA T IO N OF CHIN A
V ol .32 N o.1 M ar .2009
港口水域海事安全风险分析法
陈兴伟 , 王志明
(上海海事大学 商船学院 , 上海 200135)
关联规则是数据挖掘中的一项重要技术 , 它可 以做到分解事故的原因 , 并通过检验各原因集合引
收稿日期 :2008-12-16 作者简介 :陈兴伟(1984 —), 男 , 浙江杭州人 , 硕士生, 研究海事安全分析与管理 。 E-mai l :cxingw ei @126 .com .
王志明(1964 —), 男 , 安徽安庆人 , 副教授, 船长 , 从事船舶航行安全故障技术和标准体系研究 。 E-mail :zm w an @jm u .edu .cn .
Risk Analysis of Maritime Safety in Harbor Area
CH E N X i ng-wei , W A NG Z hi-mi ng (Co lleg e of M erchant Marine , Shanghai M ari time Uni versity , Shanghai 200135 , China)
图 2 表间关系设置后的数据源视图 Fig .2 T he da ta so ur ce v iew after setting the
relatio nship be tw een tables
掘结构 。 鉴于篇幅所限 , 文章主要是对事故原因(包含船
员原因)与结果 、船员原因与结果间的关系这两方面 进行了挖掘 。 3 .4 数据挖掘结果
船舶事故的相关数据是研究海事安全风险的重 要资源 , 但是只有真正地揭示出原始数据中隐藏的 各种关系信息 , 才 能使得这些数据 变得更有价值 。
众所周知 , 在船舶事故数据库中的数据是多维 、稀疏 的 , 这是因为相互有联系的影响因素比较多 , 事故的 产生往往涉及到船舶 、相关人员 、通航条件和海况 、 气象等多种因素 。 以往的海事安全风险分析常采用 数理统计方法 、事故发生率统计 、事故原因分析等方 法 , 并由此建立相应的数学模型 , 评估水域或船舶的 安全性 。目前我国对海事安全风险分析主要限于查 询 、报表 、联机应用分析等传统的分析手段[ 1] 。 文献 [ 1-3] 中从不同的角度对海难事故 、交通事故的原因 以及对这些原因之间的内在关系进行了分析 , 使用 数据挖掘技术中的关联规则算法 , 并对此算法进行 了相应的改进以适用各自的使用范围 。
定义挖掘结构中使用的度量 , 以及定义分析的最终 目标 。 2 .2 数据准备
根据问题的需要收集和选择事故数据 , 并在收 集数据的基础上完成事故数据库的构建和数据预处 理。 2 .3 数据挖掘
运用关联规则算法和挖掘工具对事故数据进行 分析 , 搜寻数据潜在的发生规则和重要信息 。 2 .4 结果分析及应用
关联规则分析是通过搜寻整个事故数据库以找
出同时出现的项 , 而这样可能会在数据中找出太多 的规则 , 需要使用支持度和置信度两个参数来约束 过多规则的产生 。数据挖掘的结果主要用规则 、项 集和依赖关系网络 3 种形式来表示 。 在规则选项页 中显示的每一行均表示一个关联规则 , 所显示规则 的置信度都大于其设定的最小阈值 , 其中概率表示 出现此规则结果的可能性 。 在项集选项页中显示的 每一行表示一个频繁项集 , 且支持度都大于预先设 定的最小阈值 。在依赖关系网络选项页中显示事故 类型与原因之间的整体关系图 , 其中的各个节点间 的箭头表示项之间有关联 , 箭头的方向表示规则中 项之间的关联 。
1 ຫໍສະໝຸດ Baidu联规则技术
1 .1 关联规则的定义
关联规则就是大量数据中项集之间的关联或者
是几种事物之间存在的因果关系 。 关联规则分析就
是在满足最小阈值的情况下找出其中蕴涵的规则或
者因果关系 。 关联规则中主要 有以下两个重 要参
数:
1)置信度 置信度 c , 它是条件概率 P(B A)。 即
Probabili ty(A B)=P(B A)=
1 .2 多维关联规则
在多维数据库的术语中 , 蕴涵式中的每个不同
的谓词称作维 。
假如事故原因和事故结果相关的信息存放在关
系数据库或数据仓库中 , 有“自然原因” 、“船员原因” 和“事故大类”这三个谓词 。根据其定义 , 这种数据
的存储是多维的 。而由这三谓词构成的蕴涵式为 :
自然原因(能见度不良)∧ 船员原因( 望疏忽)
事故大类(碰撞)
(3)
蕴涵式涉及两个或多个谓词的关联规则称为多
维关联规则[ 5] 。
2 关联规则分析实现步骤 :
图 1 描述了本文关联规则分析的基本过程和主 要步骤 :
图 1 数据挖掘流程图 Fig .1 T he f low cha rt of data mining
2 .1 定义问题 该步骤包括分析问题的需求 , 定义问题的范围 ,
摘 要 :海事的发生是由一系列原因导致的 , 通过对事故 各原因 与结果 之间的 关联性 进行分 析 , 找 出其发 生规律 , 这将 直接影响到海事安全管理的效率 。 将数据挖掘中关联规则技术应用到海事安 全风险因素 分析中 , 搜寻事故 诱 因与 结果的频繁项集和规则表达式来发现事故原因的潜在规律 , 为港口水域海事安全 管理工作提 供科学依 据 。 经 初步分析得出船员因素与事故的发生影响最大 , 且与碰撞事故的关联性最大 。 关键词 :水路运输 ;船舶事故 ;港口水域 ;海事安全 ;关联规则 ;数据挖掘 中图分类号 :U676 .1 文献标志码 :A
Abstract:M aritime accide nts are generally caused by a series of reasons .T o analy ze the relevance be tw een causes and results about an accident and to find out their regula r patterns will directly influence the efficiency of maritime safety manag ement.T he asso ciation rule lea rning in data mining is applied fo r risk factor analy sis of maritime safety to search fo r the frequent item sets and r ule ex pressions of causes and re sults for accide nts so as to find out the latent rule o f accident causes , w hich will provide a scientific basis for the maritime safe ty manag ement in ha rbor ar ea.It is indicated by a preliminary analysis that the eleme nts fro m seafare rs hav e the bigg est influence on accidents and relev ance with ship co llision . Key words:w ater way transpo rtation ;ship accident ;harbo r area ;maritime safety ;association r ule ;data mining
选用的数据来自近几年我国某港口水域所统计 的 800 多起船舶海损事故 。 在对这些事故统计资料 进行初步分析的前提下 , 创建了船舶信息 、事故基本 信息 、事故具体信息和事故原因这 4 个关系表 , 构建 了港域海事安全风险雪花型数据库 。 通过运用数据 库平台的数据预处理功能完成对数据的转换 、清理
将发现的规则和信息用适当的方式显示出来 , 从而来说明各个原因集合与事故类型之间的内在联 系 , 最后的结果用于最初问题的解决 。
3 事故原因关联分析
3 .1 定义分析问题 数据挖掘关联规则对找出隐含在多维数据集中
的相互关系是非常有用的 。 一般而言这样的多维数 据集包含了很多数据 , 用人工方式去找出其中的关 系显然是不现实的 。本文所使用的关联规则算法是 通过挖掘事故原因集合出现的置信度和支持度 , 分 别找出事故频繁项集和关联规则的重要性(度), 分 析原因与结果之间的潜在关系 , 并用这种关系去研 究港口水域海事安全风险防范管理工作中存在的问 题与不足(风险因素), 为海事安全管理机构采取相 应管理措施与对策提供科学依据 , 提高海事安全管 理水平与监管能力 。 3 .2 港口水域事故数据的准备
陈兴伟 , 等 :港口水域海事安全风险分析法
69
发事故的频繁程度来得到有价 值的关联规则 表达 式 , 如“原因集合” “事故” 。 关联规则相对数理统 计法更适合于事故的原因分析 , 它不但可以有效地 简化并处理事故记录数据 , 还可以推导出一些有用 的规则表达式 , 以充分展示事故发生的各因素对事 故发生的影响程度 , 是一种比较好的原因分析方法 。
包含 A 和 B 的元组数 包含 A 的元组数
(1)
2)支持度
支持度 s , 是概率 P(A ∪ B), 即
Suppo rt(A B)=P(A ∪B)=
包含 A 和 B 的元组数 元组总数
(2)
同时满足最小置信度阈值和最小支持度阈值的 规则称为强规则[ 4] 。 其中支持度大于最小支持度的
项集称为频繁项集 , 简称频集 。
随着国内外航运业的发展和国际贸易进出口量 的不断增加 , 港口水域船舶交通量日趋繁重 , 航道内 船舶密度也越来越大 , 在港口水域内操船难度剧增 , 事故隐患 、风险不断增大 。 长期以来港口水域海事 主管部门在确保船舶安全方面做了大量的工作 。 但 是 , 由于船舶航行中人为失误和其他不确定因素的 共同影响而造成的船舶交通事故还时有发生 , 使生 命财产遭受损失 、水域造成污染的 风险依然存在 。 船舶安全不仅直接影响到员工的生命安全 、企业的 经济效益 , 同时 , 也关系到企业的可持续发展 、港口 城市的声誉 。
过去对海事安全风险的分析在研究时 , 引用的 事故数据都是针对某一具体事故类型 , 而针对港口 水域事故分析方面鲜有涉及 。 文章在整理分析相关 事故资料的基础上 , 借助关联规则算法对事故各个 诱因与结果之间的关系进行分析 , 找出事故原因集 合发生与事故结果产生之间的潜在规律 , 可为港口 水域船舶安全管理与决策提供理论根据 。
70
中 国 航 海
2009 年第 1 期
和加载过程 。 首先 , 对港域海事安全风险分析数据库中的 4
个关系表设定各自的主索引 , 通过各自的主索引构 建如图 2 所示的数据源视图 。 然后 , 依据关联规则 技术把事故基本信息表确定为事实数据表 , 其他 3 个表为维度表 , 且 3 个维度表都必须链接到事故基 本信息表上 , 并在数据源视图的基础上成功处理并 建立多维数据集(cube), 得到图 3 所示的多维数据 集的数据源视图 。 通过上述操作 , 建立了符合关联 规则算法的港口水域海事安全风险多维数据库 , 完 成了数据库中数据单元也即关系表间连接和预处理 工作 。
第 32 卷 第 1 期 2009 年 3 月
文章编号 :1000 -4653(2009)01 -0068 -04
中 国 航 海
N A V IGA T IO N OF CHIN A
V ol .32 N o.1 M ar .2009
港口水域海事安全风险分析法
陈兴伟 , 王志明
(上海海事大学 商船学院 , 上海 200135)
关联规则是数据挖掘中的一项重要技术 , 它可 以做到分解事故的原因 , 并通过检验各原因集合引
收稿日期 :2008-12-16 作者简介 :陈兴伟(1984 —), 男 , 浙江杭州人 , 硕士生, 研究海事安全分析与管理 。 E-mai l :cxingw ei @126 .com .
王志明(1964 —), 男 , 安徽安庆人 , 副教授, 船长 , 从事船舶航行安全故障技术和标准体系研究 。 E-mail :zm w an @jm u .edu .cn .
Risk Analysis of Maritime Safety in Harbor Area
CH E N X i ng-wei , W A NG Z hi-mi ng (Co lleg e of M erchant Marine , Shanghai M ari time Uni versity , Shanghai 200135 , China)
图 2 表间关系设置后的数据源视图 Fig .2 T he da ta so ur ce v iew after setting the
relatio nship be tw een tables
掘结构 。 鉴于篇幅所限 , 文章主要是对事故原因(包含船
员原因)与结果 、船员原因与结果间的关系这两方面 进行了挖掘 。 3 .4 数据挖掘结果
船舶事故的相关数据是研究海事安全风险的重 要资源 , 但是只有真正地揭示出原始数据中隐藏的 各种关系信息 , 才 能使得这些数据 变得更有价值 。
众所周知 , 在船舶事故数据库中的数据是多维 、稀疏 的 , 这是因为相互有联系的影响因素比较多 , 事故的 产生往往涉及到船舶 、相关人员 、通航条件和海况 、 气象等多种因素 。 以往的海事安全风险分析常采用 数理统计方法 、事故发生率统计 、事故原因分析等方 法 , 并由此建立相应的数学模型 , 评估水域或船舶的 安全性 。目前我国对海事安全风险分析主要限于查 询 、报表 、联机应用分析等传统的分析手段[ 1] 。 文献 [ 1-3] 中从不同的角度对海难事故 、交通事故的原因 以及对这些原因之间的内在关系进行了分析 , 使用 数据挖掘技术中的关联规则算法 , 并对此算法进行 了相应的改进以适用各自的使用范围 。