关联规则分析和logistic模型的相关性研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1 代表两种结果 中值得关注的一个事件 , 比如“ 死亡” 。 二分 类 l o g i s t i c回归模 型如 下 :
【 J / 3 。 + 卢 + z z + … + 卢 m m
口 0  ̄ l f l X l +  ̄ 2 x 2 ‘ p
1 . 两分类 l o g i s t i c 模型中 O R值与 L 的关系
P = 一 己 + 1 P 卢 0 p 1 l 怠 … / 3 m x m
注事件 的概率 。
( 1 ) /
设 y事件 为结 果 事 件 , 例 如患 肺癌 , 则 是它 的对
其中 X , X : , …, X 是预测 因子 ( 因素 ) , P是所关 是关注 的事件 发生的概率 比对
类l o g i s t i c回归模 型 中, 常用 0和 1来 标识 结果 。通 常
论结果明确的关联规则 。关联规则处理连续型变量时 需 要把 它离 散化 , 变成 分类 变量 来处 理 。在这 里 , 我们 只讨论因素为两分类的情况。
l o g i s t i c回归模 型和 关联 规则 的联 系
关联 规则 分析 和 l o g i s t i c回归 模型 1 . 两 分类 l o g i s t i c回归模 型
③提升 比 L ( y ) =
1 』,
ห้องสมุดไป่ตู้
, 提升 比大于 1 代
表 正 向的关联 , 提 升 比小 于 l 代 表负 向 的关 联 。
强关联规则是指在事务数据库中支持度和置信度 都大于最低阀值 , 并且提升 比大于 1 的项 和项 y 之 间的关联规则。关联规则分析就是在项集合 D 中找

的。比如说寻找影响某一疾病 的因素 , 我们只关 心其 他 事件 对 疾 病 发生 的 影 响 ( 即单 向 的关 联 ) 。在 这 篇
文 章里 , 为 了和 l o g i s t i c回归 模 型 进 行 比较 , 我们 只讨
二分类 l o g i s t i c回归模 型应用于当因变量只有两 种 可能 结果 的时候 ( 比如 “ 死亡” 和“ 生存” ) 。在 二 分
到所 有强 关联 规则 。 在关 联规 则分 析 中 , 不 需要 区分 自变 量与 因变 量 。 它处 理 的是每 一个 项并 想 找 到 项 之 间 的关 联 。例 如 ,
在数据库 中可以寻找 】 , 的关联, 同时也可以得到 y 的关联 。但在一些研究 中, 结果事件是非常明确
被 称为 回归系数 且 能通 过极 大似 然法 估计 出来 。 1 9 9 3年 Ag r a wa l 提 出 一 种 从 大 数 据 库 中提 取 关
假设 x与 】 , 存 在 正 向强 关 联 , 则 容 易 证 明 和 y 有 负 向的关联 。即 L ( y )>1 , L f i t (
中国卫生统计 2 0 1 7年 1 0月 第 3 4卷 第 5期

8 0 5・
关 联 规则 分 析 和 l o g i s t i c模 型 的相关 性 研 究
唐 晓 刘启 贵 隋全 恒
l o g i s t i c 回归模型是一个经典 的统计学模 型 J , 利 用该模型可 以做预测并解释因变量和 自变量之间的关
的概 率 。
y )<1 , 贝 0
: —
— — —
O R x / : — P ( Y I X) P ( Y I X) P( YI X) P ( T Y I X)P( I ) P ( Y I X) P( T Y I X)
P ( I ) l 1 一 P ( 】 , l ) L / J %P ( Yl X) L / f t 2 1 一 P ( Y I X )
1一, 危 .Pr y、



1 . 大连 医科大学卫生统计教研 室( 1 1 6 0 4 4 ) 2 . 大连市沙河 口区疾病 预防控制 中心
_ , >
( 2 )
△通信作者 : 刘启贵
在上式 中, 如果 x和 y 存在正向强关联 , 和 】 , 必 然 有负 向的关 联 , 即L ( x _ 一y )>1时 , 有L ( , l , )
是 常数 。 。 , , …,
立事件 , 例如不患肺癌 ; x为 因素 , 例如吸烟 , 为其对 立事件 , 例如不吸烟。根据定义
嘲 = L i f t ( X - + r )=

, i f t 2 =酬
y )=
立 事件 发 生 的概 率 的 比数 。 2 . 关 联规 则 分析

联规则 的算法 。其模型是 : D是一个项 的集合 , 在集合 D 中寻找项 和项 y
之 间的关 联规 则 。其关 联 规则 的表 达是 , _ 一y , 表示 如 果 x发生 , 则 】 , 有 可 能发生 。其 评价 指 标有三 个 : ① 支 持度 s u p ( ? y )= P( XY ) , 即 x、 y同时发 生
系, 其 已被 广泛 应用 于 医学 、 生物 学 、 工程 、 经济 和农 业
②置信度 c o n f ( X - - * Y ) = P ( Y I X) , 即在 x发生 的
条件下 , l , 发生的条件概率 ;
D , ,f、 ,、
等领域 』 。关联规则分析是一种数据挖掘方法 , 它通过人为给出规则标准的方式解释数据库中项与项 之间的关系 。这两种方法都可以用于提取影响某变量 ( 结局) 的 因 素 。目前很 多 研 究 利 用 这 两 种 方 法 互相补充来获得影响 因素H J , 但他们并不解释两种 方法之间的联系以及联合使用后所得到结果 的意义 。 本研究将从两种模型 的数学原理出发 , 通过理论证 明 发现他们之间的联 系, 从 而得到结合两种方法分析数 据所得结果的异同及其实际的应用价值 。
相关文档
最新文档