logistic回归参数遗传算法估计的可行性研究
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
分类效能在训练集和验证集均高于遗传算法估计的模
型 , 表 1所 示 。但 在 样本 量 为 4 如 0的情 况下 , 两份 样 本 的模 型参数 极大 似然 法估 计不 收敛 。观察 四种样 本 量情 况下 的两 种参 数 估计 方 法 的效 能 , 现 随着 样 本 发 量 的减小 , 大似然 法 在 验证 集 中 的分类 效 能逐 渐 下 极
数 据模拟 和参 数估计 方法
型中各 自变量的系数值减少 , 与预测变量 的关联减弱。 根据 模型 12和 3分别模 拟 一份 例 数 为 100的 、 0 数据作为总体 , 中抽取 20份样本 ( 从 0 包括训练集 10 0
份 和 验 证 集 10份 ) 训 练 集 的样 本 量 分 别 为 80 0 , 0、 208 0 、0和 4 ; 0 验证 集 的样 本 量 不 变 , 为 20 均 0 。分 别
数为 0 方差为 3的正态分布 ; 和 e 服从均数为 0 , e , , 方 差为 7的正 态分 布 。模 型 2中 ,, X 、 相 关 : X 与 X 有
m3 .x + .x + , 为分类 变量 , 以 由 m =12 0 62 e 所 转换
产 生 ;6 x 、5 相 关 ,6 . X 0 6 5 ; 且 与 4x 有 =0 4 4+ . x +e 并
模型 求解方 法 发展 , 人提 出 了其他 的参数估 计方 法 。 有
在 以前 的应用 中人们 发 现 当变量 较 多 而样 本 有 限 时 ,
模 型 3 lgt P)=1 5—0 3 1+0 2 3+0 2 24一 oi ( . .x .x . xX
O. x 4 5—0 2 . x6—0. 7+O. x8 2x 2 l+ e 3
量 , 意义 。 b无
1 中山大学肿瘤防治 中心( 100 . 5 06 ) 2 广州市第一人 民医院 .
Ch n s o r a fHe lh S aitc . e 0 2. 1 2 No. i e e J u n lo at ttsis F b 2 1 Vo . 9. 1
为了得到遗传算法的最好结果 , 常以不 同的参数试 通 验, 经过 多 次试 验 , 择 针 对 问 题 的最 佳 参 数 。本 选
次分 析 中设 置初 始 参 数 : 群 大 小 为 2 , 种 0 交叉 概 率 为 06 变 异概 率 为 0 05 最 大进 化 代数 为 10 自变 量 ., .0 , 0, 系数 的范 围为 [ 2,] 一 2 。通 过程 序 运 行 的情 况 以及结 果 的合 理性 情 况调整 程 序 的参 数 。 本 程序 采用 的最 终参 数如 下 : 种群 大 小 为 10 交 0, 叉 概率 为 0 6 变异概 率 为 00 , ., . 1 自变量 系数 的范 围 为
模 型 2 lgt P)=1 5—0 9 1+0 8 3+0 8 24— o i( . .x .x . xX
12 . x5— 0 6 6—0 6 .x . x7+ 0 8 8 . x 1+e 2
险预测的常用模 型之一。通常用极大似然法估计 1 o — gsc回归 的模 型参 数 , ii t 随着计算 机功 能 的 日益强 大 和
较参数估计的遗传算法和极大似然法 的结果 , 理论 从 上 考证 极大 似然 法和遗 传算 法 的适 用条件 。 遗传算法是通过不断的选择 、 交叉 、 变异的计算程
式来得 到最 优, 与 X 之间存在交互作用项 。模型3的 自变 4X
另外 遗传 算法 本 身 运算 过程 需 要 设 定 一 些参 数 ,
标 准参 数设 置指 自变 量独 立 性 较 好 , 自变 量之 间 不 存在 相 关 , 且 无 交 互 作 用 的数 据 结 构 。在 80 并 0、 208 0 、0和 4 0四 种样 本 量 下 , 大 似 然 法 估 计 的模 型 极
2 存 在变量相关 和交互作用参数设置 的模拟结果 . 当 自变 量 间存在 相关 , 且有 交互 作用 项 时 , 并 考察 两 种参 数估 计方 法在 不 同样本 量 下 的效 能 。在样 本 量 为 80和 20时 , 大 似 然法 估 计 的模 型分 类 效 能 在 0 0 极
能 降低 。 同样 的 , 样本 量 为 4 在 0的情 况下 , 五份 样 本 的模 型参 数极 大似 然 法估 计 不 收 敛 , 明 复 杂 的 自变 说 量 问关 系影 响 了极 大似 然法 的参数 估计 效能 。 另外 观察 四种 样本 量情 况下 的两种 参数 估计方 法 的模 型分 类效 能 , 发现 和标准 设置 同样 的趋势 , 大似 极 然法 的泛化误差随着样本量 的减小而增大 ; 遗传算法
随机误 差 较大 ( 型 3 。模型 表达式 如下 : 模 )
模 型 1 lgtp)= . oi ( 0 5+08 l . .x 一122+13 3 .x +
1 5x . 4—0 7 . xs+1 7 . 6一1 5 7—0. 8+e】 .x 7x
码, 取值范 围为 ( 一∞, +∞) 或者根据实际意义加 以 限定[ 22 , a = 时表示模型选人 变量 , 就 一 ,] 当 , 1 , b 是 的系数 值 , 反 当 a 0时表示模 型不 选人 . 相 = 变
采 用二进 制 编 码 , 值 为 1或 0 系数 b采 用 实 数 编 取 ,
1 .数据 模拟
建立 8 自 个 变量的 l ii o sc回归模型, gt 自变量包括 分类变量和数值变量 , 数值变量包括呈正态分布的变 量和偏倚分布变量。模型设置分别为标准设置 ( 模型
1、 ) 自变量 间有相 关 ( 型 2 和 自变量 间 有 相关 并 且 模 )
M ATLAB . 7 0。
样本量 的减小遗传算法的过拟合现象越来越明显。在
结 果
样本 量为 4 0时 , 两种 方法 在训 练集 中 的分类 效 能差 异
已无统 计 学意义 。
1 准参数 设 置 的模 拟结 果 .标
表 1 两种方法不 同样本量下 ( 模型 1 在训练集和验证集 中的分类效能 ( ±S ) )
其中 , 为两分类变量 , ,, x x 为有序 3分类变 量 , 为有序 5 x 分类变量 , , 为正态分布数值变量 , x x 为偏倚分布数值变量 。e , 为随机误差项 , 服从均 e
极大似然法估计存在过拟合现象 , 型外推应用 时出 模
现较 大 的泛化误 差 。此 外 当变量 较 多 而 样本 较 小 时 , 极 大似然 估计 的参 数会 出现 异 常值 , 如 极 大极 小 的 例 参数 估计 值或 极大 的标准 误 ¨ 。本 文拟 通过 模 拟 比
结论 遗传算法适用于 自变量多而样本量相对小 时 lgsc回归模 型参数估计 。 oi i t
【 关键词】 遗传算法 l i c o s 回归 极大似然法 参数估计 gt i
医学研究 中常涉及 用多个 指标对 两类 对象进 行 预 测 或 判别 的 问题 , gsc回归是两 分 类判 别 或疾 病 风 l ii o t
根据训练集数据用极大似然法和遗传算法两种参数估 计方法估计模型参数 , 用样本数据估计的模型参数分 别 做训 练集 和验证 集 数 据 的判 别 , 察这 两 种 参 数估 考 计方法建立模型的分类效能 , 分类效能的指标为灵敏 度 、 异度 和正确 度 。 特 2 遗传算法的参数设置 . 本研究 中遗传 算法 的 目的就是 要搜 索 出一 组模 型 参数 , 使模型的分类效能达到最大。选人 l ii o sc回归 gt 和遗传算法 的初始变量均是 一 , g t 回归通过 lic os i P值是否小于 00 来筛选最终模型的变量 , .5 而遗传算 法 通过设 定 系 数来 筛 选 变 量 , 如 ab 项 , 数 a 例 l 系
降, 说明极大似然法 的泛化误差 随着样本量 的减小而
增大 。而 随着样 本 量 的减 小 , 传 算 法 在验 证 集 中的 遗 分类 效能 下 降不如 极 大似 然 法 明 显 , 遗传 算 法 在 训 但 练集 中 的分类效 能 有 一个 逐 渐 增 长 的趋 势 , 示 随着 提
[ 22 , 一 ,]最大进化代数为 30 目 函数值超过 5 0, 标 0代 没 有改 善则 程序 停 止 , 示 当前 代 中 的最 优个 体 为最 表 终结果。使用 的统计软 件为 S S8 1 S S 30和 A . 、P S1.
中 国卫 生 统 计 2 1 0 2年 2月 第 2 第 1 9卷 期
l ii o sc回归参数遗传算法估计 的可行性研究 gt
韩 芳 陈金 瓯 柳 青
【 提 要 】 目的 考察遗传算 法作 为 l i c回归模 型参数估计方法 的效能 , 与极 大似然估 计法 比较 。方法 通 os gt i 并 过数据模拟建立三种模型 , 分别用遗传算法 和极大似然法作参数估计 , 考察建立模型的分类效 能。结果 一般情 况下 , 极 大似然估计 法的分类效能稍高 于遗传算法 。在样本量较小或 自变量关 系复杂 的情况下 , 大似然估计法 和遗 传算法 的泛 极 化误差增加 。极大似然估 计法的泛化误差主要源 于在验证集 中分类效能下降 , 而遗传算法 的泛化误差 主要源于训练集 中 的过拟合 。当样本量 小且 自变量关 系复杂 的情况下 , 极大似然估计法 出现迭代 不收敛 , 参数失 拟合 , 遗传 算法 无此现象 。
的过拟合 随着 样本 量 的减小 而增大 。
训练集和验证集仍然高于遗传算法估计的模 型, 如表 2所示 , 在样 本量 为 8 但 0和 4 0时 , 大 似然 法 和 遗传 极 算法估计的模型分类效 能差异无统计学意义 , 明数 说
据 结构 比较 复杂 时极 大似 然法 估计 模 型参数 的分 类效
表 2 两种方法不同样本量下 ( 型 2 在训 练集 和验证集 中的分类 效能( S 模 ) X± )
中 国 卫生 统 计 2 1 0 2年 2月 第 2 9卷 第 1期
3 .随机 误差 增大模 型模 拟结 果 当 自变 量间关 系 复 杂 而 随机 误差 增 大 时 , 据 变 数 异 程度 增加 。在 这种 数 据结 构 下 , 自变 量对 因变 量 的 影 响受 到 干扰 比较大 , 这 种情 况 评 价 两 种参 数 估 计 在 方法 的分 类 效 能 。在 训 练集 样 本 量 为 8 0的情 况 下 , 10份训练 集样 本 中有 6 0 4份样 本 极 大似 然 法不 收 敛 , 训练集 样 本量 20时 , 有 3 0 仍 9份样 本极大 似然 法不 收 敛 ( 3 。提 示 当数 据 不 理 想 时 , 大 似 然 法受 样 本 表 ) 极
量设 置 、 量 间相 关 、 变 交互 作 用 项 与模 型 2相 同 , 模 但
域里已有应用 , 如特殊模 型遗传程序设计 (eec r gnt o ip — ga n ) 于 疾 病 数 据 的分 类 ; 如 疾 病 相 关 r mmig 用 又
基 因的遗传 算法 搜 索 。在 医学 分 类 问题 中 , 常 用 通 分类效 能 指标考 察模 型 的 优 劣 , 通 常 评 价模 型 参 而 数估计 方法 时 只考察 了模 型 系数 的统 计学 意 义 , 有 没 考察 模 型 的分类 效 能 。本 文 主要 从分 类效 能和泛 化误 差着 手 , 察极 大 似然 法 和遗 传算 法用 于估 计 lgsc 考 o ii t 回归模 型参数 的价值 。