数据挖掘中的聚类算法的研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
的 实 正 了如卡 号 、入会时 间、性别 、年龄 、会 员卡级别 、工作地城 市、工作 行 运数 据 确 的 地所 在省份 、工作地 所在 国家 、观 测窗 口结束时 间、观测 窗 口乘积积 分 、飞行公 里数 、飞行次数 、飞行 时间 、乘机 率集 效 , 引 时 间间隔、平 均折扣 率 指 等 。对数据 预处理 的过程主 要包括数 据清洗 、数据选 择 以及 数据转换
此 类客 户再 次或 者多 次选 择本 公司 。 第5 类 客户 的最 近 乘 坐 过本 公 司 航 班 ( R) 少 、里 程 ( M 百度文库较
并将 其应 用 到实 际 问题 中,从 而证提 明新 应算法 研 的实 用性 。 高信 用 究 从 航 空 公 司 系 统 内 的客 户 基 本 息 、 乘 机 信 息 以及 积 分 信 息 了 到 起 等 详细 数据 ,根 据 末次 飞行 日期 ,抽 取2 0 0 6 年4 月1 日至2 0 0 8 年4 月1 类和 聚 真 到 了 日 内所有 乘 客 的详 细 数据 ,总共 l 6 3 8 2 条 记 录 ,6 3 个属 性 其 中包 含
掘在 挖 原比 , 算 群
的有 中 算 征 明 法 ;
山东科技 大学 王 子墨
聚 法 新 模 类 的 算 拟 算基法 退
法 础 的 火
,
上高 法 聚类 分 析 近 些 年 来被 广 泛 运 用 户 划 分 领 域 ,对 客 户 群 体 利到 进客 效 ; 的划分 ,从 客户 的购 买行为 、浏 览记 录 等属 性划 分为 不 同 的客户 群 密 用行 改性 , 据 数 体 。本 文 以数 据抽 样 为 核 心 ,比 较分 析 了现 存 抽 样 算 法性 能 的优 劣 , 同时研 究抽 样 技术 在海 量数 据 聚类 分析 中 的应用 ,结合 密度 以 度 以 进进 也 挖 掘 及 均匀 抽样 方法 来 缩减 数据 量 为 了减少K— m e a n s 算法 对初 始 聚类 中
§ 3
心的 依赖 性和 敏 感 性 ,对K. m e a n s 算获 法 初始 均 步 聚 类 中心 的优 化 选择 进 匀 取 模拟 证 退火 的粒 子群 算 法来 选 行 理论 研 究 。提 出基于 自然 选择 和 基于 样 抽更 佳 明 了 取 更 佳 的初始 中心 。针 对K. me a n s 算 法 在实 际应 用 中 算法 存 在 的不 足 ,结 合 三角 不等 式来 减 少迭 代次方 数的 ,提 高运算 效 率并 提 出改进 算 新 法 初 算 法 ,使 新 算法 具 有 更好 的全 局 收敛 , 并将 其 应 用 到实 际 问题 中 ,从 来 始 法 而 证 明新算 法 的实用 性 。 缩 中 的 根 据 以上 主要 内容 ,拟 解 决 的 技 术 是 对 大 数 据抽 样 和 K . 减 数关键 心 ;确 正
( 5) C AVG DI SCOUNT
客户 在观 测 时 间 内所乘 航班 的平 均舱 位 折扣 系数= 平 均折 扣率 待 分析 的客 户 数据 被整 理成 如表 所示 。这 样 每一 条客 户数 据 就 被 表示 成 由五个 特征 属性 组成 的 向量 根据 聚类结 果进 行分 析如 下 ,第 l 类客户 入会 时 长 ( L)长 、平 均折扣率 ( C)较 高 但 是乘 坐 的次 数 ( F )少 、飞 行 里程 ( M )较 短 。这 类客 户 是否 在本 航 空公 司消 费 的不 确 定性 较大 ,可 能是 对 本 航 空 公司没 有较 为全 面 的认 知 ,无所 谓选 择哪 个航 空 公司 ,所 以维 持 与 此类 客户 的互动 尤 为重 要 ,航空 公 司需 要定 期 向此类 客户 普 及 本 公 司较 其他 公司 的优 势 ,针对 他们 不 定期 的推 出系 列优 惠 ,增 加 此 类客 户选 择本 公 司的次 数 。 第2 类 客户 飞 行 里 程 ( M)长 、最 近 乘坐 过 本 公 司 航 班 ( R)
改 进 ,给他 们 更好 的乘机 体验 ,提高 其满 意度 ,客户 自然 会在 以后 的出行 时选择 本 公司 ,持 续给 公司 带来较 高 的利益 。 第3 类 客 户和 第4 类客 户 的平 均 折扣 率 ( C)较 高 、最近 乘 坐过 本 公 司 航班 ( R)少 、但 飞行 里 程 ( M )较 短 或乘 坐 的次 数 ( F ) 少 。这 类客 户 需要航 空 公 司发掘 其潜 在价 值 ,提 高其 满意 度 ,使 得
,
少 。这 类 客户 要么 不选 择本 公 司 ,要 选 择 的话必 定会 给公 司 带来 较 大 的利 益 ,是 较为 理想 的消 费群 体 , 因此 航 空公 司要 考虑 将精 力 放 在 他们 身 上 ,一对 一联 系此 类客 户 , 了解 他们 不 满意 的地 方 ,及 时
梆 惭
而 法 的
【 与 正 【
摘 及 确 关 要 模 性 键 拟 和 词 本 退 有
E L E C T R ONI C S W OR L D・ 技 术 交 流
数据挖掘 中的聚类算法的研 究
据 了 究 研相 合 结 , 对 粒 行 进 并 子 法 ;
文 火 效 聚 要算 主 法性 , 算 类
及而 一
me a n s 算 法 进 行 理 论 研 究 ,通 过 对 国 内外 关 于 聚类 分 析 的研 究 文 规 进 一 性 , 果 做进 一 步 的总 结 。针 献 ,对 大 数据 抽 样 # I l K . me a n s 算 法据 的理 论成 对 大 多数 聚类 算 法在 面 对 海量 高维 数 据所 表 现 的不 足 以及 K — me a n s 模 步 对 以 数据 量后 ,结合 粒子 群 算 法初 始 中心选 取 的 随机性 ,利 用抽 将 样 缩减 从 算 后 算法 ,提 出改进 算法 ,最后 对人 工数 据集 和 真实 数据 集进 行 挖掘 ,
此 类客 户再 次或 者多 次选 择本 公司 。 第5 类 客户 的最 近 乘 坐 过本 公 司 航 班 ( R) 少 、里 程 ( M 百度文库较
并将 其应 用 到实 际 问题 中,从 而证提 明新 应算法 研 的实 用性 。 高信 用 究 从 航 空 公 司 系 统 内 的客 户 基 本 息 、 乘 机 信 息 以及 积 分 信 息 了 到 起 等 详细 数据 ,根 据 末次 飞行 日期 ,抽 取2 0 0 6 年4 月1 日至2 0 0 8 年4 月1 类和 聚 真 到 了 日 内所有 乘 客 的详 细 数据 ,总共 l 6 3 8 2 条 记 录 ,6 3 个属 性 其 中包 含
掘在 挖 原比 , 算 群
的有 中 算 征 明 法 ;
山东科技 大学 王 子墨
聚 法 新 模 类 的 算 拟 算基法 退
法 础 的 火
,
上高 法 聚类 分 析 近 些 年 来被 广 泛 运 用 户 划 分 领 域 ,对 客 户 群 体 利到 进客 效 ; 的划分 ,从 客户 的购 买行为 、浏 览记 录 等属 性划 分为 不 同 的客户 群 密 用行 改性 , 据 数 体 。本 文 以数 据抽 样 为 核 心 ,比 较分 析 了现 存 抽 样 算 法性 能 的优 劣 , 同时研 究抽 样 技术 在海 量数 据 聚类 分析 中 的应用 ,结合 密度 以 度 以 进进 也 挖 掘 及 均匀 抽样 方法 来 缩减 数据 量 为 了减少K— m e a n s 算法 对初 始 聚类 中
§ 3
心的 依赖 性和 敏 感 性 ,对K. m e a n s 算获 法 初始 均 步 聚 类 中心 的优 化 选择 进 匀 取 模拟 证 退火 的粒 子群 算 法来 选 行 理论 研 究 。提 出基于 自然 选择 和 基于 样 抽更 佳 明 了 取 更 佳 的初始 中心 。针 对K. me a n s 算 法 在实 际应 用 中 算法 存 在 的不 足 ,结 合 三角 不等 式来 减 少迭 代次方 数的 ,提 高运算 效 率并 提 出改进 算 新 法 初 算 法 ,使 新 算法 具 有 更好 的全 局 收敛 , 并将 其 应 用 到实 际 问题 中 ,从 来 始 法 而 证 明新算 法 的实用 性 。 缩 中 的 根 据 以上 主要 内容 ,拟 解 决 的 技 术 是 对 大 数 据抽 样 和 K . 减 数关键 心 ;确 正
( 5) C AVG DI SCOUNT
客户 在观 测 时 间 内所乘 航班 的平 均舱 位 折扣 系数= 平 均折 扣率 待 分析 的客 户 数据 被整 理成 如表 所示 。这 样 每一 条客 户数 据 就 被 表示 成 由五个 特征 属性 组成 的 向量 根据 聚类结 果进 行分 析如 下 ,第 l 类客户 入会 时 长 ( L)长 、平 均折扣率 ( C)较 高 但 是乘 坐 的次 数 ( F )少 、飞 行 里程 ( M )较 短 。这 类客 户 是否 在本 航 空公 司消 费 的不 确 定性 较大 ,可 能是 对 本 航 空 公司没 有较 为全 面 的认 知 ,无所 谓选 择哪 个航 空 公司 ,所 以维 持 与 此类 客户 的互动 尤 为重 要 ,航空 公 司需 要定 期 向此类 客户 普 及 本 公 司较 其他 公司 的优 势 ,针对 他们 不 定期 的推 出系 列优 惠 ,增 加 此 类客 户选 择本 公 司的次 数 。 第2 类 客户 飞 行 里 程 ( M)长 、最 近 乘坐 过 本 公 司 航 班 ( R)
改 进 ,给他 们 更好 的乘机 体验 ,提高 其满 意度 ,客户 自然 会在 以后 的出行 时选择 本 公司 ,持 续给 公司 带来较 高 的利益 。 第3 类 客 户和 第4 类客 户 的平 均 折扣 率 ( C)较 高 、最近 乘 坐过 本 公 司 航班 ( R)少 、但 飞行 里 程 ( M )较 短 或乘 坐 的次 数 ( F ) 少 。这 类客 户 需要航 空 公 司发掘 其潜 在价 值 ,提 高其 满意 度 ,使 得
,
少 。这 类 客户 要么 不选 择本 公 司 ,要 选 择 的话必 定会 给公 司 带来 较 大 的利 益 ,是 较为 理想 的消 费群 体 , 因此 航 空公 司要 考虑 将精 力 放 在 他们 身 上 ,一对 一联 系此 类客 户 , 了解 他们 不 满意 的地 方 ,及 时
梆 惭
而 法 的
【 与 正 【
摘 及 确 关 要 模 性 键 拟 和 词 本 退 有
E L E C T R ONI C S W OR L D・ 技 术 交 流
数据挖掘 中的聚类算法的研 究
据 了 究 研相 合 结 , 对 粒 行 进 并 子 法 ;
文 火 效 聚 要算 主 法性 , 算 类
及而 一
me a n s 算 法 进 行 理 论 研 究 ,通 过 对 国 内外 关 于 聚类 分 析 的研 究 文 规 进 一 性 , 果 做进 一 步 的总 结 。针 献 ,对 大 数据 抽 样 # I l K . me a n s 算 法据 的理 论成 对 大 多数 聚类 算 法在 面 对 海量 高维 数 据所 表 现 的不 足 以及 K — me a n s 模 步 对 以 数据 量后 ,结合 粒子 群 算 法初 始 中心选 取 的 随机性 ,利 用抽 将 样 缩减 从 算 后 算法 ,提 出改进 算法 ,最后 对人 工数 据集 和 真实 数据 集进 行 挖掘 ,