数据挖掘在商业中的应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据挖掘在商业中的应用
帮助决策的传统数据分析方法再结合统计建模技术的专业领域,使手工解决特殊问题得以发展。最近,挑战这种方法的趋势已经出现。其一是大量高维数据可用性的增加,占用了数据库表中数以百万计的行列空间。另一个是要有竞争力的快速建设和部署数据驱动的分析需求。第三是需要给最终用户一种使他们很容易理解,帮助他们获得见解,做出重要的业务决策的分析结果的形式。此外,数据库中的知识发现,KDD()技术,强调可扩展的、可靠的、完全自动化的。说明性的结构显示——数据分析,这种结构的补充,可部分取代现有的人力专家密集的分析技术,以提高决策质量。
可计量的收益
KDD应用程序提供的可计量的收益,包括降低企业经营成本,提高盈利能力,以及更出色的服务。这样的好处在包括保险,直邮营销,电信,零售,和医疗保健行业得以证实。
风险管理和有针对性的营销
保险和直邮产业是依赖于数据分析,做出有利的商业决策的两个产业。例如保险公司必须能够准确地评估由投保人有无竞争力的保险费所带来的风险。例如,对低风险的投保人滥收费用的投诉会促使他们寻找其他较低保费的公司。少收高风险的投保人会由于较低的保费吸引更多的人。在任一情况下,必然成本增加、利润降低。有效的数据分析使准确的预测模型的建立是解决这些问题的关键。
在直邮针对性的营销中,零售商必须能够识别部分人们有可能作出反应的促销活动,以抵消邮递服务和印刷的成本。只有那些潜在的客户最有可能让零售商的纯收入超过邮递服务和印刷的成本,通过邮寄使利润最大化。
企业依赖于数据驱动的分析决策通常需构建数据仓库,以获取尽可能多的信息,了解他们的客户。这些信息包括客户过去的交易细节,以及从第三方数据提供者处获得的额外信息,包括信用分数和人口统计数据,有针对性的市场推广用途的和机动车记录等。
为了帮助决策,分析建设仓库数据的预测模型,预测各种决策方案。例如,为了设置保单保费,保险公司需要预测的是已知的每一个保单持有人每年提出的
索赔成本。为了选择有针对性的客户,零售商需要预测客户会产生的收入或利润总额。
一种许多数据分析师和统计人员常用的用来预测建模的方法,包括将客户(或其他实体)的数据记录分割成段,然后为每个分区数据段建立预测模型。通常,被分割的数据通过简单的启发式算法、聚类算法等再组合。一经分割鉴定,预测模型即被建立。这种顺序的方法的缺点是忽略了分割极大影响了内部各部分的模型的预测准确性。良好的分割只有通过不同分割的试错才能得到。
更好的办法是范围内每个分部,同时进行分割和预测建模,优化分割,从而最大限度地提高整体生成的模型的预测准确性。这种方法被内置到IBM概率估计(probE)的数据挖掘服务器,它可以从非常大的高维数据集里自动建立高品质的以分割为基础的预测模型。自顶向下的基于树的算法被用来构造区块。构建分割的模型纳入了其他算法,包括为了通用建模的逐步线性回归和逐步朴素贝叶斯算法和为了风险联保的泊松/对数正态分布算法。探针服务器的一个关键特性是它在不同类型的段和图像分割算法中是很容易扩展的。
IBM数据抽象的研究小组,利用的探测数据挖掘服务器已开发出两种不同的客户端应用程序。一个是由在Fingerhut的商业智能组和一家在Minnetonka的网络零售商共同打造的,被称为IBM高级针对性的营销单项(ATM-SE)。它在零售行业中构建客户盈利能力和可能的响应使其营销模式有针对性[1]。另一个是IBM的承销获利分析(UPA)的应用,由农业保险集团和总部设在LosAngeles 的一家大型汽车及家庭保险公司合作开发,以发现同质保险的风险合[2]。
Fingerhuts’s 2000评价为直邮响应而建模的ATM-SE应用程序,表明这项基于分割响应模型的应用等于或优于Fingerhut自己的专有模式。这种评价很重要,因为许多供应商和顾问此前未能击败Fingerhut的内部建模功能。如果这样的结果保持在所有的Fingerhut的模型中,那么ATM-SE模型将产生的年度利润预计会有所增加,直接超过Fingerhut100万美元。此外,探头服务器实现其结果在一个无需人工干预、完全自动化的操作模式中。
UPA应用安装了探针服务器,以便在每个段,能够同时的使用泊松/对数正态分布统计模型,以满足在每个段中,投保人提出保险索赔的频率、金额或严重程度等要求。使用此类段模型,所识别的段对应于不同的风险组的损耗特性,如
索赔的频率和严重程度。
农业集团1997年评估了运行的应用能力,分析其在为一个清醒挖掘所有投保人分析保单和索赔数据的能力,为覆盖18种独特组合的客户提供包括解释变数在内的,特定的保险产品。每次会产生约40条规则,其中43个组合被认为是“掘金”,或有从前未知的规律,带着潜在价值。六支掘金队被选作为一个详细的效益评估,仅在第一年就得到了百万美元,这表明,在一个单一的国家里,仅仅实现这六个就能产生巨大收益。
尽管保险公司知道,驾驶高性能的跑车的司机比其他类型的司机更容易发生意外。UPA程序发现,只有一辆跑车的家庭,其事故发生率将远远大于只有一辆普通的汽车的家庭。一项评估确定:“只让护卫舰和保时捷加入的‘首选溢价’计划,可能在未来两年中带来额外的450万美元的保费收入。”
探头的分割,为基础的预测建模性能可以使用,挖掘应用进行了特殊问题的优化。有迹象表明,探测服务器可以在完全自动化的基础上持续得到高品质的模型,而无需昂贵的需手工调整的模型或数据挖掘专家。这些特性使数据挖掘对中大规模的企业越来越有吸引力。
客户档案和功能建设
获得高度预测模型的一个重要因素是使用高度预测的功能、属性和变量,来作为模型的输入。虽然数据基可能包含足够的信息来构建高度预测模型,但它不总是存储的一种形式,不允许数据被直接用作输入到模型中。在这种情况下,必须将数据转换,以获得精确的模型。
交易数据在被用于数据挖掘应用前的转换是臭名昭著的要求。这些数据包括对个人和事件的记录。一个例子是将一家集零售客户购买的物品,组合成一个“市场篮子”。另一种是一组由一个特定的上网请求的Web页面从网站上得到的分组会话。公司全球范围内收集的大量有关交易数据的能力已经远远超过了他们进行分析的能力。从数据挖掘的角度看,由于多种因素的影响,这是特别具有挑战性的交易数据。
广大的记录:大型零售连锁店每天产生数百万的交易。
稀少的:一个典型的购物篮仅包含一小部分的总的可能的项数,而个别客户可能有几筐,也许只有一个。