SPSSModeler数据挖掘软件简介

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

SPSSModeler数据挖掘软件简介
SPSS Modeler 软件简介
SPSS Modeler原名Clementine,是一个业界领先的数据挖掘平台。

SPSS Modeler强大的数据挖掘功能将复杂的统计方法和机器学习技术应用到数据当中,帮助客户揭示了隐藏在交易系统或企业资源计划(ERP)、结构数据库和普通文件中的模式和趋势,让客户始终站在行业发展的前端,显著的投资回报率使得SPSS Modeler在业界久负盛誉。

同那些仅仅着重于模型的外在表现而忽略了数据挖掘在整个业务流程中的应用价值的其它数据挖掘工具相比,SPSS Modeler其功能强大的数据挖掘算法,使数据挖掘贯穿业务流程的始终,在缩短投资回报周期的同时极大提高了投资回报率。

SPSS Modeler 使您的企业在多方面受益。

例如,您可以:■改善客户获得和保持;
■提高客户的生命周期价值;
■识别并最小化风险和欺诈;
■给不同的客户提供个性化服务;
SPSS Modeler拥有直观的操作界面、自动化的数据准备和成熟的预测分析模型,结合商业技术可以快速建立预测性模型,进而应用到商业活动中,帮助人们改进决策过程。

应用SPSS Modeler获得的预测洞察力,引导客户与企业实时交互,并实现企业内共享这些洞察力。

SPSS Modeler以其卓越的分析能力、可视化的操作方式、高度可扩展性受到全世界数据挖掘人员和企业用户的青睐。

使用SPSS Modeler,您可以:■轻松获取、准备以及整合结构化数据和文本、网页、调查数据;
■快速建立和评估模型,使用SPSS Modeler提供的最高级的统计分析和机器学习技术;
■按照计划或者实时,把洞察力和预测模型有效地部署到系统中或者发送给决策者;
SPSS Modeler具有许多独特的性能,这使得它成为当今企业预测分析的理想选择。

SPSS Modeler 软件功能
SPSS Modeler 原名Clementine,是一个久享盛誉的数据挖掘平台,全面支持数据挖掘CRISP-DM的标准流程。

SPSS Modeler 可提供数据挖掘相关的数据理解、数据抽取加载转换、数据分析、建模、评估、部署等全过程的功能。

强大的数据读取功能
丰富的数据处理方法
图形化的数据探索方式
核心的数据挖掘算法
简洁直观的模型评估
多格式的数据导出
灵活的产品部署
性能卓越的三层体系架构
强大的数据读取功能
SPSS Modeler提供方便、及时的数据访问,可以接入各种各样的数据源和数据文件,在数据挖掘过程中无需考虑数据源和所在平台及其数据格式。

具备对多种格式的数据进行处理的能力,能够从多种类型的文件(如可变长度记录、二进制文件、自由格式数据、Excel等)读取任何格式的数据;同时可通过SPSS Data Access Pack与大多数主流数据库(如IBM DB2,Oracle,Informix, Sybase, SQL Server等)直接连接,也可以通过第三方提供的开放ODBC与其它数据库连接(如Teradata 等)。

使用了SPSS Modeler 白金版,还可以接入文件或者Web2.0(RSS feeds)等丰富的非结构化数据。

丰富的数据处理方法
据统计,数据挖掘过程中数据的质量、数量等各种问题使得该过程平均有75%以上的时间花费在数据预处理阶段,SPSS Modeler提
供多种数据处理节点,分析人员可以通过拖拉的方式实现数据的预处理,而无需精通数据库语言。

其中对记录的操作包括:选择、抽样(随机、聚类和分层)、平衡、汇总、排序、合并、追加、区分;对字段的操作包括:过滤、导出新字段、填充、集合字段重新分类、连续字段离散化、分区、重新结构化、转置、时间区间等。

图形化的数据探索方式
SPSS Modeler提供了多种图形化技术和输出报告,帮助您理解数据间的关键性联系,并指导您以最便捷的途径找到问题的最终解决办法。

SPSS Modeler融合了3D、图形和动画等多种可视化技术来处理多维数据,使得数据所表现出的特征、模式和关联性等信息一目了然,可以生成散点图、分布图、直方图、堆积图、多重散点图、网络图、评估图和时间散点图等等。

SPSS Modeler中的输出包括数据表格、交叉列联表、数据审核报告、统计报告和质量报告等等。

核心的数据挖掘算法
SPSS Modeler提供一系列的数据挖掘技术,它可以满足任何数据挖掘应用。

您可以从多种算法中选择来进行预测、聚类、关联、分类等。

■数据探索类模型
数据挖掘过程中通常包括上百个或者上千个变量。

结果,在模型建模过程中大量的时间和精力都被花在检验模型中包括哪些变量。

“特征选择”节点能够帮助减少对决策影响不大的不必要变量,创建一组更容易管理的、对决策直接相关的模型属性集合;
“主成分/因子分析”算法也提供了强有力的数据简化技术,来简化数据的复杂度。

“异常侦测算法(Anomaly Detection)”能从群体的行为规则的差异中侦
测出不寻常的事例。

这种算法用来在数据分析探索阶段快速侦测不寻常的事例,从而满足数据审核的要求。

■决策树模型
决策树模型允许您开发分类系统,此分类系统可以基于一组决策规则来预测或分类未来的观测值。

如果将数据分成您关注的类别(例如,高风险和低风险贷款、用户和非用户、投票人和非投票人或细菌类型),则您可以使用自己的数据来构建规则,借此对新案例或旧案例进行准确性最大的分类。

例如,可以基于年龄和其他因素构建对信用风险或购买意向进行分类的树。

SPSS Modeler提供多种算法支持决策树分类。

■决策列表
决策列表模型的目的在于找到一组有独特行为模式的人。

例如:高概率购买某种商品的人。

一个决策列模型包含了一组决策规则。

一条决策规则就是一条“如果—结果”的条件,里面包含了两部分:前提条件和结果。

您可以通过归纳的规则进行相应的决策,如重点营销高概率购买人群。

■神经网络模型
神经网络是功能强大的一般函数预测器,可用于分类建模。

■最近相邻元素模型
“最近相邻元素分析”是根据观测值与其他观测值的类似程度分类观测值的方法,既可以用于类别目标也可用于连续变量的分类。

■聚类模型
聚类模型主要用来确定相似记录的组并根据它们所属的组来为记录添加标签。

不需事先了解组信息及组特征即可完成该操作。

事实上,甚至无法确切知道要查找多少个组。

■关联性分析模型
SPSS Modeler可以通过Apriori、GRI及CARMA三种算法发现关联规则。

若数据呈现序列性,则可采用“序列”节点发现连续数据或面向时间的数据中的模式。

■时间序列分析模型
时间序列算法集成了指数平滑、单变量ARIMA和多变量ARIMA
算法来预测基于时间序列的数据。

SPSS Modeler提供“专家模式”,自动侦测和评估出使用哪种算法能够得到最精确的预测结果。

这种方式能够减少用户在模型训练中的误差和调试的时间。

在所有情况下,专家模式都能给出一个匹配程度最好的模型。

■其它统计分析与数据挖掘模型
SPSS Modeler还提供线性回归、逻辑回归、广义线性模型、判别分析、Cox 回归SVM(Support Vector Machines)、贝叶斯网络等多种算法。

简洁直观的模型评估
SPSS Modeler提供的评估图包括:收益图表、提升图表、投资回报图表、利润图表、响应图表。

评估图表还可以被累积,累积图表通常可以使模型的整体运行状态变得更佳。

此外,还可以利用SPSS Modeler输出面板中的分析、矩阵、统计等节点输出表格、统计量等对模型进行评估。

多种格式的数据导出
SPSS Modeler可以导出的格式有与 ODBC 兼容的相关数据源、定长、分隔符、SPSS文件、SAS文件、Excel文件等,方便您对结果数据的使用。

灵活的产品部署
SPSS Modeler支持方便灵活的部署方式,您可以将模型直接发布到数据库中进行高效的数据库打分,也可制定定期定时的模型运行计划,还可以将模型保存为PMML的通用格式,支持对其进行二次开发。

性能卓越的三层体系架构
在主流的商业应用中,Modeler使用Database Server + Modeler Server 服务器 + Modeler Client客户端的三层分布式体系结构,Modeler Server 能够与一个或多个Modeler Client端程序一起运行:
Database Server数据库服务器。

数据库服务器可以是某个现有的数据集市(例如,基于大型 UNIX 服务器的 Oracle 服务器),或基于或者为了降低对其它业务系统的影响,而建立的本地或部门服务器
中的数据集市(例如,基于Windows 的 SQL Server)。

SPSS Modeler Server。

此服务器软件安装在服务器计算机上,并通过网络与SPSS Modeler(s) 和数据库相连接。

SPSS Modeler Server 将作为服务(在Windows 中)或作为守护进程(在 UNIX )运行,同时等待客户端连接。

它将执行使用SPSS Modeler 创建的流和脚本。

SPSS Modeler Client。

客户端软件将安装在最终用户的计算机上。

客户端软件将提供用户界面并显示数据挖掘结果。

此客户端是一个完整的 SPSS
Modeler 软件安装程序,但当其与 SPSS Modeler Server 连接来进行分布式分析时,此客户端的引擎处于非激活状态。

此SPSS Modeler Client仅能在Windows 操作系统上运行。

由于将资源集约型操作的请求分发给功能强大的Modeler服务器软件在分布式分析模式下不间断运行,同时在服务器上可以完成内存集约型操作,且无需将数据下载至客户端计算机,因而使大数据集的处理速度大大加快。

Modeler Server 还提供对SQL 优化和数据库内建模功能的支持,从而在性能和自动化方面带来更多的优势。

Modeler Server 除 Windows 系统以外,可以在 UNIX 上运行,这样在选择安装平台时更具灵活性。

在任何平台上,您均可指定快速、大型的服务器计算机来进行数据挖掘。

相关文档
最新文档