CPDA考试移动客户细分聚类

合集下载

CPDA数据分析师原题考试题理论题带答案

正确答案： D 正确答案： D
A、1080 B、1250 C、1000 D、1200
51、在SQL中，建立表用的命令是（）
正确答案： B
A、CREATE SCHEMA B、CREATE TABLE C、CREATE VIEW D、CREATE DATABASE
52、东北人养了一只鸡和一头猪。一天鸡问猪：＂主人呢？＂猪说：＂出去买蘑菇了。＂鸡听了撒丫子就跑。猪说：＂你跑什么？＂鸡叫道：“有本事主人买粉条的时候你小子别跑！＂以上对话体现了数据分析方法中的（）
45、对快速聚类（K-Means）说法错误的是（）
正确答案： B
A、占内存少､计算量小､处理速度快 B、可以对样本聚类,也可以对变量聚类 C、适合大样本 D、需要事先确定多少个类别
46、Winter指数平滑模型至少需要（）年以上的数据
正确答案： C
A、2 B、3 C、4 D、5
47、时间序列中的发展水平（）
29、在所有两位数(10－99)中任取一两位数，则此数能被2或3整除的概率为
正确答案： C 正确答案： D 正确答案： C
正确答案： C 正确答案： C 正确答案： C 正确答案： D 正确答案： D 正确答案： B 正确答案： A 正确答案： A 正确答案： D 正确答案： B 正确答案： D 正确答案： B 正确答案： C 正确答案： D 正确答案： B 正确答案： A 正确答案： B 正确答案： D 正确答案： B 正确答案： C 正确答案： C 正确答案： B
正确答案： D
A、只能是绝对数 B、只能是相对数 C、只能是平均数 D、以上三种指标都可以
48、在时间序列分析中，一般用循环变动指数（C%）来测定循环波动，（）是计算C%的常用方法。

CPDA考试真题与答案2

一、判断题1. 数据根据计量尺度不同可以分为分类数据和数值型数据。

正确答案：×2. 多次抛一枚硬币，正面朝上的频率是1/2 。

正确答案：×3. 归纳法是一种从个别到一般的推理方法。

正确答案：√4. d atahoop 中输入的数据必须是数值型的。

正确答案：×5. 置信水平是假设检验中犯第一类错误的概率。

正确答案：×6. 当两种产品为互补品时，其交叉弹性小于零。

正确答案：√7. 时间序列分解法可以有乘法模型和加法模型两种表示方式，其中乘法模型都是相对值来表示预测值的，加法模型都是用绝对值来表示预测值的。

正确答案：×8. 需求定价法的核心思想是力求在需求高涨时收取较低价格，而当需求低落时则收取较高价格。

正确答案：×9. 盈亏平衡分析是静态分析，不考虑资金的时间价值和项目寿命周期内的现金流量的变化。

正确答案：√10. 决策树算法易于理解好实现，且对缺失值、异常值和共线性都不敏感，是做分类预测的首选算法。

正确答案：×11. 随机森林中的每棵树都不进行剪枝，因此过拟合的风险很高。

正确答案：×12. 当倒传递神经网络（BP 神经网络）无隐藏层，输出层个数只有一个的时候，也可以看做是逻辑回归模型。

正确答案：√13. 维规约即事先规定所取模型的维数，可以认为是降维的一种。

正确答案：×14. 标准差越小，表示离散程度越小，风险越大；反之离散程度越大，风险越小。

正确答案：×15. 离群点是一个实际观测值，它与其他观测值的差别如此之大，以至于怀疑它是由不同的机制产生的。

正确答案：√二、单选题1. S QL 语言中，删除一个表中所有数据，但保留表结构的命令是（）A、DELETEB、DROPC、CLEARD、REMORE正确答案： A2. 数据库系统是由（）组成的A、数据库、数据库管理系统和用户B、数据文件、命令文件和报表C、数据库文件结构和数据D、常量、变量和函数正确答案： A3. 假如学生考试成绩以“优”. “良”. “及格”和“不及格”来记录，为了说明全班同学考试成绩的水平高低，其集中趋势的测度（）A、可以采用算术平均数B、可以采用众数或中位数C、只能采用众数D、只能采用四分位数正确答案： C4. 以下哪个变量可以反映客户的忠诚度?（）A、购买频次B、购买金额C、最后一次购买时间D、购买金额波动率正确答案： A5. 以下哪个类型的变量在作预测客户流失的模型中最有解释力度？A、人口基本数据，比如年龄和性别B、基本社会状态数据，比如收入和职业C、业务数据，比如消费频次D、业务数据的衍生变量，比如最近 3 个月消费频次的变化情况正确答案： D6. 下面关于聚类分析说法错误的是（）A、一定存在一个最优的分类B、聚类分析是无监督学习C、聚类分析可以用于判断异常值D、聚类分析即:物以类聚,人以群分正确答案： A7. 某小区60 ％居民订晚报，45 ％订青年报，30％两报均订，随机抽一户。

聚类技术在客户细分中的应用研究

聚类技术在客户细分中的应用研究在市场竞争激烈的今天，企业经营者和市场营销人员向来非常关注客户需求和市场细分。

客户细分的核心是将市场划分为多个小领域，将不同的客户分为若干不同类别，然后针对不同类别的客户实行具体的市场营销策略。

为了实现客户细分，企业经营者可以采用各种技术手段，其中聚类技术是一种常用方法。

聚类技术（Cluster analysis）是一种数据挖掘方法，旨在将一个数据集分成多个子集，使得各子集内部观察值的相似性要高于子集间观察值的差异性。

常见的聚类方法包括层次聚类、k均值聚类、DBSCAN聚类等等。

在客户细分的实际应用中，k均值聚类被广泛使用。

k均值聚类是一种基于距离的聚类算法，其核心是将数据集划分为k个互不重叠的簇。

K均值算法的实现方法是从数据集中随机选择k个数据点作为初始质心，将数据集中的所有其他数据点划分为与这些质心距离最近的簇，然后重新计算每个簇的质心，再次将数据集中所有点划分为与这些质心最近的簇，并继续迭代直到簇中的数据点不再变化。

最终得到k个簇的划分结果。

在客户细分中，k均值聚类可以帮助企业将市场划分为若干具有相似特征的小领域，从而实现有效的市场营销策略。

下面通过一个客户数据样例来说明该方法的应用。

假设一个企业拥有1000个客户，每个客户都有以下属性：年龄、性别、婚姻状况、职业、收入水平、购买频率等。

企业想要将这些客户进行市场细分，制定不同的营销策略。

首先，该企业需要对客户数据进行数据清洗、预处理、数据标准化等处理，以便为聚类分析做好准备。

在进行k均值聚类之前，需要确定簇的数量。

簇的数量的选择应该基于业务需求以及客户数据的特征，不同的簇数量可能会得到不同的市场细分结果。

为了确定最佳簇数，可以使用肘部法则和轮廓系数来评估结果质量，然后选择最合适的簇数。

在本例中，根据肘部法则和轮廓系数，选择簇数k=5。

在进行了簇数的选择后，我们就可以开始进行聚类分析了。

将客户数据输入k均值聚类算法中，经过多次迭代后，得到k=5个簇的划分结果。

基于聚类分析的顾客细分研究

基于聚类分析的顾客细分研究近年来，为了更好地满足顾客的需求，企业开始着手进行顾客细分。

与传统的均匀分配资源方式相比，顾客细分可以使得资源的利用更为合理，也能够为企业提供更有针对性的营销方案。

其中，基于聚类分析的顾客细分成为了一种热门的方法。

聚类分析是一种数据挖掘技术，通过将一组顾客分为多个不同的子集（即簇）的过程来确定相似性和差异性。

聚类分析的簇是基于相似性统计的范畴来划分的。

相似性通常是基于多重变量计算得出的。

这些多重变量可能是顾客属性，行为或偏好等方面的指标。

聚类分析的目标是尽可能的将同一簇中顾客的差异性降至最小，同时尽可能地提高簇间的差异性。

基于聚类分析的顾客细分可以帮助企业进行更为精准的营销。

下面我们具体探讨一下方法实施的流程和步骤。

首先，企业需要收集尽可能多的数据。

这些数据可以包括顾客的年龄、性别、地域、收入、消费习惯等信息。

同时，企业还可以收集顾客的交互信息，如网站浏览量、购买次数、购买金额等。

其次，企业需要对这些数据进行处理和准备。

数据处理可以包括特征选取和缺失值填充等。

特征选取是指选择对于簇划分有意义的指标变量。

缺失值填充可以采用平均值、中位数等常见方法进行填充。

接着，企业需要确定簇的数量。

簇的数量取决于顾客的数量和细分的目的。

通常情况下，簇的数量应该比较少，以避免冗余和过度分析。

聚类分析可以依据不同的距离函数和聚类算法来进行。

企业可以根据自己的需求自行选择。

最后，企业需要对分析结果进行解释和应用。

具体来说，可以根据簇的不同特征对顾客进行分类和打标签，制定更为针对性的市场营销策略。

此外，企业还可以与顾客互动，进行更深入的了解，提高产品和服务的满意度。

需要注意的是，聚类分析并非是万能的。

企业还应该注意用数据说话，避免过度的主观判断，以达到更为客观有效的顾客细分目标。

综上所述，基于聚类分析的顾客细分是一种非常可行的方法。

通过聚类分析将顾客分为多个簇，企业可以更加了解顾客的需求和服务要求。

CPDA考试真题与答案-4

CPDA考试真题与答案-410.时间序列若无季节变动，则其各月（季）季节指数为0.正确答案：×11.一个硬币掷10 次，其中5 次正面向上的概率是0.5。

正确答案：×12.DBSCAN算法对异常值敏感，因此要在聚类前进行异常值分析。

正确答案：×13.在假设检验中,当我们做出拒绝原假设而接受备择假设的结论时,表示原假设是错误的。

正确答案：×14.召回率（recall）指预测为正的样本中实际为正的样本所占比例。

正确答案：×15.逻辑回归只能用于二分类问题，即输出只有两种，分别代表两个类别。

正确答案：×二、单选题1.Apriori算法用下列哪个做项目集(Itemset)的筛选？A、最小信赖度(Minimum Confidence)B、最小支持度(Minimum Support)C、交易编号(TransactionID)D、购买数量正确答案：B2.为调查我国城市女婴出生体重：北方n1=5385，均数为3.08kg，标准差为0.53kg；南方n2=4896，均数为 3.10kg，标准差为0.34kg，经统计学检验，p=0.0034<0.01，这意味着（）A、南方和北方女婴出生体重的差别无统计学意义B、南方和北方女婴出生体重差别很大C、由于P值太小，南方和北方女婴出生体重差别无意义D、南方和北方女婴出生体重差别有统计学意义但无实际意义正确答案：D3.预测分析中将原始数据分为训练数据集和测试数据集等，其中训练数据集的作用在于（）A、用于对模型的效果进行无偏的评估B、用于比较不同模型的预测准确度C、用于构造预测模型D、用于选择模型正确答案：C4.一个射手连续射靶22次，其中3次射中10环，7次射中9环，9次射中8环，3次射中7环．则射中环数的中位数和众数分别为（）A、8，9B、8，8C、8.5，8D、8.5，9正确答案：B5.一般来说，当居民收入减少时，居民储蓄存款也会相应减少，二者之间的关系是（）A、负相关B、正相关C、零相关D、曲线相关正确答案：B6.下表为一交易数据库，请问A → C 的信赖度(Confidence)为（）A、75%B、50%C、60%D、66.7%正确答案：D7.如何利用「体重」以简单贝式分类(Naive Bayes)预测「性别」？A、选取另一条件属性B、将体重正规化为到0~1 之间C、将体重离散化D、无法预测正确答案：C8.以下哪个属于时间序列的问题？（）A、信用卡发卡银行侦测潜在的卡奴B、基金经理人针对个股做出未来价格预测C、电信公司将人户区分为数个群体D、以上皆是正确答案：B9.数据缺失(Null Value)处理方法可分为人工填补法及自动填补法，下列哪种填补法可得到较准确的结果？A、填入一个通用的常数值，例如填入"未知/UnknownB、把填补遗缺值的问题当作是分类或预测的问题C、填入该属性的整体平均值D、填入该属性的整体中位数正确答案：B10.某市有各类书店500家，其中大型50家，中型150家，小型300家。

CPDA考试真题与答案-2.doc

一、判断题1•数据根据计量尺度不同可以分为分类数据和数值型数据。

正确答案：X2•多次抛一枚硬币，正面朝上的频率是1/2O正确答案：x3. 归纳法是一种从个别到一般的推理方法。

正确答案：V4. datahoop中输入的数据必须是数值型的。

正确答案：x5•置信水平是假设检验中犯第一类错误的概率。

6. 当两种产品为互补品时，其交叉弹性小于零。

正确答案：V7. 时间序列分解法可以有乘法模型和加法模型两种表示方式，其中乘法模型都是相对值来表示预测值的，加法模型都是用绝对值来表示预测值的。

正确答案：x8•需求定价法的核心思想是力求在需求高涨时收取较低价格，而当需求低落时则收取较高价格。

正确答案：x9. 盈亏平衡分析是静态分析，不考虑资金的时间价值和项目寿命周期内的现金流量的变化。

正确答案：V10. 决策树算法易于理解好实现，且对缺失值、异常值和共线性都不敏感，是做分类预测的首选算法。

".随机森林中的每棵树都不进行剪枝，因此过拟合的风险很高。

正确答案：X12. 当倒传递神经网络（BP神经网络）无隐藏层，输出层个数只有一个的时候，也可以看做是逻辑回归模型。

正确答案：V13. 维规约即事先规定所取模型的维数，可以认为是降维的一种。

正确答案：x14. 标准差越小，表示离散程度越小，风险越大；反之离散程度越大，风险越小。

正确答案：x15. 离群点是一个实际观测值，它与其他观测值的差别如此之大，以至于怀疑它是由不同的机制产生的。

二、单选题1.SQL语言中，删除一个表中所有数据，但保留表结构的命令是（）A、DELETEB、DROPC、C LEARD、R EMORE正确答案：A2•数据库系统是由（）组成的A、数据库、数据库管理系统和用户B、数据文件、命令文件和报表C、数据库文件结构和数据D、常量、变量和函数正确答案：A3.假如学生考试成绩以“优”.“良”.“及格”和“不及格”来记录，为了说明全班同学考试成绩的水平高低，其集中趋势的测度（）A、可以采用算术平均数B、可以采用众数或中位数C、只能采用众数D、只能采用四分位数正确答案：C4•以下哪个变量可以反映客户的忠诚度？（）A、购买频次B、购买金额C、最后一次购买时间D、购买金额波动率正确答案：A5. 以下哪个类型的变量在作预测客户流失的模型中最有解释力度？A、人口基本数据，比如年龄和性别B、基本社会状态数据，比如收入和职业C、业务数据，比如消费频次D、业务数据的衍生变量，比如最近3个月消费频次的变化情况正确答案：D6. 下面关于聚类分析说法错误的是（）A、一定存在一个最优的分类B、聚类分析是无监督学习C、聚类分析可以用于判断异常值D、聚类分析即:物以类聚，人以群分正确答案：A7. 某小区60%居民订晚报，45%订青年报，30%两报均订，随机抽一户。

利用聚类分析进行用户细分的步骤

利用聚类分析进行用户细分的步骤在当今互联网时代，随着大数据的兴起，各种数据的收集和分析成为企业获得竞争优势的重要手段之一。

对用户进行细分是帮助企业了解自己的目标群体和提供个性化服务的关键。

而聚类分析是一种常用的数据分析方法，可以将用户根据特定的特征进行自动分组，从而实现用户细分。

下面是利用聚类分析进行用户细分的步骤：1.确定需要细分的特征在进行用户细分之前，首先需要确定用于分类的特征。

这些特征可以包括用户的基本信息（如性别、年龄、地理位置等）、行为数据（如购买记录、浏览行为等）以及其他与业务相关的指标。

根据不同的业务需求和分析目的，选择合适的特征进行用户细分。

2.数据预处理在进行聚类分析之前，需要对数据进行预处理。

这包括数据清洗、缺失值处理、异常值处理以及数据标准化等步骤。

通过数据预处理，可以消除数据中的噪音和干扰，提高聚类分析的准确性和稳定性。

3.选择聚类算法根据具体的数据特点和分析目的，选择合适的聚类算法。

常用的聚类算法包括K-means聚类、层次聚类、密度聚类等。

不同的算法有不同的特点和适用场景，因此需要根据具体情况进行选择。

4.确定聚类数目在进行聚类分析之前，需要确定聚类的数目。

一般来说，聚类数目的选择是根据业务需求和分析目的来确定的。

可以通过观察数据的分布特点、使用肘部法则、轮廓系数等方法来选择合适的聚类数目。

5.进行聚类分析根据选定的聚类算法和聚类数目，对数据进行聚类分析。

聚类分析的目标是将具有相似特征的用户分到同一组，同时使不同组之间的差异最大化。

通过聚类分析，可以得到每个用户所属的聚类簇，从而实现用户细分。

6.评估聚类结果在进行聚类分析之后，需要对聚类结果进行评估和解释。

评估聚类结果的常用方法包括轮廓系数、凝聚度、分离度等。

通过评估聚类结果，可以判断聚类的稳定性和准确性，并根据需要对结果进行优化和调整。

7.应用用户细分结果最后，将用户细分结果应用到实际业务中。

根据用户细分的结果，可以进行个性化营销、精准推荐、市场定位等策略的制定。

CPDA考试真题与答案 5

一、判断题（题数: 15, 共15.0 分）1.定量属性可以是整数值或者是连续值。

（）正确答案: √2.分类模型的误差大致分为两种: 训练误差（training error）和泛化误差（generalization error）。

（）正确答案: √3.在决策树中, 随着树中结点数变得太大, 即使模型的训练误差还在继续减低, 但是检验误差开始增大, 这是出现了模型拟合不足的问题。

（）正确答案: ×4.在聚类分析当中, 簇内的相似性越大, 簇间的差别越大, 聚类的效果就越差。

（）正确答案: ×5.聚类分析可以看作是一种非监督的分类。

（）正确答案: √6.如果一个对象不强属于任何簇, 那么该对象是基于聚类的离群点。

（）正确答案: √7.允许误差应根据错误记录对整个系统可能带来的破坏来确定, 通常正是那些低使用率的产品或不常使用的产品为库存误差带来很大麻烦, 因此应结合数量方差百分比和绝对值方差来确定误差。

（）正确答案: √8.召回率反映的是预测为正中的样本中正例的概率。

（）正确答案: ×9.支持度表示前项与后项在一个数据集中同时出现的频率。

（）正确答案: √10.最大最小值标准化法也叫极值法, 该方法适用于已知数据集的最小值或最大值情况。

（）正确答案: √11.波特五力模型中五个压力来源是供应商议价能力、购买者的议价能力、行业新进入者的威胁、替代产品的威胁及企业内部的管理压力。

（）（1.0分）1.0 分正确答案: ×12.异常值在数理统计里一般是指一组观测值中与平均值的偏差超过三倍标准差的测定值。

（）正确答案: ×13.数据可视化可以便于人们对数据的理解。

（）正确答案: √14.大数据思维, 是指一种意识, 认为公开的数据一旦处理得当可以为人类急需解决的问题提供答案。

（）正确答案: √15.资金本身具有时间价值。

（）正确答案: ×二、单选题（题数: 30, 共45.0 分）1.某超市研究销售记录发现, 购买牛奶的人很大概率会购买面包, 这种属于数据挖掘的哪类问题？（）A.聚类分析B.关联规则C.分类分析D.自然语言处理正确答案: B2.以下两种描述分别对应哪两种对分类算法的评价标准？（）(a)警察抓杀人犯, 描述警察抓的人中有多少个是杀人犯的标准。

CPDA考试移动客户细分聚类

一、假如你是某移动运营商的数据分析师，结合用户通话行为数据，通过数据分析为用户推荐相应套餐或者结合用户现有套餐优化套餐，提供个性化套餐,从而对客户进行精准营销,增加客户粘性。

运营商收集到的数据包含下列字段；根据客户行为数据，进行数据的预处理（可以自行根据现有变量构造新变量进行分析)，预处理之后选择适合变量进行分析,分析算法自行选择，写出分析思路和过程，通过数据分析对客户进行细分,并为运营商提供客户精准营销的相关建议。

（请写出分析的流程并刻画最后细分之后的客户的特点和相应的营销建议）.K—Means据类的步骤：1.确定所有聚类变量（聚类因子）;2.数据预处理（分类变量数值化、处理缺失值、分析是否存在共线性等，若只有两个变量共线则用比值法，较多变量共线用主成分分析进行降维)；3.确定聚类个数并用处理后的聚类因子进行聚类分析（若未说明则需要尝试不同的聚类个数[3,4，5，6,7］,从中选择平均轮廓系数较大且结果易于分析解释的模型）;4.分析聚类效果和聚类结果（类中心点和每个类等）；5.结合实际情况分析每类的意义等 .(聚类分析处理共线性时不能直接删除，可用比值替代或主成分分析等来消除共线性）案例分析：观察数据类型，检查数据是否具有缺失值。

数据类型为数值型，原始数据没有缺失值.我们把数据导入DATAHOOP平台，在展示分析中进行异常值分析。

分析结果如下表：Peak_mins OffPeak_mins Weekend_mins上四分位1382.1 426。

825 74.875中间值1030。

2 274.05 44。

4下四分位700.2 154.425 25。

05异常值个数 6 5 5International_mins Total_mins average_mins上四分位389.03 1781.3 4.2075中间值294.075 1370.85 2.73下四分位221.2275 1094.925 2。

聚类算法在客户细分中的实践应用是什么

聚类算法在客户细分中的实践应用是什么在当今竞争激烈的商业环境中，企业越来越重视客户关系管理，以实现精准营销、提高客户满意度和忠诚度。

而客户细分作为客户关系管理的重要环节，能够帮助企业更好地理解客户需求和行为特征，从而制定更有针对性的营销策略。

聚类算法作为一种有效的数据分析工具，在客户细分中发挥着重要作用。

一、聚类算法简介聚类算法是一种无监督学习算法，它的目的是将数据集中相似的数据点归为一类，不同类的数据点之间具有较大的差异。

聚类算法不需要事先知道数据的类别标签，而是通过数据的内在特征和相似性自动进行分类。

常见的聚类算法包括 KMeans 算法、层次聚类算法、密度聚类算法等。

KMeans 算法是一种基于距离的聚类算法，它通过不断迭代计算每个数据点到各个聚类中心的距离，将数据点分配到距离最近的聚类中心所属的类中，然后重新计算聚类中心，直到聚类结果收敛。

层次聚类算法则是通过构建聚类树的方式进行聚类，它可以分为自下而上的凝聚层次聚类和自上而下的分裂层次聚类。

密度聚类算法则是根据数据点的密度来进行聚类，能够发现任意形状的聚类。

二、客户细分的重要性客户细分是指将客户按照某些特征或行为模式划分为不同的群体。

通过客户细分，企业可以更好地了解客户的需求和偏好，从而为不同细分群体提供个性化的产品和服务。

这有助于提高客户满意度和忠诚度，增加客户的购买频率和消费金额，进而提升企业的市场竞争力和盈利能力。

例如，对于一家电商企业来说，如果能够将客户细分为价格敏感型客户、品质追求型客户和时尚潮流型客户等不同群体，就可以针对每个群体的特点制定相应的营销策略。

对于价格敏感型客户，可以提供更多的优惠活动和折扣；对于品质追求型客户，可以强调产品的质量和品牌形象；对于时尚潮流型客户，可以及时推出最新的时尚款式和流行元素。

三、聚类算法在客户细分中的应用步骤1、数据收集和预处理首先，需要收集与客户相关的数据，如客户的基本信息、购买记录、浏览行为、投诉反馈等。

聚类分析在客户细分中的应用

聚类分析在客户细分中的应用随着市场竞争的日益激烈，企业越来越重视客户细分，以便更好地满足不同客户的需求。

而聚类分析作为一种常用的数据挖掘方法，可以帮助企业实现客户细分，从而提高市场竞争力。

本文将介绍聚类分析的基本原理和方法，并探讨其在客户细分中的应用。

一、聚类分析的基本原理和方法聚类分析是一种无监督学习方法，通过对样本数据进行分类（或分群），将相似的样本归为一类，不相似的样本归为不同类。

聚类分析的基本原理是最小化类内差异（相似性），最大化类间差异（差异性）。

常用的聚类算法有K-Means、层次聚类、密度聚类等。

以K-Means算法为例，其步骤如下：1. 选择合适的K值，即将样本分成K个类别；2. 随机选择K个初始聚类中心；3. 计算每个样本与聚类中心的距离，并将其归类到最近的聚类中心；4. 更新聚类中心，计算每个聚类的均值，并将其作为新的聚类中心；5. 重复步骤3和4，直到聚类中心的变动小于设定阈值，或达到最大迭代次数。

二、1. 基于消费行为的客户细分聚类分析可以根据客户的消费行为将其细分为不同的群体。

通过分析客户的购买频率、购买金额、购买渠道等指标，将具有相似消费行为的客户聚类到同一组。

这样可以更好地了解不同群体的消费习惯和偏好，为企业提供精确的营销策略。

2. 基于地理位置的客户细分通过聚类分析可以将具有相似地理位置特征的客户进行细分。

例如，可以将客户按照所在城市、区域进行聚类，以了解不同区域客户的需求差异。

这有助于企业优化产品、服务的地区布局，并制定相应的市场推广策略。

3. 基于偏好标签的客户细分聚类分析可以通过分析客户对不同产品或服务的偏好标签，将其细分为具有相似偏好的群体。

例如，可以根据客户对运动、美食、旅行等领域的偏好将其聚类。

这样可以为企业提供针对性的产品推荐、个性化的营销服务。

4. 基于时间特征的客户细分通过聚类分析可以将具有相似时间特征的客户进行细分。

例如，可以将客户按照购买频率、购买时间等时间特征进行聚类，以了解不同群体对于产品或服务的时间需求。

CPDA考试真题及答案

一、判断题1.数据可分为构造化数据和非构造化数据等。

正确答案：√2.大数据与传统数据有着本质上的差异，因此之前处理数据的方法和软件都不再适用，大数据分析有专用的软件和方法。

正确答案：×3.数据分析的核心是数据，因此数据的获取和处理十分关键。

正确答案：×4.Apriori算法可用于分类预算。

正确答案：×5.一组数据的众数和中位数都是唯一的。

正确答案：×6.资金的时间价值表达在资金会随着时间而增值，如银行存款会增加利息。

正确答案：×7.茎叶图不仅能够反映数据的分布情况，还能显示数据的原始信息。

正确答案：√8.在多元回归分析中，检验方程的拟合优度用调整后的R的平方效果更好。

正确答案：√9.在对不同工程进展风险衡量时，可以用标准差作为标准，标准差越大，方案风险水平越高。

正确答案：×10.时间序列假设无季节变动，则其各月〔季〕季节指数为0.正确答案：×11.一个硬币掷10 次，其中5 次正面向上的概率是0.5。

正确答案：×12.DBSCAN算法对异常值敏感，因此要在聚类前进展异常值分析。

正确答案：×13.在假设检验中,当我们做出拒绝原假设而承受备择假设的结论时,表示原假设是错误的。

正确答案：×14.召回率〔recall〕指预测为正的样本中实际为正的样本所占比例。

正确答案：×15.逻辑回归只能用于二分类问题，即输出只有两种，分别代表两个类别。

正确答案：×二、单项选择题1.Apriori算法用以下哪个做工程集(Itemset)的筛选.A、最小信赖度(Minimum Confidence)B、最小支持度(Minimum Support)C、交易编号(TransactionID)D、购置数量正确答案：B2.为调查我国城市女婴出生体重：北方n1=5385，均数为3.08kg，标准差为0.53kg；南方n2=4896，均数为3.10kg，标准差为0.34kg，经统计学检验，p=0.0034<0.01，这意味着〔〕A、南方和北方女婴出生体重的差异无统计学意义B、南方和北方女婴出生体重差异很大C、由于P值太小，南方和北方女婴出生体重差异无意义D、南方和北方女婴出生体重差异有统计学意义但无实际意义正确答案：D3.预测分析中将原始数据分为训练数据集和测试数据集等，其中训练数据集的作用在于〔〕A、用于对模型的效果进展无偏的评估B、用于比拟不同模型的预测准确度C、用于构造预测模型D、用于选择模型正确答案：C4.一个射手连续射靶22次，其中3次射中10环，7次射中9环，9次射中8环，3次射中7环．则射中环数的中位数和众数分别为〔〕A、8，9B、8，8C、8.5，8D、8.5，9正确答案：B5.一般来说，当居民收入减少时，居民储蓄存款也会相应减少，二者之间的关系是〔〕A、负相关B、正相关C、零相关D、曲线相关正确答案：B6.下表为一交易数据库，请问A →C 的信赖度(Confidence)为〔〕A、75%B、50%C、60%D、66.7%正确答案：D7.如何利用「体重」以简单贝式分类(Naive Bayes)预测「性别」.A、选取另一条件属性B、将体重正规化为到0~1 之间C、将体重离散化D、无法预测正确答案：C8.以下哪个属于时间序列的问题.〔〕A、信用卡发卡银行侦测潜在的卡奴B、基金经理人针对个股做出未来价格预测C、电信公司将人户区分为数个群体D、以上皆是正确答案：B9.数据缺失(Null Value)处理方法可分为人工填补法及自动填补法，以下哪种填补法可得到较准确的结果.A、填入一个通用的常数值，例如填入"未知/UnknownB、把填补遗缺值的问题当作是分类或预测的问题C、填入该属性的整体平均值D、填入该属性的整体中位数正确答案：B10.*市有各类书店500家，其型50家，中型150家，小型300家。

CPDA考试真题与答案5

一、判断题（题数：15 ，共15.0 分）1.定量属性可以是整数值或者是连续值。

（）正确答案：√2.分类模型的误差大致分为两种：训练误差（training error ）和泛化误差（generalizationerror ）。

（）正确答案：√3.在决策树中，随着树中结点数变得太大，即使模型的训练误差还在继续减低，但是检验误差开始增大，这是出现了模型拟合不足的问题。

（）正确答案：×4.在聚类分析当中，簇内的相似性越大，簇间的差别越大，聚类的效果就越差。

（）正确答案：×5.聚类分析可以看作是一种非监督的分类。

（）正确答案：√6.如果一个对象不强属于任何簇，那么该对象是基于聚类的离群点。

（）正确答案：√7.允许误差应根据错误记录对整个系统可能带来的破坏来确定，通常正是那些低使用率的产品或不常使用的产品为库存误差带来很大麻烦，因此应结合数量方差百分比和绝对值方差来确定误差。

（）正确答案：√8.召回率反映的是预测为正中的样本中正例的概率。

（）正确答案：×9.支持度表示前项与后项在一个数据集中同时出现的频率。

（）正确答案：√10. 最大最小值标准化法也叫极值法，该方法适用于已知数据集的最小值或最大值情况。

（）正确答案：√11.波特五力模型中五个压力来源是供应商议价能力、购买者的议价能力、行业新进入者的威胁、替代产品的威胁及企业内部的管理压力。

（）（1.0 分） 1.0 分正确答案：×12.异常值在数理统计里一般是指一组观测值中与平均值的偏差超过三倍标准差的测定值。

（）正确答案：×13.数据可视化可以便于人们对数据的理解。

（）正确答案：√14.大数据思维，是指一种意识，认为公开的数据一旦处理得当可以为人类急需解决的问题提供答案。

（）正确答案：√15. 资金本身具有时间价值。

（）正确答案：×二、单选题（题数：30 ，共45.0 分）1.某超市研究销售记录发现，购买牛奶的人很大概率会购买面包，这种属于数据挖掘的哪类问题？（）A、聚类分析B、关联规则C、分类分析D、自然语言处理正确答案： B2.以下两种描述分别对应哪两种对分类算法的评价标准？（）(a)警察抓杀人犯，描述警察抓的人中有多少个是杀人犯的标准。

大数据CPDA考试模拟样题—数据分析应用

考试模拟样题—数据分析应用一.计算题 (共2题,100.0分）1.移动公司想结合用户通话行为，推荐相应套餐，或者结合用户现有套餐优化用户套餐，提供个性化套餐，从而对客户进行精准营销，增加客户粘性。

为此，移动公司收集了下列数据，移动公司收集到的数据包含下列字段：data-移动用户细分聚类.xlsx请你根据这些客户数据，进行数据的预处理（数据预处理过程中可以根据现有变量构造新变量进行分析），预处理之后选择合适变量进行分析，分析算法自行选择，写出分析思路和过程，通过数据分析对客户进行细分，将客户分为5类。

并为移动公司提供客户精准营销的相关建议。

（请写出分析的流程并刻画最后细分之后的客户的特点和相应的营销建议）正确答案：分析过程：根据题目可以选取聚类方法对客户进行细分，这里选取k-means聚类方法进行分析。

1.对数据进行预处理，主要查看数据的相关性，通过查看相关系数矩阵看到peak_mins和total_mins相关性很高，所以对变量进行了处理，只选取其中一个，然后构造一个新的变量peak_mins/total_mins，对这些变量进行聚类分析，由于新构造的变量取值与其他变量取值范围相差较大，因此，在聚类分析时，选择标准化处理之后的数据进行聚类（datahoop可以在分析时默认进行标准化处理）；2.对数据进行聚类分析，选取变量为：peak_mins/total_mins，offpeak_mins，weekend_mins，international_mins，total_mins，average_mins。

3.根据聚类结果分析每一类客户在现有变量上的特征，这里选取平均值作为参考依据。

4.得到聚类分析描述结果为：（卷面上可以不用加颜色，列出数据即可，可以选择标准化之后数据，也可以选择标准化之前数据进行描述统计，这里选取了标准化之前的数据）1.从图中可以看出，第一类用户几乎所有指标都最高，只有平均通话时长较低，因此第一类用户属于高端商用用户；第二类用户在所有指标上属于中等偏上，所以第二类用户属于中高等商用用户；第三类用户在所有指标上处于中等水平，所以第三类用户属于中等商用用户；第四类用户只在平均通话时长上高，其他指标均偏低，说明第四类用户属于常聊用户；第五类用户在所有指标上均较低，因此第五类用户属于低端用户。

CPDA考试真题与答案4

CPDA考试真题与答案4一、判断题1.数据可分为结构化数据和非结构化数据等。

正确答案：√2.大数据与传统数据有着本质上的差别，因此之前处理数据的方法和软件都不再适用，大数据分析有专用的软件和方法。

正确答案：某3.数据分析的核心是数据，因此数据的获取和处理十分关键。

正确答案：某4.Apriori算法可用于分类预算。

正确答案：某5.一组数据的众数和中位数都是唯一的。

正确答案：某6.资金的时间价值体现在资金会随着时间而增值，如银行存款会增加利息。

正确答案：某7.茎叶图不仅能够反映数据的分布情况，还能显示数据的原始信息。

正确答案：√8.在多元回归分析中，检验方程的拟合优度用调整后的R的平方效果更好。

正确答案：√9.在对不同项目进行风险衡量时，可以用标准差作为标准，标准差越大，方案风险水平越高。

正确答案：某10.时间序列若无季节变动，则其各月（季）季节指数为0.正确答案：某11.一个硬币掷10次，其中5次正面向上的概率是0.5。

正确答案：某12.DBSCAN算法对异常值敏感，因此要在聚类前进行异常值分析。

正确答案：某13.在假设检验中,当我们做出拒绝原假设而接受备择假设的结论时,表示原假设是错误的。

正确答案：某14.召回率（recall）指预测为正的样本中实际为正的样本所占比例。

正确答案：某15.逻辑回归只能用于二分类问题，即输出只有两种，分别代表两个类别。

正确答案：某二、单选题1.Apriori算法用下列哪个做项目集(Itemet)的筛选？A、最小信赖度(MinimumConfidence)B、最小支持度(MinimumSupport)D、购买数量正确答案：B2.为调查我国城市女婴出生体重：北方n1=5385，均数为3.08kg，标准差为0.53kg；南方n2=4896，均数为3.10kg，标准差为0.34kg，经统计学检验，p=0.0034<0.01，这意味着（）A、南方和北方女婴出生体重的差别无统计学意义B、南方和北方女婴出生体重差别很大C、由于P值太小，南方和北方女婴出生体重差别无意义D、南方和北方女婴出生体重差别有统计学意义但无实际意义正确答案：D3.预测分析中将原始数据分为训练数据集和测试数据集等，其中训练数据集的作用在于（）A、用于对模型的效果进行无偏的评估B、用于比较不同模型的预测准确度C、用于构造预测模型D、用于选择模型正确答案：C4.一个射手连续射靶22次，其中3次射中10环，7次射中9环，9次射中8环，3次射中7环．则射中环数的中位数和众数分别为（）A、8，9B、8，8C、8.5，8D、8.5，9正确答案：B5.一般来说，当居民收入减少时，居民储蓄存款也会相应减少，二者之间的关系是（）A、负相关B、正相关C、零相关D、曲线相关正确答案：B6.下表为一交易数据库，请问A→C的信赖度(Confidence)为（）A、75%B、50%C、60%D、66.7%正确答案：D7.如何利用「体重」以简单贝式分类(NaiveBaye)预测「性别」？A、选取另一条件属性B、将体重正规化为到0~1之间C、将体重离散化D、无法预测正确答案：C8.以下哪个属于时间序列的问题？（）A、信用卡发卡银行侦测潜在的卡奴B、基金经理人针对个股做出未来价格预测C、电信公司将人户区分为数个群体D、以上皆是正确答案：B9.数据缺失(NullValue)处理方法可分为人工填补法及自动填补法，下列哪种填补法可得到较准确的结果？A、填入一个通用的常数值，例如填入"未知/UnknownB、把填补遗缺值的问题当作是分类或预测的问题C、填入该属性的整体平均值D、填入该属性的整体中位数正确答案：B10.某市有各类书店500家，其中大型50家，中型150家，小型300家。

聚类分析算法在客户细分中的应用研究

聚类分析算法在客户细分中的应用研究随着信息化技术的不断发展，数据的规模和复杂度也越来越大，而如何对海量数据进行快速准确的处理和分析，成为了企业所面临的重要问题之一。

而聚类分析算法作为一种重要的数据挖掘技术，可以对数据进行分类和分组，以便更好地理解和利用数据。

在企业营销中，聚类分析算法也被广泛应用于客户细分中，以便更好地针对不同群体的需求进行营销活动和产品设计。

一、聚类分析算法介绍聚类分析是一种无监督学习的算法，它主要是将样本按照相似性分为若干类别，使得同一类别内部样本相似度尽可能高，不同类别之间样本相似度尽可能低。

聚类分析算法的目标是在未知类别数和结构的情况下，把样本划分为若干个不同的类别。

聚类分析算法有许多种类，常见的有层次聚类和k-means聚类。

层次聚类是一种自下而上的分层聚类算法，它将每个样本看作一个类，然后逐渐将相似度高的类别进行合并，最终得到所有样本构成的一个类别树状结构。

而k-means聚类则是一种分治聚类算法，它将样本分为k个不同的簇，每个簇由一个质心代表。

然后通过计算每个样本距离质心的距离来划分不同的簇。

二、客户细分的意义企业希望根据消费者的需求不同，设计出更符合不同群体需求的产品和服务，从而提高市场占有率和竞争力。

根据群体规模和分布情况，企业可以将消费者分为多层次不同的群体，这就是客户细分。

客户细分有很多好处，首先是识别客户需求。

由于不同群体的需求不同，因此进行客户细分可以更好地了解顾客的需求和偏好，加强与顾客的互动与交流，从而使企业能够更好地满足顾客需求，提高产品满意度和顾客忠诚度。

其次，客户细分是有效的营销手段。

企业可以通过专门的营销策略，例如特别推销产品或服务、给予优惠等，来针对不同的客户群体。

这不仅可以提高营销效率，还可以使企业和顾客之间建立更深层次的关系，从而提高客户保持率和重复消费率。

三、聚类分析在客户细分中的应用聚类分析算法可以将客户分为不同的类别，从而进行客户细分。

CPDA考试真题与答案 3

一、判断题1.样本容量是指从总体中抽取的个体.正确答案: ×2.品质数据既可以用整数值表示,也可以用连续值表示。

正确答案: √3.需求弹性大的产品价格与销售收入反向变化.正确答案：√4。

一般而言，定量预测方法在满足下列三个条件时才能使用：一是能够知道待测变量的过去值，二是信息可以量化，三是过去的变动形式将持续到未来是一个合理的假设。

正确答案: √5。

在对不同项目进行风险衡量时，可以用标准差作为标准，标准差越大，方案风险水平越高.正确答案：×6。

在一定时期和一定产销量范围内,固定成本与产品的产销量多少没有关系，只有可变成本才与产品产销量的增减变化发生关系。

正确答案: √7。

如果两个变量不独立，那这两者的相关系数必然不等于0。

正确答案: ×8.数据库类型是按照数据存取的方法来划分的。

正确答案：×9.SQL语言中，条件年龄BETWEEN 15 AND 35，表示年龄在15至35之间，且包括15岁但不包括35岁。

正确答案：×10。

资本成本就是资金的时间价值。

正确答案：×11。

一组数据排序后处于25％和75％位置上的值称为四分位数.正确答案：√12。

企业购并处于竞争地位的同类型企业形成企业集团称为集团多角化。

正确答案：×13.内部收益率考虑了资金时间价值,受折现率高低的影响。

正确答案：×14.边际收入是指每增加1单位销量所带来的总收入的增加额度。

正确答案：√15.分类预测时，准确率和召回率存在矛盾关系，不能同时增大，所以要考虑他们的综合影响，即F1-Score。

正确答案：×二、单选题1。

当所有观测值都落在回归直线上，则这两个变量之间的相关系数为（）A、1B、-1C、+1或-1D、0正确答案：C2.表示职称为副教授、性别为男的表达式为( ）A、职称='副教授' OR 性别='男'B、职称=’副教授’ AND 性别='男’C、BETWEEN ’副教授’ AND '男’D、IN (’副教授'，'男’）正确答案：B3。

CPDA考试真题与答案 2

一、判断题1.数据根据计量尺度不同可以分为分类数据和数值型数据。

正确答案：×2.多次抛一枚硬币，正面朝上的频率是1/2。

正确答案：×3.归纳法是一种从个别到一般的推理方法。

正确答案：√4.datahoop中输入的数据必须是数值型的。

正确答案：×5.置信水平是假设检验中犯第一类错误的概率。

正确答案：×6.当两种产品为互补品时，其交叉弹性小于零。

正确答案：√7.时间序列分解法可以有乘法模型和加法模型两种表示方式，其中乘法模型都是相对值来表示预测值的，加法模型都是用绝对值来表示预测值的。

正确答案：×8.需求定价法的核心思想是力求在需求高涨时收取较低价格，而当需求低落时则收取较高价格。

正确答案：×9.盈亏平衡分析是静态分析，不考虑资金的时间价值和项目寿命周期内的现金流量的变化。

正确答案：√10.决策树算法易于理解好实现，且对缺失值、异常值和共线性都不敏感，是做分类预测的首选算法。

正确答案：×11.随机森林中的每棵树都不进行剪枝，因此过拟合的风险很高。

正确答案：×12.当倒传递神经网络（BP神经网络）无隐藏层，输出层个数只有一个的时候，也可以看做是逻辑回归模型。

正确答案：√13.维规约即事先规定所取模型的维数，可以认为是降维的一种。

正确答案：×14.标准差越小，表示离散程度越小，风险越大；反之离散程度越大，风险越小。

正确答案：×15.离群点是一个实际观测值，它与其他观测值的差别如此之大，以至于怀疑它是由不同的机制产生的。

正确答案：√二、单选题1.SQL语言中，删除一个表中所有数据，但保留表结构的命令是（）A、DELETEB、DROPC、CLEARD、REMORE正确答案：A2.数据库系统是由（）组成的A、数据库、数据库管理系统和用户B、数据文件、命令文件和报表C、数据库文件结构和数据D、常量、变量和函数正确答案：A3.假如学生考试成绩以“优”.“良”.“及格”和“不及格”来记录，为了说明全班同学考试成绩的水平高低，其集中趋势的测度（）A、可以采用算术平均数B、可以采用众数或中位数C、只能采用众数D、只能采用四分位数正确答案：C4.以下哪个变量可以反映客户的忠诚度?（）A、购买频次B、购买金额C、最后一次购买时间D、购买金额波动率正确答案：A5.以下哪个类型的变量在作预测客户流失的模型中最有解释力度？A、人口基本数据，比如年龄和性别B、基本社会状态数据，比如收入和职业C、业务数据，比如消费频次D、业务数据的衍生变量，比如最近3个月消费频次的变化情况正确答案：D6.下面关于聚类分析说法错误的是（）A、一定存在一个最优的分类B、聚类分析是无监督学习C、聚类分析可以用于判断异常值D、聚类分析即:物以类聚,人以群分正确答案：A7.某小区60％居民订晚报，45％订青年报，30％两报均订，随机抽一户。

CPDA考试真题与答案4

一、判断题1.数据可分为结构化数据和非结构化数据等。

正确答案：√2.大数据与传统数据有着本质上的差别，因此之前处理数据的方法和软件都不再适用，大数据分析有专用的软件和方法。

正确答案：×3.数据分析的核心是数据，因此数据的获取和处理十分关键。

正确答案：×4.Apriori 算法可用于分类预算。

正确答案：×5.一组数据的众数和中位数都是唯一的。

正确答案：×6.资金的时间价值体现在资金会随着时间而增值，如银行存款会增加利息。

正确答案：×7.茎叶图不仅能够反映数据的分布情况，还能显示数据的原始信息。

正确答案：√8.在多元回归分析中，检验方程的拟合优度用调整后的R 的平方效果更好。

正确答案：√9.在对不同项目进行风险衡量时，可以用标准差作为标准，标准差越大，方案风险水平越高。

正确答案：×10. 时间序列若无季节变动，则其各月（季）季节指数为0.正确答案：×11. 一个硬币掷10 次，其中 5 次正面向上的概率是0.5 。

正确答案：×12.DBSCAN算法对异常值敏感，因此要在聚类前进行异常值分析。

正确答案：×13.在假设检验中 ,当我们做出拒绝原假设而接受备择假设的结论时, 表示原假设是错误的。

正确答案：×14.召回率（ recall ）指预测为正的样本中实际为正的样本所占比例。

正确答案：×15.逻辑回归只能用于二分类问题，即输出只有两种，分别代表两个类别。

正确答案：×二、单选题1.Apriori 算法用下列哪个做项目集(Itemset) 的筛选？A、最小信赖度(Minimum Confidence)B、最小支持度(Minimum Support)C、交易编号 (TransactionID)D、购买数量正确答案：B2.为调查我国城市女婴出生体重：北方n1=5385 ，均数为3.08kg ，标准差为0.53kg ；南方n2=4896 ，均数为 3.10kg ，标准差为0.34kg ，经统计学检验，p=0.0034<0.01，这意味着（）A、南方和北方女婴出生体重的差别无统计学意义B、南方和北方女婴出生体重差别很大C、由于 P 值太小，南方和北方女婴出生体重差别无意义D、南方和北方女婴出生体重差别有统计学意义但无实际意义正确答案：D3.预测分析中将原始数据分为训练数据集和测试数据集等，其中训练数据集的作用在于（）A、用于对模型的效果进行无偏的评估B、用于比较不同模型的预测准确度C、用于构造预测模型D、用于选择模型正确答案：C4.一个射手连续射靶22 次，其中 3 次射中 10 环， 7 次射中 9 环， 9 次射中 8 环， 3 次射中7 环．则射中环数的中位数和众数分别为（）A、 8 ，9B、 8 ，8C、 8.5 ， 8D、 8.5 ， 9正确答案：B5.一般来说，当居民收入减少时，居民储蓄存款也会相应减少，二者之间的关系是（）A、负相关B、正相关C、零相关D、曲线相关正确答案：B6.下表为一交易数据库，请问 A → C 的信赖度 (Confidence) 为（）A、 75%B、 50%C、 60%D、 66.7%正确答案：D7.如何利用「体重」以简单贝式分类(Naive Bayes)预测「性别」？A、选取另一条件属性B、将体重正规化为到0~1 之间C、将体重离散化D、无法预测正确答案：C8.以下哪个属于时间序列的问题？（）A、信用卡发卡银行侦测潜在的卡奴B、基金经理人针对个股做出未来价格预测C、电信公司将人户区分为数个群体D、以上皆是正确答案：B9.数据缺失 (Null Value) 处理方法可分为人工填补法及自动填补法，下列哪种填补法可得到较准确的结果？A、填入一个通用的常数值，例如填入" 未知 /UnknownB、把填补遗缺值的问题当作是分类或预测的问题C、填入该属性的整体平均值D、填入该属性的整体中位数正确答案：B10. 某市有各类书店 500 家，其中大型 50 家，中型 150 家，小型 300 书销售情况，拟抽取 30 家书店进行调查。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

一、假如你是某移动运营商的数据分析师，结合用户通话行为数据，通过数据分析为用户推荐相应套餐或者结合用户现有套餐优化套餐，提供个性化套餐，从而对客户进行精准营销，增加客户粘性。

运营商收集到的数据包含下列字段；
根据客户行为数据，进行数据的预处理（可以自行根据现有变量构造新变量进行分析），预处理之后选择适合变量进行分析，分析算法自行选择，写出分析思路和过程，通过数据分析对客户进行细分，并为运营商提供客户精准营销的相关建议。

（请写出分析的流程并刻画最后细分之后的客户的特点和相应的营销建议）。

页脚内容1
K-Means据类的步骤：
1.确定所有聚类变量（聚类因子）；
2.数据预处理（分类变量数值化、处理缺失值、分析是否存在共线性等，若只有两个变
量共线则用比值法，较多变量共线用主成分分析进行降维）；
3.确定聚类个数并用处理后的聚类因子进行聚类分析（若未说明则需要尝试不同的聚类
个数[3，4，5，6，7]，从中选择平均轮廓系数较大且结果易于分析解释的模型）；
4.分析聚类效果和聚类结果（类中心点和每个类等）；
5.结合实际情况分析每类的意义等。

（聚类分析处理共线性时不能直接删除，可用比值替代或主成分分析等来消除共线性）
案例分析：
观察数据类型，检查数据是否具有缺失值。

数据类型为数值型，原始数据没有缺失值。

我们把数据导入DATAHOOP平台，在展示分析中进行异常值分析。

分析结果如下表：
页脚内容2
由上面可以得到异常值的个最多的具有36个，在数据总体样本中占比比较大。

所以不处理异常值，这些异常值有可能是数据中一些特殊的类。

进行相关系数矩阵分析，分析得到的相关系数矩阵如下：
页脚内容3
International_min
s
0.69150.2620.128210.7123-0.034
Total_mins0.94150.44250.20060.71231-0.0364 average_mins-0.03670.0094-0.1066-0.034-0.03641
观察相关系数矩阵中有一个相关系数为0.9415，该系数比较大。

所以我们要处理，我们用比值替换法（把两个变量做比，得到的比值替换其中的一个变量）。

我们在数据中重新插入一列为得到他们的变量比值，替换Peak_mins变量。

得到新的变量，我们把新的数据导入DATAHOOP中求出相关系数矩阵：
OffPeak_m
ins Weekend_m
ins
International_
mins
Total_mi
ns
average_m
ins
Peak_mins/Total_
mins
OffPeak_mins10.02470.2620.44250.0094-0.4771 Weekend_mins0.024710.12820.2006-0.10660.0079 International_mins0.2620.128210.7123-0.0340.3939 Total_mins0.44250.20060.71231-0.03640.4492 average_mins0.0094-0.1066-0.034-0.036410.0116
页脚内容4
得到的相关系数矩阵中的相关系数没有大于0.85，所以解决了共线性。

我们可以直接进行K-Means聚类。

聚类的参数在有聚类的个数为5，进行标准化，初始中心点选择的次数要大，最大迭代次数也要大。

然后进行K-Means聚类，运行结果如下：
平均轮廓系数: 0.2467
该平均轮廓系数是比较小，平均轮廓系数越接近于1越好。

实际案例里面我们有可能我们得不到太大的轮廓系数，聚类效果是不明显。

聚类不是太明显，但聚类是有区别的。

我们研究该聚类的区别。

我们得到上面表格的类中心点坐标是经过我们标准化的，我们还原成原来的数据。

得到原始的分类，
页脚内容5
然后求每一类的平均值，总结如下表：
对类进行特征分析：
0类：总通话（Total mins）较长，下班通话时间（Offpeak mins）最长，上班通话时间（Peak mins）比较长，命名为中端客户；
1 类：总通话（Total mins）长，上班通话时间（Peak mins）长，周末通话时间（Weekend mins）较长，国际通话时间（International mins）长，命名为高端用户；
2类：总通话（Total mins）较长，上班通话时间（Peak mins）仅次于第一类，周末通话时间（Weekend mins）居中，国际通话时间（International mins）居中，命名为中端用户；
3类：在各项中均较低，命名为不常使用用户；
4类：平均每次通话时间（average mins）最长，命名为长聊用户。

页脚内容6
综上，根据以上客户细分的结果和特征分析，移动产品开发部门有针对性的开发设计套餐品类，满足不同类型的客户的实际需求，增加客户黏性，提高客户的满意度，最终提高客户的生命周期价值。

页脚内容7。

CPDA考试 移动客户细分聚类

CPDA数据分析师原题考试题理论题带答案

CPDA考试真题与答案2

聚类技术在客户细分中的应用研究

基于聚类分析的顾客细分研究

CPDA考试真题与答案-4

CPDA考试真题与答案-2.doc

利用聚类分析进行用户细分的步骤

CPDA考试真题与答案 5

CPDA考试 移动客户细分聚类

聚类算法在客户细分中的实践应用是什么

聚类分析在客户细分中的应用

CPDA考试真题及答案

CPDA考试真题与答案5

大数据CPDA考试模拟样题—数据分析应用

CPDA考试真题与答案4

聚类分析算法在客户细分中的应用研究

CPDA考试真题与答案 3

CPDA考试真题与答案 2

CPDA考试真题与答案4

CPDA考试移动客户细分聚类

CPDA考试移动客户细分聚类