XX市卷烟信息采集样本点客户专项分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
XX市卷烟信息采集样本点结构分析
一、目的和意义
随着大数据,人工智能等相关技术日益成熟,越来越多的大型集团逐步重视挖掘数据背后的价值,从而进一步提升商业决策和管理水平。
近几年来,XX市烟草公司在数据挖掘方面做出积极探索并进行了有益实践。
在品牌培育,市场状态监测,精准制定营销策略等方面积累了宝贵的经验,这些经验结果开始发挥重要作用,使得XX市卷烟营销市场保持健康稳定发展的良状态。
由此,我们也认识到数据的准确性和实时性在此过程中发挥了至关重要的作用。
为了更加精准地把握市场动态,指导货源智能化投放。
XX市烟草公司决定对加大XX 市的零售客户信息采集力度。
为此,XX市烟草公司经过多方面的研究探索,总结出一套适合XX市具体情况的抽样方法。
二、抽样方法比较
1、抽样方法简介
抽样统计是指从研究对象的全体(总体)中抽取一部分个体作为样本,根据对所抽取的样本进行统计分析,获得有关总体的目标量的了解。
抽取样本的方法主要分为非概率抽样和概率抽样。
非概率抽样,非概率抽样是指在抽取样本时,不按随机原则,而是根据主观判断有目的、有意识地进行或者根据方便原则进行。
非概率抽样主要有四种方式:
1.便利抽样(convenience sampling):是按抽样者的方便,随意地抽取样本。
2.定额抽样(quota sampling):是依据一定的标志将总体分成若干层(部分),确定
各层在总体中所占的比例。
并按这些比例分配样本总量在各层的数额,让调查员抽到每一层所需的定额为止。
3.判断抽样(judgement sampling):就是抽样着根据自己的经验抽取具有平均水平的、典型的单元作为样本。
4.雪球抽样(snowball sampling):如滚雪球式,样本越抽越大,抽取过程中完全没有概率的考虑。
概率抽样,概率抽样是指严格按照给定的概率来抽取样本。
概率抽样有三个主要的特点:
1.按一定的概率以随机原则进行抽样。
2.按给定的入样概率通过一定随机化程序来实现。
3.当用样本来估计总体目标量时,要考虑该样本被抽中的概率。
概率抽样主要有六种基本方式:
1.简单随机抽样
简单随机抽样是指从总体N个单位中任意抽取n个单位作为样本,使每个可能的样本被抽中的概率相等的一种抽样方式。
2.分层抽样
分层抽样是指从一个可以分成不同子总体(或称为层)的总体中,按规定的比例从不同层中随机抽取样品(个体)的方法。
3.整群抽样
整群抽样是指整群地抽选样本单位,对被抽选的各群进行全面调查的一种抽样组织方式。
4.多阶抽样
多阶抽样是指将总体分成若干小的群体,但并不在每一小的群体中抽取一个样本,而是
将这些小群体称为第一性抽样单元,将它们看作个体进行抽样,然后,再对抽中的第一性抽样单元中的个体抽样,这样的抽样当然可以不止二阶而是多阶的,先抽第一性样单元,再在第一性样单元中抽第二性样单元,再在第二性样单元中抽第三性样单元,如此直至最基层的个体。
5.不等概率抽样
不等概率抽样是指总体中各单位被抽中的概率与这些单位的某一辅助变量大小成正比。
换言之,如果某一单位的辅助变量越大,则该单位被抽中的概率就越大。
6.系统抽样
系统抽样是指先将总体的全部单元按照一定顺序排列,采用简单随机抽样抽取第一个样本单元(或称为随机起点),再顺序抽取其余的样本单元。
2、抽样方法的选取
1、概率抽样与非概率抽样的对比
表一:概率抽样与非概率抽样的对比
XX烟草公司信息采集的主要目的是为了了解市场情况并依据市场的状况调整商业策略,为此需要较高的数据质量来支撑市场的精准分析,并将分析的结果应用于商业决策。
为此,通过“表一”的对比我们发现,采用概率抽样更符合数据质量,精准分析,商业应用等这些
要求。
2、概率抽样方法的对比
表二:不同的概率抽样方法对比情况
通过上表的对比,我们发现:
1.XX总共有18600多的零售客户,总体样本数很大,不适合采用简单随机抽样或者
不等概抽样这类适合少数样本的抽样方法。
2.XX市的六个区(思明区、湖里区、集美区、翔安区、海沧区、同安区)存在较大
的差异,适合采用分层抽样或者具有分层功能的抽样方法。
3.分层之后,各个层的样本数相对于总体少了一个量级,因此这时候可以考虑简单随
机抽样或者不等概抽样。
再次,考虑到每个层次里会有不同的子类型,并且不同的子类型的样本分布不均匀,因此适合采用不等概的抽样方式。
因此,XX烟草公司采用分层抽样并在每层采用不等概抽样的方式对全市一万八千多零售客户点进行数据采集。
3、样本容量与样本权重
经过上述对比分析,XX市烟草公司决定采用概率抽样法中的分层抽样方法(并在每层采用不等概抽样的方式)对全市一万八千多零售客户点进行数据采集。
在确定了抽样方法之后,接下来的核心问题就是要确定抽中的样本大小及总体中每个样本被抽中的概率。
3.1样本量的确定
在抽样调查前,可以根据对总体目标的规定估计精度和之心度确定所需的样本量。
一般有如下两种情况:
1.估计时规定均方误差。
即
则n应该满足
其中N为总体的样本数,n为抽样的样本数,S为抽样样本的标准差。
2.估计时规定绝对误差限d和置信度。
或者
即要求
则n应满足
3.2样本的抽样概率
将XX市烟草的所有零售客户看为一个整体。
假设按地域分层抽样,然后依据零售客户的经营规模情况设定不等概抽样的概率。
我们将这抽象问题进行具体化,考虑成如下的场景。
XX零售客户总数为N,分成思明、湖里、集美、海沧、翔安、同安六个层,其中这六个层的零售客户数分别为。
并且每个层有三种经营规模(大、中、小),其中每层的这三种规模的零售客户数分别为(i=1,2,3,4,5,6)。
假设在给定绝对误差限d和置信度后,我们依照确定总体抽样的样本量。
(1)各个层的抽样样本量
(i=1,2,3,4,5,6)
(3)各个层中每种经营规模样本权重的计算
,i=1,2,3,4,5,6;j=1,2,3
三、样本点的分布(配图表)
XX市烟草公司在充分考虑数据的可用性以及实际的费用控制,决定从误差为5%,4%,3.5%,3%,2%,置信度为95%,99%中选择一种方案进行抽样样本选取与采集。
为了更清楚的比较采集方案的情况,XX烟草公司计算出了这些方案的情况。
如下表:
通过综合对比置信度、误差、抽样样本以及实际费用情况,XX市烟草公司决定采用方案3的方式进行抽样与采集。
方案3由如下的优点:1.在10个方案中,误差较小;2.在10个方案中抽样比率适中;3.在10个方案中抽样的样本量适中;4.在10个方案中,采集的费用较低(采集费用主要和采集样本成正相关)。
1、总体介绍(按客服部、客户经理-最小市场单元-采集点个数-人采)
2、按选点标准介绍(业态、市场类型、经营规模、档位分析)
3、采集方式(人工采集、自动采集:机采比例-机采扫码率、扫码天数)与采集类型(国
家局、市公司)分析
四、样本点客户基本信息分析(配图表)
1、客户基本情况(性别、年龄、文化程度)组合分析
2、经营条件情况(店堂面积、卷烟陈列面积)组合分析
3、采集点客户资历情况(入网时间、成为采集点客户时间)组合分析
4、采集点客户销售情况(在销规格数、三个月平均购进量、结构)
5、采集点上报情况统计(五月份第18周-22周数据)
一、样本点的检验
1、事前控制:样本方差情况(客户销量比重表、归一化处理后的客户销量比重表、客
户方差排序表)
2、事中跟踪:样本点的预警(预警规则、从14年至17年的预警统计,今年以来的
情况)
3、事后检验:
(1)销量的检验:按客服部计算总样本客户的销量规模及变化趋势是否与实际变化趋势一致,分别选取“2017年上半年、2017年下半年、2018年1-5
月”3个时间段的数据,计算总样本客户在各时间段的销量占同期区域总销
量的比重、查看3个比重间的差异率范围。
(国际局标准文件是在正负5%
之间)
(2)销售结构的检验:按客服部计算总样本客户的销售结构及变化趋势是否与实际变化趋势一致,选取2018年1-5月份的销售数据,计算总样本客户
各价类卷烟销量占区域总销量的比重分别对比,查看所有类别比重的差异
率范围。
(国际局标准文件是在正负5%之间)
五、结论和打算
综上所述,我们可以看出,XX市样本点选取的方法是科学的,合理的,该方法具有以下方面的优点:
(1)节约费用:该抽样方式只是采集总体中的小部分,从而大大地节约费用。
(2)时效性强:该抽样方式只是采集总体中的小部分,从而能在短时间内完成,能及时的为决策提供数据依据。
(3)有助于提高调查数据的质量:全面采集由于参与的人员多涉及范围广,使收集数据和整理数据过程中产生差错的可能性较大。
而抽样采集需要的人员少,采集人员的素质相对较高,使数据质量更好。
(4)有助于对整体市场情况的预估:该抽样采集以科学有效的方式采集数据,采集类型覆盖面广,采集点布局合理,采集数据质量高,能更准确更科学的预估整体市场的情况。