Python基本数据统计分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基本数据统计分析

Python 数据处理、分析、可视化与数据化运营

06

本章学习目标

了解描述性统计分析各个指标的含义

掌握交叉对比和趋势分析的基本方法与技巧

掌握结构与贡献分析的应用场景以及实现方法

重点分组与聚合分析的常用方法

掌握相关性分析的主要方法以及如何解读相关性分析结果了解漏斗、路径和归因分析基本概念

准备数据

使用Excel的DMEO数据

本节所用数据为公用数据,读取excel的demo数据。用法示例:

import pandas as pd # ①

import numpy as np # ②

raw_data = pd.read_excel('demo.xlsx') # ③

print(raw_data.head(3)) # ④

准备数据

先将province转换为字符串

在字段中的PROVINCE 列本身是分类含义,因此将其转换为字符串类型。用法示例:

raw_data['PROVINCE'] = raw_data['PROVINCE'].astype(str)

准备数据

使用describe查看描述性统计分析信息

用法示例:

desc_data = raw_data.describe(include='all').T # ①获得所有字段的描述信息

desc_data['polar_distance'] = desc_data['max']- desc_data['min'] # ②得到极差(或极距)desc_data['IQR'] = (desc_data['75%']-desc_data['25%'])/2 # ③计算四分位差

desc_data['days_int'] = desc_data['last']-desc_data['first'] # ④基于last和first差值计算日期间隔desc_data['dtype'] = raw_data.dtypes # ⑤获取所有列的字段类型

desc_data['all_count'] = raw_data.shape[0] # ⑥获取所有列的总记录数量

print(desc_data.columns) # ⑦

准备数据

使用describe查看描述性统计分析信息

通用描述信息

通用描述信息是指对所有数据字段的概要描述示例代码:

print(desc_data[['all_count','count','dtype']])

集中性趋势

数值型字段的均值、中位数和四分位数

数值型字段的集中性趋势的常用描述指标包括均值、中位数和四分位数(注意:四分位数指的不是一个数)

print(desc_data.loc[['AMOUNT','VISITS'],['25%', '50%', '75%','mean']])

集中性趋势

非数值型字段的唯一值、众数和频数

非数值型包括布尔型、字符串型和日期型三类,数据分析师经常使用唯一值、众数和频数描述集中性趋势。

print(desc_data.loc[['DATETIME','PROVINCE','CATE','IS_PRO'],['unique','top','freq']])

离散性趋势

数值型字段的标准差、最小值、最大值、极差、四分位差

数值型字段的离散趋势经常用标准差、最小值、最大值、极差、四分位差表示

print(desc_data.loc[['AMOUNT','VISITS'],['std','min','max','polar_distance','IQR']])

6.1 描述性统计分析

11离散性趋势

日期型字段的开始日期、结束日期和日期间隔

对非数值型字段而言,很少描述其离散性趋势,但日期类字段却拥有自身的特

殊性。它拥有自己的开始日期项,并可以基于日期项做一定程度的数值计算

print(desc_data.loc[['DATETIME'],['first','last','days_int']])

概念

对比和趋势是分析事物对象,并得到结论的基本且重要的方法有比较才能产生差异,也才有好坏优劣之分

基于比较的思维构成了数据分析的基础逻辑

对比和趋势分别从横向和纵向两个维度对特定事物做分析

交叉对比分析

应用示例

❑所有广告营销渠道中哪些效果最好❑全部商品销售中哪些品类卖的多❑哪些类型的会员活跃度更高

交叉对比分析

使用多个指标定量描述事物

❑在极少数情况下,可以通过单一指标对事物做定量分析和结论判定,例如品类A比品类B在总利润贡献上更好,因此我们可以说品类A比品类B表现更好或更有价值。

❑更多情况下,我们在评估事物好坏时,会使用多个指标从多个角度去定量描述。

交叉对比分析

使用多个指标定量描述事物

示例:如何评估渠道质量,评估指标的选择:q基本行为指标:平均停留时间、访问深度q目标转化指标:目标转化率、订单转化率q复购:复购率

q会员指标:新会员引入量、老会员激活量

交叉对比分析

使用多个指标定量描述事物

示例:我们要分析不同的大区,在是否促销上是否有差异性,同时评估指标包括访问量和订单数量

raw_data.pivot_table(values=['AMOUNT','VISITS'],index=['CATE'],columns='IS_PRO',aggfunc=np.mean)其中:

(1)values:分类汇总的计算指标列。

(2) index:分类汇总的汇总维度列,要汇总多级维度可以传入列表。

(3) columns:基于特定的列名,对指标做汇总计算。

(4) aggfunc:分类汇总计算方法,可传入任意有效计算函数或对象。

相关文档
最新文档