python数据分析与挖掘实战读书笔记
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
q 数据探索 q 目的 q 保证样本数据的质量,为保证模型质量打下基础
q 来自百度文库容 q 异常值分析 q 缺失值分析 q 相关分析 q 周期性分析等
q 数据预处理 q 目的 q 保证样本数据的质量,为保证模型质量打下基础
q 内容 q 数据筛选 q 数据变量转换 q 缺失值处理 q 坏数据处理 q 数据标准化 q 主成分分析
python数据分析与挖掘实战
q 数据挖掘基础 q 数据挖掘定义 q 这种从数据中“淘金”,从大量数据(包括文本)中挖掘出隐含的、未知的、对决策有潜在价值的 关系、模式和趋势,并用这些知识和规律建立用于决策支持的模型,提供预测性决策支持的方法、 工具和过程,就是“数据挖掘”
q 数据挖掘任务 q 利用分类与预测、聚类分析、关联规则、时序模式、偏差检测、智能推荐等方法,帮助企业提取数 据中蕴含的商业价值,提高企业的竞争力
q 对比分析 q 适用于指标间的横纵向比较、时间序列的比较分析 q 在对比分析中,选择合适的对比标准是十分关键的步骤 q 对比分析的两种形式 q 绝对数比较 q 相对数比较
q 相对数分类 q 结构相对数:将同一总体内的部分数值与全部数值对比求得比重,用以说明事物的 性质、结构或质量 q 比例相对数:将同一总体内不同部分的数值进行对比,表明总体内各部分的比例关 系 q 比较相对数:将同一时期两个性质相同的指标进行对比,说明同类现象在不同空间 条件下的数量关系 q 强度相对数:将两个性质不同但有一定联系的总量指标进行对比,用以说明现象的 强度、密度和普遍程度 q 计划完成程度相对数:是某一时期实际完成数与计划数的对比,用以说明计划完成 程度 q 动态相对数:将同一现象在不同时期的指标数值进行对比,用以说明发展方向和变 化的速度
q 缺失值分析 q 数据的缺失主要包括记录的缺失和记录中某个字段信息的缺失 q 缺失值产生的原因 q 有些信息暂时无法获取,或者获取信息的代价太大 q 有些信息是被遗漏的 q 属性值不存在
q 缺失值的影响 q 数据挖掘建模将丢失大量的有用信息 q 数据挖掘模型所表现出的不确定性更加显著,模型中蕴含的规律更难把握 q 包含空值的数据会使建模过程陷入混乱,导致不可靠的输出
q 不同的数据模型有不同的分析方法
q 常用数据挖掘建模工具 q SAS Enterprise Miner q IBM SPSS Modeler q SQL Server q 决策树算法 q 聚类分析算法 q Naive Bayes算法 q 关联规则算法 q 时序算法 q 神经网络算法 q 线性回归算法
q 数据挖掘过程 q 定义挖掘目标 q 数据取样(抽取数据的标准) q 相关性 q 可靠性 q 有效性 q 衡量取样数据质量标准 q 资料完整无缺,各类指标项齐全 q 数据准确无误,反映的都是正常(而不是异常)状态下的水平
q 对获取数据的抽样方式 q 随机取样:数据集中的每一组观测值都有相同的被抽样的概率 q 等距抽样 q 分层抽样:不同层次可设定不同的概率。这种抽样结果通常更具有代表性 q 从起始顺序抽样 q 分类抽样
q 简单统计量分析 q 最常用的统计量是最大值和最小值
q 3σ原则 q 如果数据服从正态分布,在3σ原则下,异常值被定义为一组测定值中与平均值的偏差超 过3倍标准差的值 q 如果数据不服从正态分布,也可以用远离平均值的多少倍标准差来描述
q 箱型图分析(p35) q 箱型图提供了识别异常值的一个标准:小于QL-1.5IQR或大于QU+1.5IQR的值p q QL称为下四分位数,表示全部观察值中有四分之一的数据取值比它小 q QU称为上四分位数,表示全部观察值中有四分之一的数据取值比它大 q IQR称为四分位数间距,是上下四分位数之差,其间包含了全部观察值的一半
q Python q WEKA q KNIME q RapidMiner q TipDM
q Python数据分析简介 q python的数据结构 q List(列表) q 列表和元组都是序列结构 q 两者外形上区别:列表用方括号标记,元组用圆括号标记 q 两者功能上区别:列表可以被修改,元组不可以 q 与列表有关的函数是list,与元组有关的函数是Tuple q 常用函数 q a.append(1),将1添加到列表a末尾 q a.count(1),统计列表a中元素1出现的次数 q a.extend([1,2]),将列表[1,2]的内容追加到列表a的末尾中 q a.index(1),从列表a中找出第一个1的索引位置
分析等 q Keras,用来搭建神经网络 q Gensim,topic modeling for humans!
q 数据探索 q 数据质量分析 q 主要任务 q 检查原始数据中是否存在脏数据 q 脏数据一般是指不符合要求,以及不能直接进行相应分析的数据 q 缺失值 q 异常值 q 不一致的值 q 重复数据及含有特殊符号(如#、¥、*)的数据
q 属性选择 q 数据规约等
q 挖掘建模 q 数据挖掘应用类型 q 分类 q 聚类 q 关联规则 q 时序模式 q 智能推荐
q 建模时需要考虑:模型属于哪一种数据挖掘应用,选用哪种算法构建模型 q 模型构建反映的是采样数据内部结构的一般特征,并与该采样数据的具体结构基本吻合
q 模型评价 q 目的 q 从这些模型中自动找出一个最好的模型 q 根据业务对模型进行解释和应用
q 一致性分析 q 数据不一致性是指数据的矛盾性、不相容性 q 不一致数据的产生主要发生在数据集成的过程中,这可能是被挖掘数据是来自于从不同 的数据源、对于重复存放的数据未能进行一致性更新造成的
q 数据特征分析 q 分布分析 q 简介 q 分布分析能揭示数据的分布特征和分布类型 q 对于定量数据,可通过频率分布表、频率分布直方图、茎叶图进行直观分析 q 对于定性分类数据,可用饼图和条形图直观地显示分布情况
q 缺失值的分析 q 使用简单的统计分析,可以得到含有缺失值的属性的个数,以及每个属性的未缺失数、 缺失数与缺失率等 q 缺失值处理分类 q 删除存在缺失值的记录 q 对可能值进行插补 q 不处理
q 异常值分析 q 简介 q 异常值分析是检验数据是否有录入错误以及含有不合常理的数据 q 重视异常值的出现,分析其产生的原因,常常成为发现问题进而改进决策的契机 q 异常值是指样本中的个别值,其数值明显偏离其余的观测值 q 异常值也称为离群点,异常值的分析也称为离群点分析
q Matplotlib,最著名的绘图库,主要用于二维绘图 q pandas,python下最强大的数据分析和探索工具 q StatsModels,pandas着眼于数据的读取、处理和探索,而StatsModels更注重数据的统计建模分
析 q Scikit-Learn,这是一个机器学习相关的库,包括数据预处理、分类、回归、聚类、预测、和模型
q filter(),它是一个过滤器,用来筛选出列表中符合条件的元素 q 使用filter()函数,首先需要一个返回值为bool型的函数
q 上述函数引入的最终目的是兼顾简洁好人效率的,它们的循环速度比内置的for()和while()要 快得多
q python数据分析工具 q Numpy,为python提供数组功能,以及对数据进行快速处理的函数 q Scipy,提供真正的矩阵,以及大量基于矩阵运算的对象与函数 q Scipy包含的功能有最优化、线性代数、积分、插值、拟合、特殊函数、快速傅里叶变换、信 号处理的图像处理、常微分方程求解和其他科学与工程中常用计算 q Scipy依赖于Numpy,安装Scipy之前得先安装Numpy
q a.insert(2,1),将1插入列表a的索引为2的位置 q a.pop(1),移除列表a中索引为1的元素
q Tuple(元组) q Dictionary(字典)
q 从数学上讲,它实际是一个映射
q Set(集合) q 与列表区别 q 他的元素是不重复的,而且是无序的 q 它不支持索引
q 通过花括号{}或者set()函数创建一个集合
q 函数式编程 q 主要使用函数 q lambda(),主要用来定义“行内函数” q f=lambda x:x+2 #定义函数f(x)=x+2
q map(),用于逐一遍历 q reduce(),用于递归计算
q from fuctools import reduce,引入reduce函数 q reduce(lambda x,y:x*y,range(1,n+1)),计算n的阶乘
q 定量数据的分布分析 q 步骤
q 求极差 q 决定组距和组数 q 决定分点 q 列出频率分布表 q 绘制频率分布直方图
q 原则 q 个组之间必须是相互排斥的 q 各组必须将所有的数据包含在内 q 各组的组宽最好相等
q 定性数据的分布分析 q 饼图的每一个扇形部分代表每一类型的百分比或频数 q 条形图的高度代表每一类型的百分比或频数,条形图的宽度没有意义
q 来自百度文库容 q 异常值分析 q 缺失值分析 q 相关分析 q 周期性分析等
q 数据预处理 q 目的 q 保证样本数据的质量,为保证模型质量打下基础
q 内容 q 数据筛选 q 数据变量转换 q 缺失值处理 q 坏数据处理 q 数据标准化 q 主成分分析
python数据分析与挖掘实战
q 数据挖掘基础 q 数据挖掘定义 q 这种从数据中“淘金”,从大量数据(包括文本)中挖掘出隐含的、未知的、对决策有潜在价值的 关系、模式和趋势,并用这些知识和规律建立用于决策支持的模型,提供预测性决策支持的方法、 工具和过程,就是“数据挖掘”
q 数据挖掘任务 q 利用分类与预测、聚类分析、关联规则、时序模式、偏差检测、智能推荐等方法,帮助企业提取数 据中蕴含的商业价值,提高企业的竞争力
q 对比分析 q 适用于指标间的横纵向比较、时间序列的比较分析 q 在对比分析中,选择合适的对比标准是十分关键的步骤 q 对比分析的两种形式 q 绝对数比较 q 相对数比较
q 相对数分类 q 结构相对数:将同一总体内的部分数值与全部数值对比求得比重,用以说明事物的 性质、结构或质量 q 比例相对数:将同一总体内不同部分的数值进行对比,表明总体内各部分的比例关 系 q 比较相对数:将同一时期两个性质相同的指标进行对比,说明同类现象在不同空间 条件下的数量关系 q 强度相对数:将两个性质不同但有一定联系的总量指标进行对比,用以说明现象的 强度、密度和普遍程度 q 计划完成程度相对数:是某一时期实际完成数与计划数的对比,用以说明计划完成 程度 q 动态相对数:将同一现象在不同时期的指标数值进行对比,用以说明发展方向和变 化的速度
q 缺失值分析 q 数据的缺失主要包括记录的缺失和记录中某个字段信息的缺失 q 缺失值产生的原因 q 有些信息暂时无法获取,或者获取信息的代价太大 q 有些信息是被遗漏的 q 属性值不存在
q 缺失值的影响 q 数据挖掘建模将丢失大量的有用信息 q 数据挖掘模型所表现出的不确定性更加显著,模型中蕴含的规律更难把握 q 包含空值的数据会使建模过程陷入混乱,导致不可靠的输出
q 不同的数据模型有不同的分析方法
q 常用数据挖掘建模工具 q SAS Enterprise Miner q IBM SPSS Modeler q SQL Server q 决策树算法 q 聚类分析算法 q Naive Bayes算法 q 关联规则算法 q 时序算法 q 神经网络算法 q 线性回归算法
q 数据挖掘过程 q 定义挖掘目标 q 数据取样(抽取数据的标准) q 相关性 q 可靠性 q 有效性 q 衡量取样数据质量标准 q 资料完整无缺,各类指标项齐全 q 数据准确无误,反映的都是正常(而不是异常)状态下的水平
q 对获取数据的抽样方式 q 随机取样:数据集中的每一组观测值都有相同的被抽样的概率 q 等距抽样 q 分层抽样:不同层次可设定不同的概率。这种抽样结果通常更具有代表性 q 从起始顺序抽样 q 分类抽样
q 简单统计量分析 q 最常用的统计量是最大值和最小值
q 3σ原则 q 如果数据服从正态分布,在3σ原则下,异常值被定义为一组测定值中与平均值的偏差超 过3倍标准差的值 q 如果数据不服从正态分布,也可以用远离平均值的多少倍标准差来描述
q 箱型图分析(p35) q 箱型图提供了识别异常值的一个标准:小于QL-1.5IQR或大于QU+1.5IQR的值p q QL称为下四分位数,表示全部观察值中有四分之一的数据取值比它小 q QU称为上四分位数,表示全部观察值中有四分之一的数据取值比它大 q IQR称为四分位数间距,是上下四分位数之差,其间包含了全部观察值的一半
q Python q WEKA q KNIME q RapidMiner q TipDM
q Python数据分析简介 q python的数据结构 q List(列表) q 列表和元组都是序列结构 q 两者外形上区别:列表用方括号标记,元组用圆括号标记 q 两者功能上区别:列表可以被修改,元组不可以 q 与列表有关的函数是list,与元组有关的函数是Tuple q 常用函数 q a.append(1),将1添加到列表a末尾 q a.count(1),统计列表a中元素1出现的次数 q a.extend([1,2]),将列表[1,2]的内容追加到列表a的末尾中 q a.index(1),从列表a中找出第一个1的索引位置
分析等 q Keras,用来搭建神经网络 q Gensim,topic modeling for humans!
q 数据探索 q 数据质量分析 q 主要任务 q 检查原始数据中是否存在脏数据 q 脏数据一般是指不符合要求,以及不能直接进行相应分析的数据 q 缺失值 q 异常值 q 不一致的值 q 重复数据及含有特殊符号(如#、¥、*)的数据
q 属性选择 q 数据规约等
q 挖掘建模 q 数据挖掘应用类型 q 分类 q 聚类 q 关联规则 q 时序模式 q 智能推荐
q 建模时需要考虑:模型属于哪一种数据挖掘应用,选用哪种算法构建模型 q 模型构建反映的是采样数据内部结构的一般特征,并与该采样数据的具体结构基本吻合
q 模型评价 q 目的 q 从这些模型中自动找出一个最好的模型 q 根据业务对模型进行解释和应用
q 一致性分析 q 数据不一致性是指数据的矛盾性、不相容性 q 不一致数据的产生主要发生在数据集成的过程中,这可能是被挖掘数据是来自于从不同 的数据源、对于重复存放的数据未能进行一致性更新造成的
q 数据特征分析 q 分布分析 q 简介 q 分布分析能揭示数据的分布特征和分布类型 q 对于定量数据,可通过频率分布表、频率分布直方图、茎叶图进行直观分析 q 对于定性分类数据,可用饼图和条形图直观地显示分布情况
q 缺失值的分析 q 使用简单的统计分析,可以得到含有缺失值的属性的个数,以及每个属性的未缺失数、 缺失数与缺失率等 q 缺失值处理分类 q 删除存在缺失值的记录 q 对可能值进行插补 q 不处理
q 异常值分析 q 简介 q 异常值分析是检验数据是否有录入错误以及含有不合常理的数据 q 重视异常值的出现,分析其产生的原因,常常成为发现问题进而改进决策的契机 q 异常值是指样本中的个别值,其数值明显偏离其余的观测值 q 异常值也称为离群点,异常值的分析也称为离群点分析
q Matplotlib,最著名的绘图库,主要用于二维绘图 q pandas,python下最强大的数据分析和探索工具 q StatsModels,pandas着眼于数据的读取、处理和探索,而StatsModels更注重数据的统计建模分
析 q Scikit-Learn,这是一个机器学习相关的库,包括数据预处理、分类、回归、聚类、预测、和模型
q filter(),它是一个过滤器,用来筛选出列表中符合条件的元素 q 使用filter()函数,首先需要一个返回值为bool型的函数
q 上述函数引入的最终目的是兼顾简洁好人效率的,它们的循环速度比内置的for()和while()要 快得多
q python数据分析工具 q Numpy,为python提供数组功能,以及对数据进行快速处理的函数 q Scipy,提供真正的矩阵,以及大量基于矩阵运算的对象与函数 q Scipy包含的功能有最优化、线性代数、积分、插值、拟合、特殊函数、快速傅里叶变换、信 号处理的图像处理、常微分方程求解和其他科学与工程中常用计算 q Scipy依赖于Numpy,安装Scipy之前得先安装Numpy
q a.insert(2,1),将1插入列表a的索引为2的位置 q a.pop(1),移除列表a中索引为1的元素
q Tuple(元组) q Dictionary(字典)
q 从数学上讲,它实际是一个映射
q Set(集合) q 与列表区别 q 他的元素是不重复的,而且是无序的 q 它不支持索引
q 通过花括号{}或者set()函数创建一个集合
q 函数式编程 q 主要使用函数 q lambda(),主要用来定义“行内函数” q f=lambda x:x+2 #定义函数f(x)=x+2
q map(),用于逐一遍历 q reduce(),用于递归计算
q from fuctools import reduce,引入reduce函数 q reduce(lambda x,y:x*y,range(1,n+1)),计算n的阶乘
q 定量数据的分布分析 q 步骤
q 求极差 q 决定组距和组数 q 决定分点 q 列出频率分布表 q 绘制频率分布直方图
q 原则 q 个组之间必须是相互排斥的 q 各组必须将所有的数据包含在内 q 各组的组宽最好相等
q 定性数据的分布分析 q 饼图的每一个扇形部分代表每一类型的百分比或频数 q 条形图的高度代表每一类型的百分比或频数,条形图的宽度没有意义