python数据分析与挖掘实战读书笔记

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

q 数据探索 q 目的 q 保证样本数据的质量，为保证模型质量打下基础
q 来自百度文库容 q 异常值分析 q 缺失值分析 q 相关分析 q 周期性分析等
q 数据预处理 q 目的 q 保证样本数据的质量，为保证模型质量打下基础
q 内容 q 数据筛选 q 数据变量转换 q 缺失值处理 q 坏数据处理 q 数据标准化 q 主成分分析
python数据分析与挖掘实战
q 数据挖掘基础 q 数据挖掘定义 q 这种从数据中“淘金”，从大量数据（包括文本）中挖掘出隐含的、未知的、对决策有潜在价值的关系、模式和趋势，并用这些知识和规律建立用于决策支持的模型，提供预测性决策支持的方法、工具和过程，就是“数据挖掘”
q 数据挖掘任务 q 利用分类与预测、聚类分析、关联规则、时序模式、偏差检测、智能推荐等方法，帮助企业提取数据中蕴含的商业价值，提高企业的竞争力
q 对比分析 q 适用于指标间的横纵向比较、时间序列的比较分析 q 在对比分析中，选择合适的对比标准是十分关键的步骤 q 对比分析的两种形式 q 绝对数比较 q 相对数比较
q 相对数分类 q 结构相对数：将同一总体内的部分数值与全部数值对比求得比重，用以说明事物的性质、结构或质量 q 比例相对数：将同一总体内不同部分的数值进行对比，表明总体内各部分的比例关系 q 比较相对数：将同一时期两个性质相同的指标进行对比，说明同类现象在不同空间条件下的数量关系 q 强度相对数：将两个性质不同但有一定联系的总量指标进行对比，用以说明现象的强度、密度和普遍程度 q 计划完成程度相对数：是某一时期实际完成数与计划数的对比，用以说明计划完成程度 q 动态相对数：将同一现象在不同时期的指标数值进行对比，用以说明发展方向和变化的速度
q 缺失值分析 q 数据的缺失主要包括记录的缺失和记录中某个字段信息的缺失 q 缺失值产生的原因 q 有些信息暂时无法获取，或者获取信息的代价太大 q 有些信息是被遗漏的 q 属性值不存在
q 缺失值的影响 q 数据挖掘建模将丢失大量的有用信息 q 数据挖掘模型所表现出的不确定性更加显著，模型中蕴含的规律更难把握 q 包含空值的数据会使建模过程陷入混乱，导致不可靠的输出
q 不同的数据模型有不同的分析方法
q 常用数据挖掘建模工具 q SAS Enterprise Miner q IBM SPSS Modeler q SQL Server q 决策树算法 q 聚类分析算法 q Naive Bayes算法 q 关联规则算法 q 时序算法 q 神经网络算法 q 线性回归算法
q 数据挖掘过程 q 定义挖掘目标 q 数据取样（抽取数据的标准） q 相关性 q 可靠性 q 有效性 q 衡量取样数据质量标准 q 资料完整无缺，各类指标项齐全 q 数据准确无误，反映的都是正常（而不是异常）状态下的水平
q 对获取数据的抽样方式 q 随机取样：数据集中的每一组观测值都有相同的被抽样的概率 q 等距抽样 q 分层抽样：不同层次可设定不同的概率。这种抽样结果通常更具有代表性 q 从起始顺序抽样 q 分类抽样
q 简单统计量分析 q 最常用的统计量是最大值和最小值
q 3σ原则 q 如果数据服从正态分布，在3σ原则下，异常值被定义为一组测定值中与平均值的偏差超过3倍标准差的值 q 如果数据不服从正态分布，也可以用远离平均值的多少倍标准差来描述
q 箱型图分析（p35） q 箱型图提供了识别异常值的一个标准：小于QL-1.5IQR或大于QU+1.5IQR的值p q QL称为下四分位数，表示全部观察值中有四分之一的数据取值比它小 q QU称为上四分位数，表示全部观察值中有四分之一的数据取值比它大 q IQR称为四分位数间距，是上下四分位数之差，其间包含了全部观察值的一半
q Python q WEKA q KNIME q RapidMiner q TipDM
q Python数据分析简介 q python的数据结构 q List（列表） q 列表和元组都是序列结构 q 两者外形上区别：列表用方括号标记，元组用圆括号标记 q 两者功能上区别：列表可以被修改，元组不可以 q 与列表有关的函数是list，与元组有关的函数是Tuple q 常用函数 q a.append(1)，将1添加到列表a末尾 q a.count(1)，统计列表a中元素1出现的次数 q a.extend([1,2])，将列表[1,2]的内容追加到列表a的末尾中 q a.index(1)，从列表a中找出第一个1的索引位置
分析等 q Keras，用来搭建神经网络 q Gensim，topic modeling for humans！
q 数据探索 q 数据质量分析 q 主要任务 q 检查原始数据中是否存在脏数据 q 脏数据一般是指不符合要求，以及不能直接进行相应分析的数据 q 缺失值 q 异常值 q 不一致的值 q 重复数据及含有特殊符号（如#、￥、*）的数据
q 属性选择 q 数据规约等
q 挖掘建模 q 数据挖掘应用类型 q 分类 q 聚类 q 关联规则 q 时序模式 q 智能推荐
q 建模时需要考虑：模型属于哪一种数据挖掘应用，选用哪种算法构建模型 q 模型构建反映的是采样数据内部结构的一般特征，并与该采样数据的具体结构基本吻合
q 模型评价 q 目的 q 从这些模型中自动找出一个最好的模型 q 根据业务对模型进行解释和应用
q 一致性分析 q 数据不一致性是指数据的矛盾性、不相容性 q 不一致数据的产生主要发生在数据集成的过程中，这可能是被挖掘数据是来自于从不同的数据源、对于重复存放的数据未能进行一致性更新造成的
q 数据特征分析 q 分布分析 q 简介 q 分布分析能揭示数据的分布特征和分布类型 q 对于定量数据，可通过频率分布表、频率分布直方图、茎叶图进行直观分析 q 对于定性分类数据，可用饼图和条形图直观地显示分布情况
q 缺失值的分析 q 使用简单的统计分析，可以得到含有缺失值的属性的个数，以及每个属性的未缺失数、缺失数与缺失率等 q 缺失值处理分类 q 删除存在缺失值的记录 q 对可能值进行插补 q 不处理
q 异常值分析 q 简介 q 异常值分析是检验数据是否有录入错误以及含有不合常理的数据 q 重视异常值的出现，分析其产生的原因，常常成为发现问题进而改进决策的契机 q 异常值是指样本中的个别值，其数值明显偏离其余的观测值 q 异常值也称为离群点，异常值的分析也称为离群点分析
q Matplotlib，最著名的绘图库，主要用于二维绘图 q pandas，python下最强大的数据分析和探索工具 q StatsModels，pandas着眼于数据的读取、处理和探索，而StatsModels更注重数据的统计建模分
析 q Scikit-Learn，这是一个机器学习相关的库，包括数据预处理、分类、回归、聚类、预测、和模型
q filter()，它是一个过滤器，用来筛选出列表中符合条件的元素 q 使用filter()函数，首先需要一个返回值为bool型的函数
q 上述函数引入的最终目的是兼顾简洁好人效率的，它们的循环速度比内置的for()和while()要快得多
q python数据分析工具 q Numpy，为python提供数组功能，以及对数据进行快速处理的函数 q Scipy，提供真正的矩阵，以及大量基于矩阵运算的对象与函数 q Scipy包含的功能有最优化、线性代数、积分、插值、拟合、特殊函数、快速傅里叶变换、信号处理的图像处理、常微分方程求解和其他科学与工程中常用计算 q Scipy依赖于Numpy，安装Scipy之前得先安装Numpy
q a.insert(2,1)，将1插入列表a的索引为2的位置 q a.pop(1)，移除列表a中索引为1的元素
q Tuple（元组） q Dictionary（字典）
q 从数学上讲，它实际是一个映射
q Set（集合） q 与列表区别 q 他的元素是不重复的，而且是无序的 q 它不支持索引
q 通过花括号{}或者set()函数创建一个集合
q 函数式编程 q 主要使用函数 q lambda()，主要用来定义“行内函数” q f=lambda x:x+2 #定义函数f(x)=x+2
q map()，用于逐一遍历 q reduce()，用于递归计算
q from fuctools import reduce，引入reduce函数 q reduce(lambda x,y:x*y,range(1,n+1))，计算n的阶乘
q 定量数据的分布分析 q 步骤
q 求极差 q 决定组距和组数 q 决定分点 q 列出频率分布表 q 绘制频率分布直方图
q 原则 q 个组之间必须是相互排斥的 q 各组必须将所有的数据包含在内 q 各组的组宽最好相等
q 定性数据的分布分析 q 饼图的每一个扇形部分代表每一类型的百分比或频数 q 条形图的高度代表每一类型的百分比或频数，条形图的宽度没有意义