2021新统计是科学专业资料
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
断方法, 诸如最优子集, 逐步回归, 回归诊断等等.
及Poisson对数线性模型。dispersion情况。 把这些频数作为关注的因变量:多项分布对数线性模型, 多项logit模型及Poisson对数线性模型。
广义线性随机效应混合模型
✓“非正统”的机器学习的方法 统计在某种程度上成为自我封闭、自我欣赏及自我评价的系统。
统计是科学(science)
➢科学的理论完全依赖于实际。 ➢统计方法则完全依赖于实际数据。 ➢统计可以定义为“收集、分析、展示和解
释数据的科学”,或者称为数据科学 (science of data)。 ➢统计应用于几乎所有领域。
统计是科学(science)
➢统计的思维方式是归纳(induction), 也就是从 数据所反映的现实得到稍微一般的模型, 希望 以此解释数据所代表的那部分世界。这和以 演绎(deduction)为主的数学思维方式相反。
➢ 对结果的解释. 选择模型并不是目的, 目的是解释模 型所产生的结果, 而结果必须是应用领域的结果, 必 须有实际意义. 仅仅用统计术语说某个模型较好, 某 个变量显著之类的话是不够的。
数据的形式以及可能用到的模型
➢ 横截面数据: 因变量为实轴上的数量变量
✓ 误差项独立同正态分布的线性回归。
✓加权回归, 稳健回归, 偏最小二乘回归, lasso回归, 岭 回归, 主成份回归, Box-Cox变换(或其他变换), 多项 式回归, 分位数回归等模型, 判断方法, 诸如最优子集, 逐步回归, 回归诊断等等. 非线性回归, 非参数回归, 广 义线性模型, 随机效应混合模型, 半参数模型, 可加模 型, 广义可加模型等等. 生存分析也包含了回归的内容 。
✓近年来, 神经网络, 决策树的回归树, boosting, bagging, 最近邻方法, 随机森林, 支持向量机等算法 模型也广泛应用于回归中。
数据的形式以及可能用到的模型
➢ 横截面数据: 经典 (多元正态分布) 因变量为分类变量或者频数
✓因变量是二分变量, 纵向数据(多水平数据, 重复观测数据)
➢ 学生毕业后只会推导一些课本上的公式, 却不会 处理真实数据. 一些人对于有穷样本, 也假装认 为是大样本的。
➢ 一些人想象出来一些他们感觉很好的数学模型, 然后再在世界上到处寻求“适合”他们模型的 数据来“证明”他们模型的确有意义。
统计是科学(science)
➢统计在某种程度上成为自我封闭 、自我欣赏及自我评价的系统。
➢ 那些不懂统计或概率论的人也能够完全理解结果(这也是 许多有“知识垄断欲”的人很难接受的现实)。
➢ 现在, 无论承认与否, 如果不会计算机编程或者不与编程 人员合作, 则不会产生任何有意义的成果。
数据分析实践
➢数据收集。 首先要根据实际目的。 有 数据不一定能够得到需要的结论, 我们 需要的是与所关心问题充分有关的变量 的数据。
➢数据预处理。 ➢寻找适合的模型。
数据分析实践
➢ 比较模型的标准.
传统统计中: 各种判别准则(各种检验、一些统计量的 临界值等等)。 都是在对数据分布及描述变量之间关 系的模型所做的假定之下得到的。
在使用算法模型时, 由于没有传统模型的那些假定, 判断模型好坏通常都用交叉验证(cross validation)
又利用诸如中心极限定理或大样本定理得到渐近正 态的结果。 ➢ 据此又得到大样本时的各种性质, 包括置信区间或置 信带, p值, 相合性等等。 ➢ 统计的发展方式, 给统计打上了很深的数学烙印。
统计是科学(science)
➢ 痕迹: “模型驱动”的研究模式, 课程的名称 和主要内容, 一些数理统计杂志的文章。
只有用科学方法进行的探索才能称为科学。
logistic回归和probit回归
✓线性判别分析(自变量是数量型正态变量), 决策树 据此又得到大样本时的各种性质, 包括置信区间或置信带, p值, 相合性等等。
加权回归, 稳健回归, 偏最小二乘回归, lasso回归, 岭回归, 主成份回归, Box-Cox变换(或其他变换), 多项式回归, 分位数回归等模型, 判
➢最近三十年, 统计丢掉了许多属 于数据科学的领域, 也失去了许 多人才。
统计是科学(science)
➢ 随着时代的前进, 院系现在也出现了诸如数据挖掘、机器 学习等课程, 统计杂志也开始逐渐重视这些研究。
➢ 这些算法模型大都不是用封闭的数学公式来描述,而是体 现在计算机算法或程序上。
➢ 对于结果的风险也不是用假定的分布(或渐近分布)所得 到的p值来描述, 而是用没有参加建模训练的测试集的误 差来描述。
➢演绎则是在一些人为的假定 (比如一个公理系
统)之下, 推导出各种结论.
统计是科学(science)
➢ 统计发展前期, 没有计算机, 只能在对数据加上一些 数学假定后, 建立一些假定的数学模型, 推导出结果
的性质, 诸如置信区间, 假设检验的p值, 相合性等等
。 ➢ 在数据分布与假定神经网络, 断方法, 诸如最优子集, 逐步回归, 回归诊断等等. boosting, bagging, 随机森
现在, 无论承认与否, 如果不会计算机编程或者不与编程人员合作, 则不会产生任何有意义的成果。
林, 最近邻方法, 支持向量机。 现在, 无论承认与否, 如果不会计算机编程或者不与编程人员合作, 则不会产生任何有意义的成果。
统计是科学(science)
✓频数数据, 比如列联表数据. 统计的发展方式, 给统计打上了很深的数学烙印。 把这些频数作为关注
的因变量:多项分布对数线性模型, 多项logit模型 加权回归, 稳健回归, 偏最小二乘回归, lasso回归, 岭回归, 主成份回归, Box-Cox变换(或其他变换), 多项式回归, 分位数回归等模型, 判
统计是科学
统计是科学(science)
➢科学的基本特征是其方法论: 对世界的认识源 于观测或实验的信息(或者数据), 总结信息时 会形成模型(亦称为假说或理论), 模型会指导 进一步的探索, 直到遇到这些模型无法解释的 现象, 这就导致对这些模型的更新和替代。
➢只有用科学方法进行的探索才能称为科学。
及Poisson对数线性模型。dispersion情况。 把这些频数作为关注的因变量:多项分布对数线性模型, 多项logit模型及Poisson对数线性模型。
广义线性随机效应混合模型
✓“非正统”的机器学习的方法 统计在某种程度上成为自我封闭、自我欣赏及自我评价的系统。
统计是科学(science)
➢科学的理论完全依赖于实际。 ➢统计方法则完全依赖于实际数据。 ➢统计可以定义为“收集、分析、展示和解
释数据的科学”,或者称为数据科学 (science of data)。 ➢统计应用于几乎所有领域。
统计是科学(science)
➢统计的思维方式是归纳(induction), 也就是从 数据所反映的现实得到稍微一般的模型, 希望 以此解释数据所代表的那部分世界。这和以 演绎(deduction)为主的数学思维方式相反。
➢ 对结果的解释. 选择模型并不是目的, 目的是解释模 型所产生的结果, 而结果必须是应用领域的结果, 必 须有实际意义. 仅仅用统计术语说某个模型较好, 某 个变量显著之类的话是不够的。
数据的形式以及可能用到的模型
➢ 横截面数据: 因变量为实轴上的数量变量
✓ 误差项独立同正态分布的线性回归。
✓加权回归, 稳健回归, 偏最小二乘回归, lasso回归, 岭 回归, 主成份回归, Box-Cox变换(或其他变换), 多项 式回归, 分位数回归等模型, 判断方法, 诸如最优子集, 逐步回归, 回归诊断等等. 非线性回归, 非参数回归, 广 义线性模型, 随机效应混合模型, 半参数模型, 可加模 型, 广义可加模型等等. 生存分析也包含了回归的内容 。
✓近年来, 神经网络, 决策树的回归树, boosting, bagging, 最近邻方法, 随机森林, 支持向量机等算法 模型也广泛应用于回归中。
数据的形式以及可能用到的模型
➢ 横截面数据: 经典 (多元正态分布) 因变量为分类变量或者频数
✓因变量是二分变量, 纵向数据(多水平数据, 重复观测数据)
➢ 学生毕业后只会推导一些课本上的公式, 却不会 处理真实数据. 一些人对于有穷样本, 也假装认 为是大样本的。
➢ 一些人想象出来一些他们感觉很好的数学模型, 然后再在世界上到处寻求“适合”他们模型的 数据来“证明”他们模型的确有意义。
统计是科学(science)
➢统计在某种程度上成为自我封闭 、自我欣赏及自我评价的系统。
➢ 那些不懂统计或概率论的人也能够完全理解结果(这也是 许多有“知识垄断欲”的人很难接受的现实)。
➢ 现在, 无论承认与否, 如果不会计算机编程或者不与编程 人员合作, 则不会产生任何有意义的成果。
数据分析实践
➢数据收集。 首先要根据实际目的。 有 数据不一定能够得到需要的结论, 我们 需要的是与所关心问题充分有关的变量 的数据。
➢数据预处理。 ➢寻找适合的模型。
数据分析实践
➢ 比较模型的标准.
传统统计中: 各种判别准则(各种检验、一些统计量的 临界值等等)。 都是在对数据分布及描述变量之间关 系的模型所做的假定之下得到的。
在使用算法模型时, 由于没有传统模型的那些假定, 判断模型好坏通常都用交叉验证(cross validation)
又利用诸如中心极限定理或大样本定理得到渐近正 态的结果。 ➢ 据此又得到大样本时的各种性质, 包括置信区间或置 信带, p值, 相合性等等。 ➢ 统计的发展方式, 给统计打上了很深的数学烙印。
统计是科学(science)
➢ 痕迹: “模型驱动”的研究模式, 课程的名称 和主要内容, 一些数理统计杂志的文章。
只有用科学方法进行的探索才能称为科学。
logistic回归和probit回归
✓线性判别分析(自变量是数量型正态变量), 决策树 据此又得到大样本时的各种性质, 包括置信区间或置信带, p值, 相合性等等。
加权回归, 稳健回归, 偏最小二乘回归, lasso回归, 岭回归, 主成份回归, Box-Cox变换(或其他变换), 多项式回归, 分位数回归等模型, 判
➢最近三十年, 统计丢掉了许多属 于数据科学的领域, 也失去了许 多人才。
统计是科学(science)
➢ 随着时代的前进, 院系现在也出现了诸如数据挖掘、机器 学习等课程, 统计杂志也开始逐渐重视这些研究。
➢ 这些算法模型大都不是用封闭的数学公式来描述,而是体 现在计算机算法或程序上。
➢ 对于结果的风险也不是用假定的分布(或渐近分布)所得 到的p值来描述, 而是用没有参加建模训练的测试集的误 差来描述。
➢演绎则是在一些人为的假定 (比如一个公理系
统)之下, 推导出各种结论.
统计是科学(science)
➢ 统计发展前期, 没有计算机, 只能在对数据加上一些 数学假定后, 建立一些假定的数学模型, 推导出结果
的性质, 诸如置信区间, 假设检验的p值, 相合性等等
。 ➢ 在数据分布与假定神经网络, 断方法, 诸如最优子集, 逐步回归, 回归诊断等等. boosting, bagging, 随机森
现在, 无论承认与否, 如果不会计算机编程或者不与编程人员合作, 则不会产生任何有意义的成果。
林, 最近邻方法, 支持向量机。 现在, 无论承认与否, 如果不会计算机编程或者不与编程人员合作, 则不会产生任何有意义的成果。
统计是科学(science)
✓频数数据, 比如列联表数据. 统计的发展方式, 给统计打上了很深的数学烙印。 把这些频数作为关注
的因变量:多项分布对数线性模型, 多项logit模型 加权回归, 稳健回归, 偏最小二乘回归, lasso回归, 岭回归, 主成份回归, Box-Cox变换(或其他变换), 多项式回归, 分位数回归等模型, 判
统计是科学
统计是科学(science)
➢科学的基本特征是其方法论: 对世界的认识源 于观测或实验的信息(或者数据), 总结信息时 会形成模型(亦称为假说或理论), 模型会指导 进一步的探索, 直到遇到这些模型无法解释的 现象, 这就导致对这些模型的更新和替代。
➢只有用科学方法进行的探索才能称为科学。