机器学习及其应用。
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 传统统计对变量选取有大量研究,如t-或F-检验,逐步回归;较近代 有AIC,BIC,MDL等。机器学习更多使用交叉认证及Bootstrap,但
也不排除使用前述方法。 交叉认证
• 传统统计得到估计量后常研究它对真实参数的收敛性;机 器学习往往不假定真实模型的存在。
• 个人看法:应假定随尺度而变的近似模型。
• 演绎的结果是否正确,取决于前提假设。正确的假设只能从实际中归 纳出来。假设是否正确,可由她演绎出来的结果与实际是否相符来检 验。
• 机器学习既能帮我们从数据中归纳出假设(无监督学习),也能帮我 们在数据和假设的基础上演绎出数学模型来(有监督学习)。同时, 她在建模的过程中就强调验证,用验证来选择模型。模型最终是否正 确,还要新数据来检验。
• 两种方法均用于机器学习,优劣不可一概而论。一般而言, 最小二乘适用于简单问题, K近邻法适用于复杂问题。
Yˆ(x) x( X T X )1 X TY
方法介绍2:线性模型估计与认证
• 传统统计主要用最小二乘做参数估计;机器学习介绍了Ridge及 Lasso等收缩估计以避免过拟合,具有鲁棒性。
交叉验证,Bootstrap
计量经济树学状图,AdaBoost 随机森林 …… 神经元网络……
增强学习 考虑效果与控制
规划
方法介绍1:最小二乘与K近邻法
• 最小二乘源于统计,是线性模型在高斯白噪声情况下均方误 差意义最优解,在很一般性质噪声情况下也有相容解。
• K近邻法源于工程,但广泛条件下它收敛于条件期望,后者 是最小均方误差意义下的最优估计。
方法介绍3:决策树
• 在机器学习中,决策树是一个预测模型,他代表的是对象属 性与对象值之间的一种映射关系。
• 例子:根据属性X1和X2对对象Y分类:Y=1超重,Y=2正常, X1 为饭量, X2为运动量。
决策树
超重
正常
正常
超重
实例:检测垃圾邮件
建树方法
1. 选择垃圾邮件中最可能出现的关 键字符,例如$,hp,!,….
如何用机器学习方法来从无确定性基本规律的 现象中做科学的归纳和演绎?
基于脉博信号的中医诊断数据模型
• 对大量不同人群用脉诊仪对脉搏信号取样,数字化后输入 计算机
• 用计算机从脉搏信号中提取属性,包括脉数(脉搏跳动次 数)及左右手寸关尺六部的脉位、脉力、各谐波的能量和 相位等等,共193个参数
• 用我们开发的实现PPT算法的软件平台,从这些参数中提 取有用信息来判断是否是正常人?高血压?肝硬化?妊娠 ?等等。软件随机选取80%的样本建模,20%用于测试。
B
B+T
B
B+T
Test and Use Tree: Testing T Root
B+T
B+T
B+T
B+T
B+T
B+T
我个人应用机器学习的一点经验
• 基于脉博信号的中医诊断数据模型 – 特征信息提取 – 数据展示(无监督学习) – 分类算法(有监督学习) – 软件演示
• 金融时间序列分析 – 问题的数学与统计表述 – 数据展示(无监督学习) – 分类算法(有监督学习) – 软件演示
机器学习及其应用
黄大威 2014年5月
1. 机器学习是新兴学科演化的产物 2. 机器学习的主要内容 3. 机器学习的基本方法 4. 机器学习的应用
• 中医脉诊 • 金融时间序列
5. 总结
天下大势,合久必分,分久必合。
农业
数学 物理
自然哲学(前科学)
西方 化学 生物 西医 中医
中国 算学 历法
工业 信 息 化 时 代
机器学习仍旧需要假设,但它又时时对所做假设抱有怀疑态度, 在建模中就不断用数据检验,最终以是否符合新的数据为标准。
机器学习大观
机器帮我们学习
无监督学习
我们教机器学习
有监督学习
数据展示 画图 聚类(cluster) 主元素分析 ……
回归与分类(classification)
数字信号处最小理二乘,k近邻法 生物信息岭学回归,Lasso
2. 根据历史数据中这些字符在垃圾 邮件和正常邮件中出现的频率, 制定相应规则(rule):当该字符出 现频率大于(或小于)某个值,就 认为该邮件是垃圾或正常邮件。
3. 决策树由一系列规则串联组成, 形成一个倒垂的树状结构。
要点
1. 如何选择关键字符?
2. 如何选择变量和阈值?
3. 树延伸到何处停止?
2. 规则:用主元素分析的方法在 有监督学习中分步剔除B。
3. 选择:用主元素法选取能最大 限度剔除B的自变量(参数、属 性)组合。
4. 检验:用预留数据检查树的效 能,决定树的修剪和停止。
5. 软决策:用近邻法给出各个样 本属于T类的概率估计。
Make Tree: Training
Root
B
B+Tห้องสมุดไป่ตู้
• 反过来,由于信息及计算机科学与应用方面的参与,机器学习也创造 了很多新方法,促进了统计的发展。
统计机器学习:实践与理论的互动循环
概率论 演 绎
统计
验证 数学模型
数据
归 纳 假设
• 抽象思维的演绎能力使人类得以构建理论王国。她是有用的,在信息 时代也是客观存在的。建于0-1逻辑及存储基础上的计算机就是一个 严格的理论世界。各种软件都是基于0-1逻辑基础上演绎出来的。
机器学习
• 凡是从数据中自动分析获得规律,并利用规律对未知数据进行预测的 方法都在机器学习的研究范围中。
• 无论是获得规律,还是利用规律做预测,主要对象是随机现象,因此 统计方法是机器学习的主要工具。然而,作为交叉学科,与信息论, 计算机科学及它们衍生的应用学科都有关联;作为研究和使用规律的 学科,机器学习比这些应用学科研究对象(如数据挖掘)更广。
常用算法
CART(Classification and Regression Tree), ID3, C4.5,
C5.0,…
From “The elements of statistical learning” by Hastie etc.
方法创新:主元素纯洁树 PPT
1. 结构:二元树,数据分为目标T 与 背景B。
概率 生物物理 生物化学
统计
新兴交叉学科
数字信号处理
信息生物学 生物力学 生物光子学 ……
计量经济学 数量金融工程
……
统计机器学习
信息时代是一个需要和产生通才的时代。机器学习 是需要和培养通才的领域。
机器学习演化及联系
概率论 统计
信息论
计算机科学
人工智能 数字信号处理 数据挖掘 神经元网络
通讯……
也不排除使用前述方法。 交叉认证
• 传统统计得到估计量后常研究它对真实参数的收敛性;机 器学习往往不假定真实模型的存在。
• 个人看法:应假定随尺度而变的近似模型。
• 演绎的结果是否正确,取决于前提假设。正确的假设只能从实际中归 纳出来。假设是否正确,可由她演绎出来的结果与实际是否相符来检 验。
• 机器学习既能帮我们从数据中归纳出假设(无监督学习),也能帮我 们在数据和假设的基础上演绎出数学模型来(有监督学习)。同时, 她在建模的过程中就强调验证,用验证来选择模型。模型最终是否正 确,还要新数据来检验。
• 两种方法均用于机器学习,优劣不可一概而论。一般而言, 最小二乘适用于简单问题, K近邻法适用于复杂问题。
Yˆ(x) x( X T X )1 X TY
方法介绍2:线性模型估计与认证
• 传统统计主要用最小二乘做参数估计;机器学习介绍了Ridge及 Lasso等收缩估计以避免过拟合,具有鲁棒性。
交叉验证,Bootstrap
计量经济树学状图,AdaBoost 随机森林 …… 神经元网络……
增强学习 考虑效果与控制
规划
方法介绍1:最小二乘与K近邻法
• 最小二乘源于统计,是线性模型在高斯白噪声情况下均方误 差意义最优解,在很一般性质噪声情况下也有相容解。
• K近邻法源于工程,但广泛条件下它收敛于条件期望,后者 是最小均方误差意义下的最优估计。
方法介绍3:决策树
• 在机器学习中,决策树是一个预测模型,他代表的是对象属 性与对象值之间的一种映射关系。
• 例子:根据属性X1和X2对对象Y分类:Y=1超重,Y=2正常, X1 为饭量, X2为运动量。
决策树
超重
正常
正常
超重
实例:检测垃圾邮件
建树方法
1. 选择垃圾邮件中最可能出现的关 键字符,例如$,hp,!,….
如何用机器学习方法来从无确定性基本规律的 现象中做科学的归纳和演绎?
基于脉博信号的中医诊断数据模型
• 对大量不同人群用脉诊仪对脉搏信号取样,数字化后输入 计算机
• 用计算机从脉搏信号中提取属性,包括脉数(脉搏跳动次 数)及左右手寸关尺六部的脉位、脉力、各谐波的能量和 相位等等,共193个参数
• 用我们开发的实现PPT算法的软件平台,从这些参数中提 取有用信息来判断是否是正常人?高血压?肝硬化?妊娠 ?等等。软件随机选取80%的样本建模,20%用于测试。
B
B+T
B
B+T
Test and Use Tree: Testing T Root
B+T
B+T
B+T
B+T
B+T
B+T
我个人应用机器学习的一点经验
• 基于脉博信号的中医诊断数据模型 – 特征信息提取 – 数据展示(无监督学习) – 分类算法(有监督学习) – 软件演示
• 金融时间序列分析 – 问题的数学与统计表述 – 数据展示(无监督学习) – 分类算法(有监督学习) – 软件演示
机器学习及其应用
黄大威 2014年5月
1. 机器学习是新兴学科演化的产物 2. 机器学习的主要内容 3. 机器学习的基本方法 4. 机器学习的应用
• 中医脉诊 • 金融时间序列
5. 总结
天下大势,合久必分,分久必合。
农业
数学 物理
自然哲学(前科学)
西方 化学 生物 西医 中医
中国 算学 历法
工业 信 息 化 时 代
机器学习仍旧需要假设,但它又时时对所做假设抱有怀疑态度, 在建模中就不断用数据检验,最终以是否符合新的数据为标准。
机器学习大观
机器帮我们学习
无监督学习
我们教机器学习
有监督学习
数据展示 画图 聚类(cluster) 主元素分析 ……
回归与分类(classification)
数字信号处最小理二乘,k近邻法 生物信息岭学回归,Lasso
2. 根据历史数据中这些字符在垃圾 邮件和正常邮件中出现的频率, 制定相应规则(rule):当该字符出 现频率大于(或小于)某个值,就 认为该邮件是垃圾或正常邮件。
3. 决策树由一系列规则串联组成, 形成一个倒垂的树状结构。
要点
1. 如何选择关键字符?
2. 如何选择变量和阈值?
3. 树延伸到何处停止?
2. 规则:用主元素分析的方法在 有监督学习中分步剔除B。
3. 选择:用主元素法选取能最大 限度剔除B的自变量(参数、属 性)组合。
4. 检验:用预留数据检查树的效 能,决定树的修剪和停止。
5. 软决策:用近邻法给出各个样 本属于T类的概率估计。
Make Tree: Training
Root
B
B+Tห้องสมุดไป่ตู้
• 反过来,由于信息及计算机科学与应用方面的参与,机器学习也创造 了很多新方法,促进了统计的发展。
统计机器学习:实践与理论的互动循环
概率论 演 绎
统计
验证 数学模型
数据
归 纳 假设
• 抽象思维的演绎能力使人类得以构建理论王国。她是有用的,在信息 时代也是客观存在的。建于0-1逻辑及存储基础上的计算机就是一个 严格的理论世界。各种软件都是基于0-1逻辑基础上演绎出来的。
机器学习
• 凡是从数据中自动分析获得规律,并利用规律对未知数据进行预测的 方法都在机器学习的研究范围中。
• 无论是获得规律,还是利用规律做预测,主要对象是随机现象,因此 统计方法是机器学习的主要工具。然而,作为交叉学科,与信息论, 计算机科学及它们衍生的应用学科都有关联;作为研究和使用规律的 学科,机器学习比这些应用学科研究对象(如数据挖掘)更广。
常用算法
CART(Classification and Regression Tree), ID3, C4.5,
C5.0,…
From “The elements of statistical learning” by Hastie etc.
方法创新:主元素纯洁树 PPT
1. 结构:二元树,数据分为目标T 与 背景B。
概率 生物物理 生物化学
统计
新兴交叉学科
数字信号处理
信息生物学 生物力学 生物光子学 ……
计量经济学 数量金融工程
……
统计机器学习
信息时代是一个需要和产生通才的时代。机器学习 是需要和培养通才的领域。
机器学习演化及联系
概率论 统计
信息论
计算机科学
人工智能 数字信号处理 数据挖掘 神经元网络
通讯……