大数据面临的一些现实挑战
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
就是游戏了(就可以制造计算器了)
5
数据多的好处和坏处
o 如何减少冗余度(降维)要依靠专业知识。
➢ 现有的数学方法或统计方法不可靠
❖ 事实上,现在已知的数学或统计方法根本不能解决这个问题,特别是统计学,其 根本目的,是测试基于有限样本假设的真假。它的出发点,是Kolmogorov 的三 个假设,但大数据下,这三个假设,特别是第三个假设(可数可加性),不见得 总是成立
2
什么是大数据
现实中就是大量的数据处理。包括
▪ 数据库技术:很多软硬件可以高效处理大量的数据
o Cloud, Hadoop/spark,Parallel/Distributed computing o (以前是RDBM)
▪ 数据分析软件:方便使用
o 分析数据的工具:Python library等等 o (以前是SAS,R,等等)
数据多的好处和坏处
4) 数据稳定性,一致性差,不断变化
o 预测性的模型,历史数据非常重要,而数据的稳定性是关键 o 比如两人吵架,一方就是论事,另一方把陈年旧谷子全翻出来,猜
猜哪一方获胜?历史数据太重要了。
5) 由于数据太多,所以难以避免过度拟合
o Google 关于流行感冒的预测就是一个很好的例子。 o 在出问题之前,我们并不知道我们的模型是否过度拟合了。
o 好的模型不等于有用的模型
➢ 最近的例子:用当天的股价预测公司破产,100%的好,100%的无用
o 想要的数据和现有的数据
➢ 做模型不能用想要的数据,而是用已有的数据
❖ 比如,要用所有的人都有的数据,因为模型要对所有的人有用 ❖ 有时有些数据是不准用的(比如,种族,隐私等等) ❖ 好厨师不是做拿手的菜,而是用现有的食材做出美味 ❖ (我的拿手菜是炖龙肉)
2) 为有效利用信息,必须减少冗余度
o 好比挖矿后矿土的提炼,如何提炼出其中的有效元素(比如稀土) o 多年的建模经验,超过10个以上变量的模型都是不稳定的
3) 错的和假的数据太多,无法有效分离
o 错/假数据占的比例可能达到?%,而信用问题,洗钱问题的人可能 只占1-2%。而且有问题的人常常造假。
4
10
数据多的好处和坏处
o 中美对大数据/机器学习的不同观点
➢ 美国:我所有的客户,口径一致的要求就是,如何提高效率,节省成本, 裁剪人员。所以这是一个Evolution(渐进)
➢ 中国:创新和颠覆,是Revolution o 下一次的金融危机中,大数据问题一定会扮演一个重要角色
11
Thanks
12
▪ 数据分析的技术和应用:价值发现
o 机器学习和AI和算法 o (以前是统计学,数学,等等)
3
wk.baidu.com
数据多的好处和坏处
数据多的好处
▪ 信息多
数据多的坏处
1) 不知道有用的信息在何处
o 好比挖矿,不知道何处有矿 o 比如信用评级,比如反洗钱,一堆信息中,洗钱信息在哪里,违约
信息在哪里,犯罪信息在哪里,等等
大数据面临的一些现实挑战
My Background – 我谈大数据的背景和资格
数学
o 北大,中科院毕业 o 芝加哥大学博士
电脑
o 卡内基-梅隆大学硕士
金融
o 20多年美国大银行的经验 o 我领导的团队和部门建立的金融模型超过500个 o 现在主要的任务就是帮大银行和保险公司 ✓ 做金融风险管理 ✓ AI 和机器学习
➢ 现有的数学方法或统计方法不可靠
❖ 事实上,现在已知的数学或统计方法根本不能解决这个问题,特别是统计学,其 根本目的,是测试基于有限样本假设的真假。它的出发点,是Kolmogorov 的三 个假设,但大数据下,这三个假设,特别是第三个假设(可数可加性),不见得 总是成立
❖ 这几年我所看到的几乎是唯一的降维方法突破是代数拓扑学的拓扑降维
➢ 数据多还要有相应的数学,统计方法
8
Eva 造成美国的金融危机?
9
数据多的好处和坏处
8) 其他的一些思考
o 算法是工艺,不同于科学,要有耐心
➢ 科学与工艺的区别:
❖ 懂得原子弹爆炸的原理是科学,造出原子弹是工艺 ❖ 菜谱与厨师的区别:做菜是工艺 ❖ 同仁堂最有价值的是它的制药工艺,是多年专业知识和经验的积累
6) 由于数据太多,决策反而更加依靠人和专业知识
o 常见的一个错误观点是有了大数据就可以减少对专业知识的依赖。
➢ 比如围棋,比如游戏等 ➢ 但是:规则就是专业知识,游戏规则已经包含了所有的专业知识 ➢ 游戏是对已知规则的优化使用(比如计算器是对加,减,乘,除规则的
优化机器) ➢ 建模是发现和总结新规则,等到所有的规则都知道了,就不需要建模了,
❖ 这几年我所看到的几乎是唯一的降维方法突破是代数拓扑学的拓扑降维
o 如何选择模型要依靠专业知识。
➢ 比如,分析肥胖者和减肥药的关系,鉴于两者之间强烈的相关度,于是 模型得出结论:肥胖是因为吃了减肥药
6
Facebook 造成了希腊债务危机?
7
数据多的好处和坏处
o 如何减少冗余度(降维)要依靠专业知识。
o 如何选择模型要依靠专业知识。
➢ 比如,分析肥胖者和减肥药的关系,鉴于两者之间强烈的相关度,于是 模型得出结论:肥胖是因为吃了减肥药
7) 另外一个有问题的观点:信息和数据越多越好
o 数据多不见得能有好模型,比如利率模型
➢ 我们有非常多的利率模型,因为利率数据最多了。但每个利率模型都有 问题,反而是错的模型,比如 Hall-White 模型(它假定利率是正态分 布),比较有用。
5
数据多的好处和坏处
o 如何减少冗余度(降维)要依靠专业知识。
➢ 现有的数学方法或统计方法不可靠
❖ 事实上,现在已知的数学或统计方法根本不能解决这个问题,特别是统计学,其 根本目的,是测试基于有限样本假设的真假。它的出发点,是Kolmogorov 的三 个假设,但大数据下,这三个假设,特别是第三个假设(可数可加性),不见得 总是成立
2
什么是大数据
现实中就是大量的数据处理。包括
▪ 数据库技术:很多软硬件可以高效处理大量的数据
o Cloud, Hadoop/spark,Parallel/Distributed computing o (以前是RDBM)
▪ 数据分析软件:方便使用
o 分析数据的工具:Python library等等 o (以前是SAS,R,等等)
数据多的好处和坏处
4) 数据稳定性,一致性差,不断变化
o 预测性的模型,历史数据非常重要,而数据的稳定性是关键 o 比如两人吵架,一方就是论事,另一方把陈年旧谷子全翻出来,猜
猜哪一方获胜?历史数据太重要了。
5) 由于数据太多,所以难以避免过度拟合
o Google 关于流行感冒的预测就是一个很好的例子。 o 在出问题之前,我们并不知道我们的模型是否过度拟合了。
o 好的模型不等于有用的模型
➢ 最近的例子:用当天的股价预测公司破产,100%的好,100%的无用
o 想要的数据和现有的数据
➢ 做模型不能用想要的数据,而是用已有的数据
❖ 比如,要用所有的人都有的数据,因为模型要对所有的人有用 ❖ 有时有些数据是不准用的(比如,种族,隐私等等) ❖ 好厨师不是做拿手的菜,而是用现有的食材做出美味 ❖ (我的拿手菜是炖龙肉)
2) 为有效利用信息,必须减少冗余度
o 好比挖矿后矿土的提炼,如何提炼出其中的有效元素(比如稀土) o 多年的建模经验,超过10个以上变量的模型都是不稳定的
3) 错的和假的数据太多,无法有效分离
o 错/假数据占的比例可能达到?%,而信用问题,洗钱问题的人可能 只占1-2%。而且有问题的人常常造假。
4
10
数据多的好处和坏处
o 中美对大数据/机器学习的不同观点
➢ 美国:我所有的客户,口径一致的要求就是,如何提高效率,节省成本, 裁剪人员。所以这是一个Evolution(渐进)
➢ 中国:创新和颠覆,是Revolution o 下一次的金融危机中,大数据问题一定会扮演一个重要角色
11
Thanks
12
▪ 数据分析的技术和应用:价值发现
o 机器学习和AI和算法 o (以前是统计学,数学,等等)
3
wk.baidu.com
数据多的好处和坏处
数据多的好处
▪ 信息多
数据多的坏处
1) 不知道有用的信息在何处
o 好比挖矿,不知道何处有矿 o 比如信用评级,比如反洗钱,一堆信息中,洗钱信息在哪里,违约
信息在哪里,犯罪信息在哪里,等等
大数据面临的一些现实挑战
My Background – 我谈大数据的背景和资格
数学
o 北大,中科院毕业 o 芝加哥大学博士
电脑
o 卡内基-梅隆大学硕士
金融
o 20多年美国大银行的经验 o 我领导的团队和部门建立的金融模型超过500个 o 现在主要的任务就是帮大银行和保险公司 ✓ 做金融风险管理 ✓ AI 和机器学习
➢ 现有的数学方法或统计方法不可靠
❖ 事实上,现在已知的数学或统计方法根本不能解决这个问题,特别是统计学,其 根本目的,是测试基于有限样本假设的真假。它的出发点,是Kolmogorov 的三 个假设,但大数据下,这三个假设,特别是第三个假设(可数可加性),不见得 总是成立
❖ 这几年我所看到的几乎是唯一的降维方法突破是代数拓扑学的拓扑降维
➢ 数据多还要有相应的数学,统计方法
8
Eva 造成美国的金融危机?
9
数据多的好处和坏处
8) 其他的一些思考
o 算法是工艺,不同于科学,要有耐心
➢ 科学与工艺的区别:
❖ 懂得原子弹爆炸的原理是科学,造出原子弹是工艺 ❖ 菜谱与厨师的区别:做菜是工艺 ❖ 同仁堂最有价值的是它的制药工艺,是多年专业知识和经验的积累
6) 由于数据太多,决策反而更加依靠人和专业知识
o 常见的一个错误观点是有了大数据就可以减少对专业知识的依赖。
➢ 比如围棋,比如游戏等 ➢ 但是:规则就是专业知识,游戏规则已经包含了所有的专业知识 ➢ 游戏是对已知规则的优化使用(比如计算器是对加,减,乘,除规则的
优化机器) ➢ 建模是发现和总结新规则,等到所有的规则都知道了,就不需要建模了,
❖ 这几年我所看到的几乎是唯一的降维方法突破是代数拓扑学的拓扑降维
o 如何选择模型要依靠专业知识。
➢ 比如,分析肥胖者和减肥药的关系,鉴于两者之间强烈的相关度,于是 模型得出结论:肥胖是因为吃了减肥药
6
Facebook 造成了希腊债务危机?
7
数据多的好处和坏处
o 如何减少冗余度(降维)要依靠专业知识。
o 如何选择模型要依靠专业知识。
➢ 比如,分析肥胖者和减肥药的关系,鉴于两者之间强烈的相关度,于是 模型得出结论:肥胖是因为吃了减肥药
7) 另外一个有问题的观点:信息和数据越多越好
o 数据多不见得能有好模型,比如利率模型
➢ 我们有非常多的利率模型,因为利率数据最多了。但每个利率模型都有 问题,反而是错的模型,比如 Hall-White 模型(它假定利率是正态分 布),比较有用。