大数据的思维PPT课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据的思维
王淳 天云大数据
2020/6/3
1
IT的定位
CDO
I T CIO nformation echnology
2020/6/3
2
虚拟化 Vs. 大数据
Vs.
2020/6/3
3
传统 Vs. 创新
Web
J2EE 数据库
操作系统
存储设备
Web
Vs.
J2EE
Hive/HBase ……
Linux/HDFS
4
大数据创新在银行的应用
高TCO/低ROI
磁带库
保留昨日以前数据 线下保存,恢复时
间长、效率低
2020/6/3
核心系统
保留13个月以内的数据 查询时间段有限制,响
应时间很快
数据采集
历史数据查询系统
保留1个月以前数据 查询没有时间段限制,
响应时间很快
数据仓库
保留昨日以前数据 不对外提供联机服
务
5
核心减负、全量在线
33 8200 6500 30700年5收4入00只有200.80万,8高00达22.993万00的 200 年金产品
53 3600 5800 80500年收10入4只00 有0.30万5,3高0达0 72.75万00的5300 投连产品
100 100
0 0
300 700 0
500 1300 500
2020/6/3
8
无人工干预的机器学习
人数占比 年龄
年收入 (元)
累计 标保和
缴保合付费计年收件标入均保4.8寿缴金万险付额,总标两缴金保全付额2.6年 缴 金万金 付 额以上,万 缴 金能 付 额
意外 缴付 金额
医疗 缴付 金额
重疾 缴付 金额
投连 缴付 金额
高达7.6万的年金产品,产品覆
0.60%
2020/6/3
7
基于上网日志的客户标签
利用自然语言处理+支持向量机算法 基于用户上网行为和内容给客户打标签。 确保 营销活动实时有效
全省7000多万用户, 每天300+亿条上网记录, 每条记录对应网页数据平局17.9KB, 相当于每天网络传输约500+TB的数据量, 每天进行自然语言处理和客户标签更新
X86 PC Servers
传统架构面临海量数据处理的瓶颈: 数据的自由度和性能矛盾。 固定字段、维度的表结构,限制了 数据的入库和拓展。 数据索引方式的瓶颈,依赖文件目 录结构(NAS)或私有的位图块表 结构(Block)。
2020/6/3
低成本-x86 PC 服务器 可扩展-线性扩展 灵活的数据结构-schema free 海量数据下的超高性能-及时实时
• 所有历史账务明细数据在线存储 • 大量查询业务操作迁出核心系统 • 大量并发查询请求毫秒级别响应 • 丰富业务创新数据挖掘灵活实现
对公活期交易明细查询;活期法人透支户交易明细查询;对公定期交易明 细查询;对私活期交易明细查询;对私定期交易明细查询;换卡登记明细 查询……
2020/6/3
6
银行客户精准营销
0.84% 2.07% 0.68% 0.84% 1.77%
40
18060 0
10800
21300年万7收,8入寿00高险达和11年108金0万金,38额总0较标0 高保1,2只4无有0011600
投连产品
47 29400 7400 71100年1收1入0002.9万6,00高5达160.30万1的50万0能63700 产品,产品覆盖面齐全
47
48200 26900
8040盖面19齐0全0 00
500
5000
7670 0
2500
100
200
400
400
1.37%
年收入2.9万,总标保1.5万以上, 51 2940015000 96600高面1达齐0全97万00的两50全0产9品04,00产5品8覆00盖11600 100 800 2200 3000
100 100 100
0
Байду номын сангаас
200
7720 0
42 97400 5300 9800 3900 400 3300 3000 1700 100 300 400 0 年收入9.7万,标保只有0.5万
打破经验与规则,去大师,去精英。Let data talk。
2020/6/3
9
秒级的犯罪嫌疑人排查
乘坐同一班列车,住同一酒店的两个人 可能是同伙,刑侦人员将不同线索拼凑 起来排查疑犯,可是来自于多源数据的 处理在传统IOE架构上,需要数小时甚 至整日。 天云大数据平台将这一操作缩短至3秒, 同时描述出疑犯的交往关系。公安人员 可以基于计算出的线索流畅的思考。
大数据的效率让量变成为质 变,形成新的洞察与知识
2020/6/3
10
谢谢!
2020/6/3
11
王淳 天云大数据
2020/6/3
1
IT的定位
CDO
I T CIO nformation echnology
2020/6/3
2
虚拟化 Vs. 大数据
Vs.
2020/6/3
3
传统 Vs. 创新
Web
J2EE 数据库
操作系统
存储设备
Web
Vs.
J2EE
Hive/HBase ……
Linux/HDFS
4
大数据创新在银行的应用
高TCO/低ROI
磁带库
保留昨日以前数据 线下保存,恢复时
间长、效率低
2020/6/3
核心系统
保留13个月以内的数据 查询时间段有限制,响
应时间很快
数据采集
历史数据查询系统
保留1个月以前数据 查询没有时间段限制,
响应时间很快
数据仓库
保留昨日以前数据 不对外提供联机服
务
5
核心减负、全量在线
33 8200 6500 30700年5收4入00只有200.80万,8高00达22.993万00的 200 年金产品
53 3600 5800 80500年收10入4只00 有0.30万5,3高0达0 72.75万00的5300 投连产品
100 100
0 0
300 700 0
500 1300 500
2020/6/3
8
无人工干预的机器学习
人数占比 年龄
年收入 (元)
累计 标保和
缴保合付费计年收件标入均保4.8寿缴金万险付额,总标两缴金保全付额2.6年 缴 金万金 付 额以上,万 缴 金能 付 额
意外 缴付 金额
医疗 缴付 金额
重疾 缴付 金额
投连 缴付 金额
高达7.6万的年金产品,产品覆
0.60%
2020/6/3
7
基于上网日志的客户标签
利用自然语言处理+支持向量机算法 基于用户上网行为和内容给客户打标签。 确保 营销活动实时有效
全省7000多万用户, 每天300+亿条上网记录, 每条记录对应网页数据平局17.9KB, 相当于每天网络传输约500+TB的数据量, 每天进行自然语言处理和客户标签更新
X86 PC Servers
传统架构面临海量数据处理的瓶颈: 数据的自由度和性能矛盾。 固定字段、维度的表结构,限制了 数据的入库和拓展。 数据索引方式的瓶颈,依赖文件目 录结构(NAS)或私有的位图块表 结构(Block)。
2020/6/3
低成本-x86 PC 服务器 可扩展-线性扩展 灵活的数据结构-schema free 海量数据下的超高性能-及时实时
• 所有历史账务明细数据在线存储 • 大量查询业务操作迁出核心系统 • 大量并发查询请求毫秒级别响应 • 丰富业务创新数据挖掘灵活实现
对公活期交易明细查询;活期法人透支户交易明细查询;对公定期交易明 细查询;对私活期交易明细查询;对私定期交易明细查询;换卡登记明细 查询……
2020/6/3
6
银行客户精准营销
0.84% 2.07% 0.68% 0.84% 1.77%
40
18060 0
10800
21300年万7收,8入寿00高险达和11年108金0万金,38额总0较标0 高保1,2只4无有0011600
投连产品
47 29400 7400 71100年1收1入0002.9万6,00高5达160.30万1的50万0能63700 产品,产品覆盖面齐全
47
48200 26900
8040盖面19齐0全0 00
500
5000
7670 0
2500
100
200
400
400
1.37%
年收入2.9万,总标保1.5万以上, 51 2940015000 96600高面1达齐0全97万00的两50全0产9品04,00产5品8覆00盖11600 100 800 2200 3000
100 100 100
0
Байду номын сангаас
200
7720 0
42 97400 5300 9800 3900 400 3300 3000 1700 100 300 400 0 年收入9.7万,标保只有0.5万
打破经验与规则,去大师,去精英。Let data talk。
2020/6/3
9
秒级的犯罪嫌疑人排查
乘坐同一班列车,住同一酒店的两个人 可能是同伙,刑侦人员将不同线索拼凑 起来排查疑犯,可是来自于多源数据的 处理在传统IOE架构上,需要数小时甚 至整日。 天云大数据平台将这一操作缩短至3秒, 同时描述出疑犯的交往关系。公安人员 可以基于计算出的线索流畅的思考。
大数据的效率让量变成为质 变,形成新的洞察与知识
2020/6/3
10
谢谢!
2020/6/3
11