大数据对征信工作的启示与思考
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据 的数据挖掘技术 主 要集 中于数据库和机器深度学 习 两个方面。首先能拥抱大数据的是拥有大数据的机构 ,像 百度 、 腾讯等互联网公 司、中国移动等 电信 运营商。大数据平台的建设 周期较长 ,谷 歌 Google,从 2002年 开始到 2010年 第一个 里程碑 交 互 式 数 据 分 析 系 统 (Dremel)的 发 布 用 时
Volume)、 不等于知识价值 ,这 是 由大数据的 4Ⅴ 特性 ,即 数据量大 【
数据类型多 lvariety)、 要求处理速度快 lVel。 citD、 巨大 的商 业价值 lValue)所 决定的。面对海量的数据 ,只 有经过分析 ,针 对高维进行降维 ,提 炼大量低密度信 息中的价值 ,才 能发挥作用 。 面对大数据的分析 ,要 快速 、规模化 ,如 果需要投入很大资源找 出价值 ,那 么可能就是 烫手 山芋。百度研究院副院长 、深度学习 实验室主任 、 图片搜索部高级总监余凯,德 拉瓦大学 ⑴niversity
of Delaware,电 子与计算机 工程系教授高光荣秉持该观点。
(二
) 传统的统计学方法有利于保 证大数据挖掘的数据质
量 大数据 下采用数据挖掘 ,偏 计算机学科 ,关 注 的是关联关系
,
“ ” 不同于传统统计上寻找的因果关系 ,即 关注 是什么 ,而 不是 “ ” 为什么 。数据挖掘不 一定要有精确的理论支撑 ,只 要是有用 的,能 够解决 问题的方式,都 可以用来处理数据 。而统计学所 沿 用的模型一定要 强调有理论依据,数 学原理或经济学理论 。 大数 据所使用的聚类 、神经网络 、随机森林等挖掘技术 ,其 算法未 必 极致 ,但 通过吸收数据量的剧增 ,可 以减少抽样等数据误差 ,从 而提 高分析的准确性 ,这 是对于统计学的直接影响之一。 但并非 不再考虑传统统计的假设前提理论背景 ,正 如德拉瓦大学高光荣 教授所说 ,创 新不是发 明,而 是积累起的知识不被忘记。在大数 据挖掘的过程 中对于数据的清洗的去噪处理 、 寻找数据间的管理 关系、 模型优化及调整参数等问题 ,都 需要严 密的数理 统计推导。 二 、大数据技术
,
高 昂的软硬件 成本 专属 封 闭架构 。而云 海 大数据 的数据规模
TB-EB规 模 、结构化 、非结构化混合存储和处理 ,分 布式多副本
数据保护高效数据同步 ,大 规模并行运算 ,数 据本地化 ,移 除输 入输出 (I⑴ 瓶颈 ,增 加节点数提升系统存储 、 计算性能支持 线性 升级 ,可 达数千节点级别 ,采 用标准文件访问接 口,兼 容 sQL92`
r・
η .磁 屁 亩 南
妈
1亠 ・ 、° 勺(ψ ・ 冫
/冖
'马
大 数 据 对 征 信 工 作 的启 示 与 思 考 ——关于中国大数据技术大会情况的报告
中国计算机学会于 2014年 12月 13日 -14日 在北京新云南 皇冠假 日酒店 ,举 办了 2014中 国大数据技术大会 ,邀 请 了国内 外大数据技术和前沿的实践专家 ,包 括 电信运营商、制造业、互 联网公 司等参会。增值部庄传礼、马艺桂 、丁卉、张珏瑜参加 了 该论坛。现将峰会情况报告如下
大
多种结构化和非结构化数据
更大 ,互 联 网大数据 +金 融专 门的大数据 更多 ,互 联 网的数据类型 +金 融特别 的数 据类 型 ,例 如 时间序列数据
一般速度处理速度要求不高
对数据处理速度要求 比较高 ,例 如量化 交易 、动态风险定价 、反信用卡欺诈 、 实时新闻分析和处理等
三、 大数据的应用领域 会上介绍 了大数据在电信运营商、互联网公 司、金融领域 、 网络安全 与欺诈风险管理 中的应用。
(四
)硬 件设施 的云海数据库与传统数据库 的对 比
浪潮集团介绍 了其云海数据库与传统数据库 的对 比情况 ,云
海大数据在适用场景 、可用性 、性能、可扩展性 、访问接 口、性 价 比方面都有很大的提升 。 传统关系型数据库 主要处理的数据规 模在 TB以 下 ,结 构化数据的存储和处理 ,物 理磁 盘阵列 αAI⑴ 技术进行数据冗余高端存储各份方案 ,节 点扩展线性度 差存储输 入输 出 (I⑴ 瓶颈难 以解决 ,只 能升级硬件提升系统存储 、 计算性 能不能有效保护用户原有投资 ,结 构化查询语言 6QL)访 问接 口
(消 费 )互 联网大数据
金融大数据
比较偏重研 究群体行为和趋势 与群体行 为强相 关 的数据 比较难 获得 数据 噪音大
,
研究对象 数据相关性 算法复杂度 数据容量 数据类型 数据速度
比较偏重研究个体的行为特征 与个 体 强相 关 的数 据 比较容 易获
得 ,数 据 噪音 小
因为数据质量高 ,所 以算法可 以 因为数据 噪音大 ,对 算法要求很高 相对简单
:
一、大数据技术专家观点汇总与分析
(一 )经 过分析的大数据才有价值
技术成熟度周期模型 rHype cycleJ,是 由著名的咨询公 司顾 能 (Gartner)对 众多行业发展周期的预测与判断,该 模型显示
:
大数据处于预期高峰,一 方面不知道大数据意味着什 么,一 方面 极度狂热。与会专家提 出经过分析的大数据才是有价值的,数 据
数据 (时 间序 列数据 )的 开源采用 Cassandra,目 前的选择是
InfoBright6。
嘉宾认为 ,Cassandra在 逐渐代替传统关系型数据
库 (包 括 Mys∞ 和 0rac1e)在 企业 内部的作用 ,作 为大容量实 时或者近实时存储和分析平 台,在 国外 已经得到 比较成功的应用
,
充分挖掘用户的移动互联 网行为特征 ,提 升对用户消费偏好的精 准把握 ,帮 助市场营销等决策 ,实 现精准营销 ;三 是 改善用户体 验:只 能语音门户通过知识库和语义搜索技术实现业务知 识的机 器智 能回答 。 同时介绍对于 自己所掌握的大数据 的商业模 式的考虑 还包 括 以下几个方面:一 是数据销售 、在线数据访问。国外有销售数
8年 ;脸 谱
6年 时
(Facebook)30个 人花 费 了 4年 时间建 立大数据平 台;全 球最大 职业社交网站邻客音 Ginkedinl大 数据部 门建 立花费 了
间。经历 了独立应用 、架构调整 、数据整合 、数据平 台等几个阶 段。 下面就会上讨论 到的大数据相关的数据处理存储技术进行 汇 总
1是 结构化查询语 言的语法规范 。 2当 前互联 网超 媒体分布式 系统架构 。
3是 一 个软件框架 ,用 来进行可扩展 且跨语 言的服 务的开发 。
确控制全部流程 以最短时间得到正确执行 。 其次 ,必 须满足数据资产各种使用需求 ,包 括报表 、取数 、 指标分析 、数据可视化 ,面 向数据的使用人 员时,要 能够解释各 种数据的定义 、计算 口径 、业务意义 。最终 ,在 出现错误后 ,还 得快速找到问题并及 时解决 。 最后 ,数 据资产必须通过合作开放实现运营增值 ,这 就牵扯 到多租户管理 (多 用户共用系统或程序组件 ,并 确保各用户间数 据的隔离性
(六
Байду номын сангаас)、
数据隐私控制 、互信合作环境搭建等专业技术 。
) 金融大数据的处理技术更为复杂
曾担任过 上交所交易系统架构总设计师的前通联数据首席 战略官,从 金融投资大数据的特点,将 金融大数据与互联 网大数 据进行 了比较 ,认 为金融投资大数据的处理技术相对于互联网大 数据更加复杂 ,需 要几乎完全 自动化地采集 、抽取 、解析和质检 基于金融关注度的数 数据 ,数 据采集方面采用分布式爬虫系统 、 据采集 、 优化每 日增量抽取策略等 ,数 据抽取和解析利用 OCR(光 学字符识别)和 图片处理技术抽取 图像数据 、人工定义和机器学 习抽取 (解 析 )规 则 、建 立 自助化数据抽取和解析流程 。在数据 存储 上 ,对 不同类型的金融数据采用不同的存储方式,对 新 闻和 社交媒体等问门类型的数据 ,暂 存有 Cassandra、 MongoDB4方 式
(二 )机 器学 习技术
人工智能是科技创新的主战场。 利用大数据技术 ,美 国国际 商用机器公 司研发的超级 电脑沃森 (IBM watsonl以 超过第二名
危险》中击败两 两倍多分数的绝对优势 ,在 美国智力问答节 目 《 名人 类对手。目前 ,沃 森技术 已转向商用 ,被 国外大银行用于大 规模金融信 息处理 。沃森与花旗银行合作进行信贷评级分析 ,帮 助信贷员收集和处理客户资料 ,根 据客户资料及行为 习惯 ,分 析 得 出客户的信用风险等级 ,供 信 贷员参考 。美国国际商用机器公 司 (IBM)还 进 一步将沃森应用到商业银行的组合风险管理 。美国 国际商用机器 公 司 (IBM)与 摩根大通合作 ,对 社交网络上海量数 据进行分析 ,将 客户信 息和 内部相关信息进行 融合 ,获 得更详细 机器 不断 的顾客背景描述 ,更 有效地进行市场营销和风险管理 。 学习的能力 ,是 智能的本质 。沃森通过不断的进行大量非结构化 数据的处理 ,模 拟人脑进行学 习。因而百度 、美国国际商用机器 公 司 (IBM)、 脸谱 (Fa∞ book)都 成 立 了深度学 习实验 室。通过 超机技术 、 并行 大数据技术处理技术 ,由 机器 的不断(end-toˉ end) 学 习,模 拟人脑行为 ,从 而实现一些复杂问题的解决 。
(一 )大 数据在 电信运营商领域的应用
中国移动等电信运营商的大数据主要包括电信运营商提供 使用者的海量数据。 的电话和移动互联网服务同样留下了
‘ 开源 的 MysQL数 据仓库解 决方案 ,引 入 了列存储方案 。
中国移动介 绍其借助云计算技术和运 营商优势 ,将 大数据信 息转化为商业价值 ,促 进 业务创新 ,主 要体现在 以下几个方 面。 一是优化 网络质量 ,即 利用信令数据支撑终端 、网络 、业务平 台 实现网络价值最大化;二 是助力市场决策 关联分析 、 优化 网络 、
(三
)依 托移动云平 台提供服务
中国移动介绍 了移动云平台,主 要服务对象是 中小企业 ,这 部分群体 自身拥有大量数据却没有足够 的能力对信 息进行分析 。 移动云平 台通过托管用户数据 ,提 供数据处理工具 ,从 而为其提 供相关服务 。在此过程 中,移 动公 司不掌握数据 ,数 据安全风 险 较低 。定价模 式是按照云计算模式收费。
Rest2、
Thrift3访 问接 口,低 廉的软硬件成本完全开放架构 。
(五
)
数据资产管理是大数据 时代企业布局竞争的核心
,
” “ 亚信科技阐述 了以 数据资产管理-大 数据 时代 的掘金术 阐述 了数据资产管理是大数据时代企 业布局竞争的核 心 的观点
,
认为 以更为可信 、可靠、可用的数据资产为基础 ,可 降低 IT成 本 ,才 能有效使用数据资产并使数据资产的价值得 以实现 。 首先 ,要 进行数据资产治理 (数 据质量管理 ),必 须确保数 据资产准确 、可靠 ,意 味着得掌握所有数据的分布情况 、处理过 程 、服务对象 、使用场景 ,再 从海量数据的复杂处理过程 中,准
(纽 交所 、 splunk企 业数据软件开发公 司、 BaⅡ acuda NetwOrks (梭 子鱼网络有限公 司 )),其 行键 (row key)的 设计非常适合
将时间序列数据分散到集群各个节点进行存储 ,提 供类 sQL的 查 询语言 CQL,分 布式集群提供卓越的水平扩展性和较好的查询性 。 邕 筒
,
历史数据存储采用 Hadoop分 布式文件系统 ,对 数据量不大的行 业数据和宏观经济数据 目前采用 MySQr,实 时和历史的市场行情
。 Cassandra、
s sQL数 据库 管理系统 ,是 多用户 、多线程 sQL数 据库服 务器 。
MOngoDB都 是一种 非关系型的分布式结构化数据存储数据库 。
:
(一 )数 据库技术
中国移动为大数据应用提供的数据库架构包括:数 据采集和 处理 、数据挖掘及可视化、 运营管理 三个层次。数据采集和处理 的资源层 ,包 括有成熟的分布式数据库 、大数据仓库 、大数据平 台 (BC-Hadoopl三 个模块,还 有新增的内存数据库 、图计算、图数 据库模块;数 据挖掘及可视化的平台层 ,包 括成熟的搜索引擎、 数据挖掘产 品等模块 ,还 有新增的深度学 习平台、 机器翻译服务 平台、自然语言处理平台三个模块;运 营管理层采用的是系统和 运营管理 、数据安全管理 、元数据管理 三个新增的模块产 品。