互联网大数据库
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
IBM
我们准备好了,你们来
买吧!
IBM金融犯罪管理解决方案
方案
案例分析师利用现 有案例分析历史数 据,找出规律。
业务规则分析师 分解规则
调查员使用
IBM的ODM
ODM接受业务事件幵执行 事件规则判断,过来可以 欺诈交易给规则引擎处理
对于ODM规则引擎评分超 过一定分值的可疑欺诈交 易推送至案件管理平台, 由发欺诈调查员核实处理
ODM规则引擎对 可疑欺诈交易进 行评分,主要是 根据事件模式、 客户行为模式对 交易进行评分
自然语言描述风险匹配规则
规则表、规则树、自然语言、规则流描述各种风险规则
用户可以通过WEB使用!
完
谢谢聆听 欢迎指正
用大智慧去匹配大数据,探索新的价值。
——马超
左右未来的四大趋势
社交网络将不仅包含 个人员,也将包括设 备,以及产品 移动应用 程序下载 的公司期待 2013年使用 内部企业社 交网络应用 首次超过PC销售额
的新开发应用将集成分析功能
左右未来的四大趋势
数据价值
1.华尔街根据民众情绪抛售股票; 2.对冲基金依据购物网站的顾客评论,分 析企业产品销售状况;
商品
商品基本标签
商品质量评分
关键属性挖掘
商品生命周期
基础算法
品牌
挖掘工具 品牌分层模型 品牌相识模型 品牌排序模型 品牌特性模型 产品分析
物流
物流时效
预测补货模型
分仓模型
LBS模型
物流数据集市
物流雷达
350亿! 不容易!
新浪
大数据之
路?
全景图
需求
用户量大增长快 产品多样更新快
需求量大变化快
需求多样计算复杂
关于 会议
2014.1.8-北京-国家会议中心-大数据分会B
关于会议
关于会议
关于会议
微软托管技术高 级架构师 王健 籍CloudOS之力, 鼓IDC云帆
乐蜂网大数据平 台部 高级经理 罗萌 乐蜂网大数据技 术与应用 IBM 新兴市场部 大数据中心总监 王晓梅 大数据时代下的 新机会,新价值 阿里共享业务事 业部数据挖掘专 李传福 大规模用户行为 数据分析 酷讯公司商业分 析总负责人(BI leader)秦宇 演讲主题:大数 据那些事
第一阶段
第一阶段
第一阶段
应用案例
舆 情 监 测 微 报 告 风 声 墙 微 指 数 风 云 榜 电 影 口 碑
六 度 人 脉
用 户 流 失 预 测 竞 争 力 模 型 多 栖 倾 向 发 现
话用 口 题户 碑 识兴 模 别趣 型 图 谱
社用 圈 区户 子 地圈 属 位子 性 判发 标 别现 签
商 业 账 号 识 别
品牌偏好 价栺偏好 类目偏好 店铺偏好
。。。
任务提交 调度管理 数据源
IDE
GETWAY
天网调度
数据挖掘 服务器 在线数据
云梯
业务系统
数据模型
会员
年龄性别预测
会员分层体系
母婴宝宝年龄预测 会员诚信度评估 商家诚信 预警模型 商家综合排序
用户个性化偏好 用户评价标签 商家排序 数据集市
基础支撑
商家
商家成长指数
2.小样本
大数据
1.数据全集
2.大样本(全集)
3.因果
4.非实时
3.关联
4.实时要求
先行 者们
用大数据的人们啊,你们在干啥?
淘宝
双11
350亿哪里来?
阿里巴巴
个性化LIST 搜索 搜索引擎
活动投放 物流宝
应用
首页 推荐 投放系统
。。。
业务系统
推荐引擎
。。。
离线建模
相似商品 类目关联 相似店铺 用户分群 相似品牌 购物周期
数据获取周期长 分析需求撞墙
业务多需稳定 计算实时性
数据稳定性高 数据口径一致
能力
海量数据处理 能力
数据规范化 易用化、扩展 能力
数据开放、 安全管理能力
计算资源掌控 能力
数据质量管理 能力
数据 平台
hadoop
数据仓库 业务数据集市 SLA服务标准
数据指数 自助统计查询 数据校准管理
资源管理 调度系统 实时计算
BD
BD,为何你如此的
屌!
定义大数据?
大交易数据
大交互数据
OLTP OLAP; 数据仓库
社交媒体数据 其他如(设备)
大数据集成
大数据处理
HADOOP
数据特征
传统数据
数据量 速度 多样性 价值 GB -> -> TB GB TB
大数据
TB -> PB 以上 TB -> PB 以上 持续,年增长 60% 持续,年增长 60% 多维数据 多维数据 数据挖掘,预测 数据挖掘,预测
3.银行根据求职网站的岗位数量,推断就业率;
4.投资机构搜集幵分析上市企业声明,从中寻找破产的蛛丝马迹; 5.美国疾病控制和预防中心依据网民搜索, 分析全球范围内流感等病疫的传播状况; 6.美国总统奥巴马的竞选团队依据选民的微博, 实时分析选民对总统竞选人的喜好。
对比传统
传统数据 1.结构化、关系性
用 户 状 态 识 别
推 荐 模 型
内容模型 分情分 词感词 算词词 法库库
关系模型 元 距 离 分 组 兴 趣
商业模型 用户运营模 型
图用 户 基 础 视 用 户 样 本 库 用 户 影 响 力 用 户 成 熟 度
竞争基础 流 量 监 测 重 点 用 户
博文分析基础 用户关系基础 用户属性基础 用户行为基础 外部竞争基础
数据量稳定,增长不快 数据量稳定,增长不快 结构化数据为主 结构化数据为主
统计和报表 统计和报表
“大数据”指数据集的大小超过了现有典型的数据库软件和工具的处理能力。于此同时, 及时捕捉、存储、聚合、管理这些大数据以及对数据的深度分析的新技术和新能力。正 在快速增长,就像摩尔定律一样。 ——mckinney global institute
百度加速乐资深 安全顾问 秦波 web安全大数据
新浪信息系统部 高级数据挖掘经 理 李云辉 新浪大数据处理
关于会议
关于会议
关于 主题
2013出门不提大数据感觉都不是IDC圈的人!
“大家还没搞清PC时代的时候,移动互联网来了,
还没搞清移动互联网的时候,大数据时代来了。”
——马云
BD
大数据是பைடு நூலகம்
啥?
数据质量监控 异常返回分析 元数据管理系统
hbase
Scribe\firehose
建设路线
服务体系 各种服务体系
数据仓库 各种主题仓库
数据仓库 各种主题仓库
hadoop hbase Scribe\firehose
调度系统 监控系统 实时计算 资源及数据管理
元数据管理系统
高性能计算
分布式数据挖掘平台 hadoop优化、hadoop2.0、数据分离 面向普通用户和企业用户的实时查询、统计分析系统