大数据技术在精准营销中的应用
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
ٷຕೝ
Nᇘǖ֎ခĂට૰႑တڪ
ຕޜခኧೝ
ऄݛۯӄૌ ࠅࠌ॔ ࠅࠌਜ਼ࢽ ߲Ⴀࣅਜ਼ Քധ ੦Քധ ࢽՔധ ਜ਼ࢽ471ࣃၟ! ऄۯඪခૌ ߲Ⴀࣅਜ਼ ࠅࠌ ࠅࠌਜ਼ࢽ ࢽ႑တ ႑တ जၳ࠶ૌ ႑တ ևࠌࠅݴ ຕ EXB EXE PPT
ժႜऺ໙ᆅ ݴք๕࿔ॲဣཥ ࠓࣅ ୁଉනኾ ࡛ଉၘڇ čč ࠲ݥဣຕੰ ӷࠓࣅ ยԢනኾ ဣཥනኾ čč čč
گॏኵ܈ຕ)ࠓࣅ0ӷࠓࣅ0ݥࠓࣅ* ୁऺ໙ ᆅ ݥ ࠓࣅ
特性 数据计 海量计算性能 算类 计算框架
数据访 即席查询能力 支持,SQL子集 问类 查询功能和场景丰 支持SQL 富度 高并发查询性能 少量用户查询性能良好, 高并发查询性能急剧下降 数据封装支持 支持JDBC访问接口
1.2 Hadoop大数据处理平台
Hadoop是参考Google相关技术而发展起来的开源 分布式存储和计算系统。其核心部分是HDFS(Hadoop Distributed File System,分布式文件系统)和M/R(Map/ Reduce)。HDFS是一个高度容错性的存储系统,M/R 则是一个计算框架。一个M/R作业通常会把输入的数据 集切分为若干独立的数据块,由Map任务以完全并行的 方式处理。框架会对Map的输出先进行排序,然后把结 果输入给Reduce任务,作业的输入和输出数据都会被 存储在HDFS中,整个框架负责任务的调度和监控以及 失败任务的重新执行[2]。
1.3 ETL技术
ETL 是指将数据从源端经过抽取 (Extract) 、 转换
21
业务与运营 Business & Operation
(Transform) 、 加载 (Load) 至目的端的过程 , 该部分在 数据挖掘和分析过程中为最基础的一部分 。 一个良好 的ETL系统应该有以下几个功能。1)消除数据错误并纠 正缺失数据 ; 2) 对于数据可信度的评估提供文档化衡 量;3)获取相互作用的数据流程来保护数据;4)整合多 个源数据;5)将数据进行结构化供最终用户使用。
可能即将离网”。
2.5 大数据处理技术
大数据处理技术按目前分类,可分为大数据查询与 数据分析、数据库技术、流与复杂事件处理、分布式文 件系统等[4]。
3 2 大数据挖掘核心技术
精准营销与维系系统的技术实现
精准营销与维系系统的大数据平台,既要支撑对内
2.1 语义引擎
语义引擎即为一种能够从非结构化数据中提取有效 信息的一种工具。相对于结构化数据而言,不方便用数 据库二维逻辑表来表现的数据即称为非结构化数据,包 括所有格式的办公文档、文本、图片、XML、HTML、 各类报表、图像和音频/视频信息等等。
ຕ٪ئ ຕ ࣑ ݛ๕ एᇀ EDO ڦᇺ ײຕ ጺև ֑ण د ֨ EDO ຕد Xfc
ຕ٪ئ एᇀJQ ሜྪ ڦຕ د ྪஏಂ، ᆅ
ຕᅍد एᇀJQ ሜྪ ڦຕ د ᄻ௬Քധ ဆᆅ
ຕᅍد
एᇀ ޜခ Xfc ޜခ ڦᇺ ײຕ ௬ၠጺևဣཥ ڦ دമዃऐ
3.2 MPP与Hadoop+MySQL
目前大数据存储技术领域有两个主要的技术阵营和 研究方向。一是MPP(Massive Parallel Processing,大规 模并行处理)数据库;二是以Hadoop+ MySQL为代表的 分布式文件系统。如表1所示[5-7],MPP兼顾计算和数据 访问,在计算能力上不如Hadoop,在数据访问能力上不 如MySQL;Hadoop提供了优秀的海量计算能力(同时提 供一定程度的数据访问能力);MySQL提供了优秀的数据 访问能力,二者结合能够提供优秀的综合数据加工和访 问能力。
支持,Hive/Pig 支持使用SQL查询 HBase支持基于列查询,功 支持SQL 能不如SQL查询丰富 HBase支持高并发查询 通过集群方式能够提 供上万并发查询能力 HBase支持REST API 丰富的编程接口
ኵସ č
ࣅࠓݥ ࢻྪႜྺ ࢻྪాඹ čč ิంዜ ຕҾඇ
采集静态的互联网浏览内容信息,以 及通过页面标签解析引擎采集互联网 浏览历史和行为等信息。 3) 流数据采集与整合。采集网 络信令、设备日志、互联网实时行 为等流类型数据,搭建流处理引擎 和消息处理引擎。 4) 临时数据采集与整合。采集 各省各部门一次性数据,通过文件 方式直接传输入库到数据集市[8-9]。
ᆌᆩࠀీ
ऄ࠶ۯ
ݛӄ֧ࣄ
ݛӄอ಼
ݛӄኴႜ
ݛӄೠࠚ
ݛӄੰ
Քധ࠶
࠶ۅة
ਸݣ ๕ᆌ ᆩೝ
߾ਏኧ
ᆌᆩॐᇑፇॲĊĊएᇀQbbTೝ ຕՔጚ ഓᄽपޜခጺ၍
ຕޜခ
ޜခ࠶
ހጎޜခ
ޜခ
গԨޜခ ᇮຕ
ߛॏኵ܈ຕ)ࠓࣅ* ጆᄽण ںᇘण ߲Ⴀࣅ॔੦ Քധ ߲Ⴀࣅ႑တ ຳᆶຕ ୁຕ
引言
大数据时代 , 数据已经渗透到当今每一个行业和 业务职能领域,成为重要的生产因素。对于海量数据的 挖掘和运用,预示着新一波生产率增长和消费者盈余浪 潮的到来。回顾近两年对大数据的探索历程,某基础运 营商一方面顺应大势,牢牢把握大数据技术快速发展的 机遇,另一方面应势而动,充分释放前期IT集中化、一 体化的红利,坚定推进数据集中。先后经历了数据集中 采集的积淀、初试大数据Hadoop平台、传统数据库与 Hadoop混搭架构的大数据平台创建,以及目前朝开放 式大数据服务平台迈进四个阶段。 精准化营销与维系系统,依托大数据精准定位支撑 端到端多维度维系体系,构建在大数据平台之上,面向 客户、面向服务、面向管理,深化数据分析、数据挖掘 能力,洞察客户、透视企业,是将大数据转化为实际生 产力的重要云化应用之一 。
的数据分析应用 ( 包括面向管理层的企业管理和经营分 析,面向前端的业务开发、运营与推广分析,面向后端 的网络运营与优化分析 ) , 又要支撑对外的数据开放与 数据经营服务,包括数据产品化。
3.1 系统架构
某基础运营商的大数据系统架构如图 1 所示 。 主 要包括大数据 uCloud D “ 三大体系 、 四大平台 ” 的总 体规划以及全网 、 宽带明细数据 、 企业管理域核心数 据、移动互联网流量日志、全网手机终端数据等。 精准化营销与维系系统是构建在大数据平台之上, 基于数据平台的数据支撑能力,依托传统B域高价值密 度数据,充分挖掘O域上网行为等低价值密度数据,通 过开放式应用平台将其数据能力转化为实际生产力。
2.2 数据挖掘算法
数据挖掘算法是一个不断验证不断匹配的过程,需 要数据分析人员与业务人员不断地沟通和交流,使采集 的数据更加符合实际营销情况。多数情况下,数据挖掘 技术与在线联机处理分析(OLAP)方法相伴使用 , 也可 以单独使用,选择正确的挖掘算法至关重要。如分析电 信客户在生命周期中处于哪种状态,需使用回归分析; 分析挽留预流失用户,要根据以往流失用户特征预测用 户是否有流失意向,需使用分类算法[3]。
[1]
一个服务器系统。其基本特征是由多个SMP服务器(每 个SMP服务器称为一个节点)通过节点互联网络连接而 成,每个节点只访问自己的本地资源(内存、存储等), 节点之间的信息交互是通过节点互联网络实现的 。 目 前的技术可实现512个节点互联。MPP数据库有以下特 点。1)一般存储为结构化数据,有明显的星型或雪花型 结构,适用于大数据分析的应用;2)每个服务器都有自 己独立的存储 、 内存和 CPU , 允许动态地增加或删除 节点;3)数据分区划分到不同的物理节点上,通过分布 式查询优化来提高系统整体性能;4)主要用在数据仓库 和大规模的分析处理应用中。
ຕዊଉ
ࠓࣅ ӷ ࠓࣅ
නኾୁ č
ྲձ č
ຕ֑णᇑ࣑)ᅃۅຕ༵ࠃĂຕ࣑࿔ॲՊణ* Cᇘǖਜ਼ࢽĂׂĂޜခ႑တ DᇘǖएበĂ၍ୟ႑တڪ ਜ਼ࢽྪฉ႑တ ྔևဣཥ
图1 系统架构图
表1 MPP、Hadoop和MySQL基本特性对比
MPP Hadoop 优秀 MapReduce 开放架构,多种算法套件 支持 有支持数千机器节点的案例 优良 存储过程,最新架构支持 MapReduce 算法丰富度 封闭架构,限于MPP本身 提供 非结构化数据处理 不支持 横向扩展能力 实验环境刚支持1000节点 MySQL - - - - -
ࠓࣅຕ֑णኝࢇ
ูݴ ֑ण ֨
௬ၠูݴဣཥ ڦമዃऐ ຕ༵ࠃ ई๑ᆩ
ྪᇮথ੨႑တ ֑णဆยԢ ๚ॲ݀ةᇑຕ๎՚ ຕ༑ᇑጃൽ ࢻྪྪ በాඹ៓ બ႑တ ࢻྪᆩ ࢽĂ ೠஃ႑တ
௬ၠูݴย Ԣࢅဣཥڦ ୁتᆅ ၩတվइᇑຕ؏ൽ ߳ዖྪᇮ ዐ้ํڦ ྪஏ႑ସ
ຕ ᇸ
ᆩࢽࣆݯ ၘڇĂ؊ ছڇၘݯ ิׂဣཥ
ᆩࢽሺኵ ᄽခ۩ࠔ ၘڇ ᄽခೝ
3H04H0 ሺኵᄽခ ᇱ๔ࣆڇ
ୁଉၘڇĂ ዕ܋๑ᆩ!! ๚ॲ!!ڪ
ยԢනኾĂ ဣཥ!!ڪ
ཚ႑ྪஏ
ࢻྪ
ୁຕ
图2 大数据平台的采集整合图
23Байду номын сангаас
业务与运营 Business & Operation
Business & Operation 业务与运营
大数据技术在精准营销中的应用
王小鹏
北京东方国信科技股份有限公司 北京 100102
摘 要
简要介绍主流的大数据技术架构和大数据挖掘技术;阐述大数据技术在精准营销与维系系统建设中的应
用,包括技术实现方式以及大数据能力的体现,最后展望大数据应用的前景。 关键词 大数据应用;大数据技术;精准营销;大数据挖掘;大数据能力
运营商对外开放计算资源和存储资源,针对外部合作伙 伴和客户实行按需分配资源,允许合作伙伴和客户在所 分配资源内部署业务运营所需的应用,在资源范围内使 用已授权的电信数据资产,同时,允许其与自身数据进 行融合,与电信业开展数据应用运营业务合作。 2) 数据类能力 。 主要指在保证数据安全的前提 下 , 向合作伙伴开放数据资产 , 允许合作伙伴将其所 拥有的数据与电信数据进行充分结合 , 产生满足业务 需求的价值数据 , 或者借鉴已成熟的数据模型 , 形成 自身个性化的数据模型 。 主要包括 : 数据转售 、 数据 咨询、数据能力开放等。 数据转售是指汇聚电信数据资产、外部关联数据、 经过脱敏、分析挖掘等加工处理后依按需有偿原则向第 三方提供数据接口调用的服务。通过数据挖掘将用户登 陆网址分析的大样本数据出售给相关客户,如淘宝、京 东、苏宁、新浪等,方便客户进行价值营销,形成新的 盈利模式。 数据咨询是指对电信数据、关联的外部数据进行收 集、存储和加工,形成有价值的商业咨询报告,向第三 方提供以获取信息增值收入。 数据能力开放是大数据能力平台的虚拟运营模式, 第三方租用平台空间、计算和数据资源,开展数据分析 和挖掘应用,以满足自身业务需要或向其客户提供商业 信息服务。 为实现大数据能力,主要从以下几点进行分析。 1) 洞察客户需求,提升客户感知。 ①洞察客户特征 , 精准把握客户需求 。 基于大数 据,构建多维度分类分级的高清客户画像,洞察客户消 费行为与需求偏好,开展以客户为中心的精准化、高效 率的套餐推介 、 服务维系 、 流量助推 、 定向营销等活 动,贴合客户需要,提升客户感知。并储备对外合作数 据价值多元化、多样化的服务交付能力,如以大数据平 台的完整客户画像为基础,为客户进行一对一的个性化 广告投放,通过短信等方式发送餐饮、娱乐、购物等生 活信息推荐给客户。
2.3 可视化分析
数据可视化是利用图形、图像处理以及用户界面, 向用户清晰有效地传达数据所传达的信息。目前,数据 可视化技术一般以表格、图形、地图等形式为主,实现 图表联动、图表转化、表格下钻、多维切换、地图数据 高亮显示等功能。
2.4 预测分析
预测性分析是根据可视化分析和数据挖掘的结果做 出预测性的判断。数据挖掘可以预测“谁可能是手机报 倾向使用用户,谁可能更喜欢玩网游”,或者预测“谁
3.3 数据采集与整合
大数据平台对生产系统数据的采集及整合是精准化
22
Business & Operation 业务与运营
থۅة
܌႑
֒႑
ྔࢬ
ᆰॲ
ਜ਼ࢽঢ়
ᆐᄽཐ
پฆ
ྪᄻླྀໃ
营销与维系系统建设的基础。大数
ຕ ዎ
据平台的采集整合数据分类与技术 如图2所示。 1) 结构化数据采集与整合 。 采集生产系统和业务平台的数 据 , 并通过 DCN 承载传输 。 实现 前置机中的全 / 增量数据的实时 / 定 时采集功能;实现前置机中基于 Web 服务的少量数据采集功能 ; 实现前置机与交换平台之间的传 输控制交互功能。 2) 非结构化采集与整合。采集 互联网相关的内容及行为信息,并通 过IP网承载传输。通过网络爬虫引擎
1
大数据技术架构
1.1 MPP数据库
MPP(Massively Parallel Processing,大规模并行 处理系统)由多个SMP(Symmetric Multi Processing,对 称多处理系统 ) 服务器通过一定的节点互联网络进行连 接,协同工作,完成相同的任务,从用户的角度看它是
एᇀ JQ ሜྪ ڦᇺ ײຕ د
ຕ د ݥࠓࣅ֑णኝࢇ
ຕ د ௬ၠጺևย Ԣࢅဣཥڦ ୁتᆅ ୁຕ֑णኝࢇ
4 精准营销系统实现电信 基础运营商的大数据能力
本文研究的大数据能力,主 要分为资源能力和数据能力两种形 式。合作伙伴或者客户可根据自身 业务需求,申请资源能力和数据能 力,精准营销系统会为其提供多种 合作模式,以满足不同合作伙伴和 客户的不同业务需求[10-11]。 1) 资源类能力。主要是指基础