大数据挖掘的用户画像应用方案
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
在大数据时代,机器要学会从比特流中解读用户,构建用户画像就变得尤其重要。本文介绍了用户画像的理论和实践,以及在实际中的应用。如何根据用户画像进行精准营销?将用户画像应用于个性化推荐?一起来寻找答案吧~ 首先看一下大数据与应用画像的关系,现在大数据是炙手可热,相信大家对大数据的四个V都非常了解,大数据应该说是信息技术的自然延伸,意味着无所不在的数据。
我们先看下数据地位发生转变的历史,在传统的IT时代,TI系统围绕业务服务,在这个服务的过程中沉淀了很多数据,再在数据的基础上做一些分析。但是到了DT时代不一样了,数据是现实世界的虚拟化表现,数据本身构成了一个虚拟世界,IT系统构建在虚拟系统上,变得更加智能。
大数据无处不在体现在几个方面
第一个就是说我们社会信息化的建设越来越发达。
第二个是随着可穿戴设备的发展,人产生了越来越多的数据,接入网络当中,同时人和人之间沟通的方式也不仅仅是传统的面对面,传统理解人、与人沟通的方式发生了根本的变革,因此我们要学会从比特流中去认识人类,因此构建用户画像这件事就变得更加重要。
而且现在机器也变得很智能了,所以我们还要教会机器来认识人类,这样才能在画像的基础上构建应用,譬如个性化推荐、精准广告、金融征信等等。之前我一直是在从事这方面的应用开发,因此知道用户画像对于这些应用的重要性。
如果大家是来自互联网公司的话,我们经常会提到这些词:用户画像、标签、360度用户视图等等,有不少人甚至就是做这面的研发工作,但是这些概念让你感觉有一点似是而非,我以前也有这样的感觉,就是说没有从根本上把这些概念弄清楚,因此有必要把这些概念从根本上弄清楚。
首先看一下我们生活中的用户画像
举个例子,”身长八尺、面如冠玉、头戴纶巾”,大家会想到一个人是谁?诸葛亮是吧,这是一段文本上的描述。大家再看一下,下面这张图大家又会想到谁,希特勒。再看一下右边这幅图,这是一个球员。这个就不用说了,是美国的奥巴马。这些都是生活中的画像,都是为了描述一个人,但是它们的描述方式和角度不一样的。
但是从我们这些描述当中可以看出一些共性,主要体现在如下几个方面:
第一个是目标,目标都是为了描述人、理解人,这是用户画像最大的目标。
第二个是我们描述的方式,可以分为两种:第一种是非形式化的手段,我们前面看到的语音、文本,都是非形式化的,另外一种是形式化的手段,譬如刚才我们看到的奥巴马身份证,你可以把身份证放在读卡器上,就可以把对应的信息读取出来。
第三个就是结构化和非结构化的组织方式,我们前面看到的球员数据它就是结构化的。
第四个就是用户画像标准,这个很重要,这是我们一会要讲的,为什么?比如说,我们在描述用户的过程当中要有一些共识,举个例子,我说某个人特别二次元,这个词对方就可能听不懂,是因为双方对二次元这个词没有达成共识,所以必须有一套达成共识的的知识体系,不然用户画像这件事是没有办法达到的。
最后一个是验证,就是说我们做完用户画像以后,一定要去验证。举个例子,我跟你说某个人特别不靠谱,相当于打上了一个标签,你一定会反问我为什么不靠谱,你的依据是什么,就是我们给用户生成画像之后,我们一定要给出依据和推理的过程,告诉你这个结论是怎么得到的,不然就没有可信力。
那么到底什么是用户画像呢?
用户画像是对现实世界中用户的数学建模,它包括两方面:
一方面是描述用户,没有说人,是说明它跟业务密切相关,它是从业务中抽象出来的,因此来源于现实,高于现实。
第二个是用户画像它是一种模型,是通过分析挖掘用户尽可能多的数据信息得到的,它是从数据中来,但对数据做过了抽象,比数据要高,后面所有用户画像的内容都是基于这个展开的。比如刚刚说的月光族,这个肯定是挖掘分析出来的,不是说原来的数据中包含月光族这个标签,所以说这是它的两层含义。
然后就是刚刚说的,用户画像是现实生活中的数学建模,但是我们如何描述这样一个模型,核心是要有一套标准的知识体系,描述用户画像。
另外一个方面,就是要有一套数据化、符号化、形式化的方式去描述这套知识体系,什么叫形式化?就是机器要能够理解这套知识体系,如果只有人理解的话,这个东西是没有办法使用的,所谓形式化就是这个含义。
这种方法到底存在不存在,60、70年代就已经存在了,做语义分析的朋友可能听过这个本体论,在90年代的时候,本体和语义网络非常流行,这个东西是比较复杂的,它帮助机器去理解知识体系,由于非常复杂,我就简单说一下,类似于UML这种语言,包括实体、联系、推理等等。就是说通过这套方法论,可以理解知识,甚至教会它怎么去推理,这就是前面说的本体论。这个方法是很
复杂的,非常麻烦。
我们这里有一套非常朴素的方法,大家可以看一下这张图,我们在现实世界中怎么表述知识。
我们最开始学习语文的时候用的是什么,是新华字典是不是,字典中大家看到的组织形式是什么,首先是词,词作为它的表现符号。
另外是什么,它后面会跟着比较长的解释文本,就对应一个概念,那么就是说,这里符号与概念是相对应的。
用我们现实生活中的一个例子来说,你比如说拿狗这个例子来说,狗这个词是一个符号,但是对应我们脑子中的概念是什么,”四条腿,一个能看家的、一个能汪汪叫的动物”,对不对?对应的实体就是我们现实生活中看的各种品类的狗,是吗?我希望大家可以记住这张图。
上面这张图中的模型就对应前面图中所指的概念,标签就对应前面这张图上的符号,在这张图当中,标签是一个符号要去表达模型对不对。举一个简单的例子,比如说我这个产品,想卖给”收入高、坐办公室” 这个群体,白领可以表示这样一个用户群,白领这个词就是一个一个符号,一个标签。
另外要强调的是标签它是跟业务密切相关的,比如说就拿最简单的标签男女来说,在阿里内部,关于男女,这样最简单的标签,也有12个男和女,它与业务密切相关,不仅仅是指生理上的男和女,另外还包括在互联网喜欢买男性的商品或者女性的商品定义的男女等等,在这个层面来讲,对男女的标签又有了一层新的理解。
这个符号是跟业务场景绑定在一起的,脱离这个业务场景,这个符号就没有明确的含义。