数据运营|数据分析中,文本分析远比数值型分析重要!(上)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
常用的数据分析方法/形式
这些分析方法/形式有一个共同点:都是跟数字在打交道,说的专业一点,就是基于对结构性数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据)的分析,比如姓名、性别、年龄这些信息,以Word、Excel等形式呈现的数据。这种类别的数据比较好处理,只要简单的建立一个对应的表就可以了。
典型的结构性数据表格
然而,数据分析仅仅只有这一种类型吗?答案当然是:NO!
一个完整而清晰的数据分析过程,除了在范围上,要进行宏观和微观的分析外,还需要在分析的层次上有所递进和深入,以下是我们进行数据分析时常会考虑到7个维度,见下图:
数据分析的7个维度(来源:《谁说菜鸟不会数据分析(工具篇)》)
在上图中,对数值型数据的分析能覆盖绝大部分的维度,但它更多的是描述事物的表层现象,主要是在事物的“量”上进行描述。也就是说,对数值型数据的分析并不能回答其中最为重要的一个维度——“Why”,但在产品和运营的实际工作中,发掘出用户的喜好、购买/使用及流失的内在原因(也就是洞察用户的行为动机),对我们的工作至关重要,它会直接影响产品的功能设定和运营策略。
这时,对非结构性数据进行分析的需求呼之欲出。
据国际数据公司(IDC)的在2011年的调查显示,在今后十年里,非结构化数据将占所有产生的互联网数据的90%。而作为一个尚未得到充分开发的“信息金矿”,非结构化数据分析可以揭示出,我们之前所认为的异常复杂、且难以捉摸的诸多商业驱动因素间的重要相关关系。
所以,我们有必要对非结构性数据引起高度重视!!!
先等等,什么是非结构性数据呢?
2.什么是文本分析?
非结构性数据是与结构性数据相对的一个概念,它包括所有格式的办公文档、文本、图片、XML、HT ML、各类报表、图像和音频/视频信息等等。
非结构性数据组成部分
本文所提及的非结构性数据特指文本数据,这里包括且不限于社交网络(微博、微信、QQ和脉脉等)、客户反馈(客户抱怨邮件、社交媒体网站的帖子、开放式问卷调查、消费者点评)新闻媒体、销售人员的拜访记录等。
文本分析的目的在于从根本上把所有的非结构化数据整合从而化为结构化数据,从之前被认为难以量化的海量文本中抽取出大量有价值的、有意义的数据或信息。
所以,对文本数据进行分析,我们能得到哪些有价值的商业线索或洞察呢?
3.基于大数据的文本分析的商业价值
文本数据来源异常广泛且多样,很多时候需要搜索海量的网页。当然,只有基于恒河沙数般体量的大数据文本分析,才有可能得出比较可靠、有说服力的商业insight。
所以,“文本分析”常常被冠以“大数据文本分析”的全名。
“文本分析”,或者“语义分析”通过分析海量的非结构性的文本(信息)数据,得出的不仅是关于“是什么”的描述性分析,更多的回答了“为什么”,即目标用户购买和使用产品的潜在动机/真实需求。
在商业实践中,基于大数据的文本分析被广泛应用于各行各业,利用认知技术获得全新的商业洞察,解决关键的知识性问题,这被IBM称为“认知商业”。例如企业可以从客户关系数据、社交网络、新闻网站和购物网站评论等渠道获取文本数据,进而通过计算机进行自然语言处理,从而揭示出在任何非结构化文本信息中的“4W”要素,即人物(Who)、事件(What)、时间(When)、地点(Where)等,结合其中隐藏的“Why”进行关联分析,最终得到贯穿所有业务的全新层面的商业洞见。
大数据文本分析提取出的主要维度
举例来说,某个APP的用户满意度一段时间内上升不少,可以从评论量中好评数量的增加以及服务评价几颗星来看出,但这只是描述性的分析,并不能知道为什么用户会给好评或差评,产品或服务的哪些方面会得到好评。
然而,借助大数据文本分析,我们通过提取出的“4W”要素获得对用户“Why”的理解:
什么时候用户的评论较正面,什么时候较负面(When)
用户所给的好评和差评分别集中在该APP的哪些方面(What)
哪些人评论给差评,哪些人给好评,他们在用户中的言论影响力如何(Who)
哪些地区的用户给好评/差评,这些地区的用户分别注重该APP的哪些方面(Where、What)
简而言之,基于大数据的文本分析能够揭示出潜藏在文本信息当中的趋势和关联,为商业决策、行业趋势研究和热点内容追踪提供有力支持。
那接下来的问题是:我们要去哪里找这些非结构性的文本数据呢?
4.这些有价值的海量文本数据“藏”在哪里?
社会化媒体时代,用户在购买产品/服务前,使用中,或是使用之后,一般会在互联网上表达自己的对产品的疑虑或看法,通过互联网这个平台表达社情民意,体现自身的真实意愿和产品/服务的体验感受等。
一般来说,用户产生的有价值的“发声”主要集中在如下6个 “场所”:
大数据文本信息的来源
同时,在互联网的产品和运营工作中,我们需要重点瞄向社交媒体、电商平台及APP应用市场这3个用户“言论集结地”,从上面获取用户对于产品/服务的“发声”。
(1)社交媒体
社交媒体发展日益瞩目,论坛、博客、微博、微信等社交网络接踵而至,它们在悄无声息中改变着我们的生活方式。
在交互性强、容易沉淀价值信息的网络论坛上,网民们可以获得各种信息服务,同时可以发布信息、进行讨论、聊天,用发帖回帖来表达对事件、产品、品牌和企业的看法。
在容易爆发热点话题的微博上,用户除了会主动发布的微博外,还会主动追踪热点事件、喜爱的兴趣频道和明星的微博,转发和评论这些微博。
在具有强关系属性的微信上,用户会对自己关注的公众号发布的内容进行评论和转发,以此来表达自己的观点和情绪……
在这个社会化的媒体时代,用户成为企业最好的品牌推广大使。如何从这些可观的社交媒体数据中分析出用户的潜在且准确的购物意愿及用户需求,将成为提高品牌价值和声誉,改善用户体验的新兴途径。
例如,新浪微博上粉丝过万的零售商,可以根据对某条转发量极大的微博进行传播分析,从中挖掘出粉丝的性别、地域、关注的微话题、星座及兴趣标签,为粉丝个性化的去推送优惠及新品信息。
由此可见,这些看似庞大且无规则的社交数据,往往包含着大量的用户基本信息和兴趣标签,它们