大数据时代的非结构化数据分析----文本分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据时代的非结构化数据分析----文本分析
注:本文整理自《如何用新媒体进行业务数据分析》,腾讯NLP 微信账号“文智”。
全球多达80%的大数据是非结构化的,如博客、微博、微信、设备日志、与客服代表的会话等都属于非结构化数据,人类的自然语言非常复杂,一句话可能包含多种因素:语气、语调、隐喻、反语等,简单的数据分析模型无法应对这些复杂多样的变化。
文本分析技术的发展方向:
1.智能化理解:确定一段文字是关于什么信息的,然后进行匪类和量化,再进一步分析。这有助于发掘客户的特点,并将其转换成结构化的数字输出到预测模型。
2.处理复杂文本:非结构化和半结构化的文本源,如XML文件、Excel电子表格或博客文章。他们内容庞杂、议题广泛,有必要整合两种或更多数据源在一起,进行统一分析,以获得深刻的见解。
3.简化管理:分析文本复杂繁琐,但输出的结果往往需要通俗易懂。对监管者来说,文本分析可以总动审计跟踪、定期检验、提交规格报告。
文本分析技术:
1.术语文档矩阵(A Term Document Matrix):是一个需要进一步分析的结果集。例如,购买了产品的客户A的购买频率如何,与未购买产品客户B有何区别。我们需要对术语进行排序,以便基于它们的信号强度建模。这些术语的存在和频率可以用数字显示在建模数据
集,并直接并入最佳预测模型。这种“语义评分卡”是传统评分卡辅以非结构化信息(按属性将数据进行分类,并分配权重)。可进行复杂的数据运算,以确定哪些属于信号最强、哪些特定术语应进行组合以从原文中识别出较大的概念。
2.命名实体识别(Named Entity Extraction, NEE):基于自然语言处理,借鉴了计算机科学、人工智能和语言学等学科,可以确定哪些部分可能代表如人、地点、组织、职称、产品、货币金额、百分比、日期和事件等实体。NEE算法为每个标识的实体生成一个分数,该分数表明识别正确的概率。我们可以视情况设定一个阈值,来达到我们的目的。
3.文档主题生成模型(Latent Dirichlet Allocation, LDA):主要用于监测客户行为变化,它可以发现数据的相似性以便进行分类和分组。LDA使用统计算法从非结构化数据抽取主题、概念和其他含义,它不理解语法或者人类语言,而只是寻找模式。任何数量、类型非结构化的、半结构化和结构化源数据都可以应用LDA监测模式来进行分析。
这种技术通常用于营销分析,针对提供存款、取款和购买行为的客户提取原型。如:银行可借助分析发现一些消费者虽然时常出差,但是忠诚度很高,这些客户往往会与客服代表沟通由于出差而错过还款的事由,并避免滞纳金。这样的分析可以帮助银行了解如何重视客户、降低客户流失率、提高客户忠诚度。再如:LDA分析还可以快速、方便地应用和更新消费者相关信息,可以判断消费者的最新行为是否与他们的历史行为一致,如果消费者有不同寻常的事情发生,或者行为与他们现有的文件不一致,系统可以发出警示。(根据消费行为的变化来优化推荐系统)。
4.文本情感分析。