17-310. 大数据思维的陷阱
大数据的思维误区与价值纬度
大数据的思维误区与价值纬度by 吴甘沙2014-04-26本文为“泰山会”微信群线下沙龙速记稿,全文如下:分享嘉宾:吴甘沙,英特尔中国研究院首席工程师大家周末好,我是吴甘沙,在英特尔中国研究院工作。
清华基于微博分析获得的大数据幸福指数发现人们周六最幸福,相信大家心情不错,因此今天不谈枯燥的技术。
关于大数据的思维、理念、方法论已经被反复消费了,本来我想直接进入交互环节,继挺兄还是要求先有一部分规定动作,我就先自弹自唱几十分钟,既然是漫谈,也不见得扣题,说到哪里是哪里。
各位有问题,我可以择时择机插入讨论。
先说大数据思想的形成吧。
自从人类开始文字和数字,数据就开始产生。
就数据增长曲线而言,极小的初值确实要经历漫长的过程达到人类能感知的曲线拐点。
谷歌前CEO埃里克·施密特曾给出了一个有趣的数据:从人类文明曙光初现到2003年一共产生的数据,只相当于2010年两天产生的数据量。
而一旦越过拐点,“大数据摩尔定律”的滚滚铁轮下,指数效应爆发:最近两年产生的数据量相当于之前产生的全部数据量。
在漫长的数据蓄水过程中,数学和统计学逐渐发展,人们开始注意对数据的量化分析,在人类进入信息时代以前这样的例子就不胜枚举。
比如经济上,黄仁宇先生对宋朝经济的分析中发现了“数目字管理”(即定量分析)的广泛应用(可惜王安石变法有始无终)。
又如军事,“向林彪学习数据挖掘”的桥段不论真假,其背后量化分析的思想无疑有其现实基础,而这一基础甚至可以回推到2000多年前,孙膑正是通过编造“十万灶减到五万灶再减到三万灶”的数据、利用庞涓的量化分析习惯对其进行诱杀。
到上世纪50-60年代,磁带取代穿孔卡片机,启动了数据存储的革命。
磁盘驱动器随即发明,它带来的最大想象空间并不是容量,而是随机读写的能力,这一下子解放了数据工作者的思维模式,开始数据的非线性表达和管理。
数据库应运而生,从层次型数据库(IBM为阿波罗登月设计的层次型数据库迄今仍在建行使用),到网状数据库,再到现在通用的关系数据库。
大数据的陷阱
大数据的陷阱在当今数字化的时代,大数据无疑是一个热门的话题。
它被广泛应用于各个领域,从商业营销到医疗保健,从金融服务到社交媒体。
大数据似乎拥有神奇的力量,能够帮助我们做出更明智的决策,发现隐藏的模式和趋势,甚至预测未来。
然而,在我们对大数据的热情拥抱中,却往往容易忽视其背后隐藏的陷阱。
首先,大数据的质量问题是一个不容忽视的陷阱。
大量的数据并不总是意味着高质量的数据。
数据可能存在错误、缺失、重复或者不准确的情况。
比如,在医疗领域,患者的病历数据可能因为人为输入错误或者不同医疗机构之间的数据格式不一致而出现偏差。
这些质量不佳的数据如果被用于分析和决策,很可能会导致错误的结论和不良的后果。
其次,大数据的隐私问题是一个令人担忧的陷阱。
随着数据的收集和分析越来越广泛,个人的隐私受到了前所未有的威胁。
我们的购物习惯、浏览历史、社交关系等大量个人信息被收集和分析,而这些信息的使用往往超出了我们的预期和控制。
例如,一些公司可能会根据我们的在线行为来推送个性化的广告,甚至将这些数据出售给第三方。
这种对个人隐私的侵犯不仅会让我们感到不安,还可能导致更严重的后果,如身份盗窃、欺诈等。
再者,大数据的分析和解读也存在陷阱。
尽管大数据分析工具越来越先进,但它们仍然依赖于人类的设计和操作。
分析人员的偏见、错误的假设或者不合适的分析方法都可能导致对数据的错误解读。
而且,大数据往往只能揭示相关性,而不能确定因果关系。
例如,我们可能发现购买某种商品的消费者往往也会购买另一种商品,但这并不意味着前者导致了后者的购买行为,可能只是一种巧合或者受到其他未知因素的影响。
另外,大数据还可能导致决策的过度依赖。
当我们拥有大量的数据时,很容易陷入一种“数据崇拜”的误区,认为数据可以解决一切问题,从而忽视了人类的直觉、经验和判断力。
然而,在某些情况下,特别是在面对复杂的、不确定的情况时,人类的智慧和判断力仍然是不可替代的。
此外,大数据的应用还可能加剧社会的不平等。
大数据的泡沫 价值和陷阱 你分得清吗_光环大数据培训
大数据的泡沫价值和陷阱你分得清吗_光环大数据培训我们所生活的世界,就像一片混沌(chaos),大数据时代,我们周围更是充斥着各种不同的理论、知识、信息和噪音,数据爆炸式增长和科技高速发展所带来的冲击,加大了未来的不确定性。
当我们接收的数据和信息越多,面临的选择就越多,如若不善于过滤、挖掘和处理,对各种决策就可能会造成负面影响,当然也会放大我们对未来不确定性的恐惧。
小到个人命运大到国家前途,都是在这样一片混沌中煎熬着。
如何从混沌中发现规律,成为预测未来的“先知”,抑或是少出几只黑天鹅?是历代人类的梦想,不管是古人的占卜、算命还是现在的专家系统、商业智能、数据挖掘、机器学习、人工智能、智慧地球、智慧城市等应用,都源于我们对未来不确定性的恐惧。
当然还有应对当前管理走向的失控,软件在加速吞噬世界,而大部分人类对其原理和特性却知之甚少,就像华尔街的金融交易一样,系统越复杂出现黑天鹅的概率就会增大;社交网络的实时性打破了时空限制,信息的流动速度和广度让也管理者越发难以掌控。
随着舍恩伯格教授《大数据时代》一书的面世,给我们带来了“醍醐灌顶”式的认知洗礼,难道抓住大数据这根救命稻草,我们就有机会做“先知”?从而也更有能力把自己和周遭世界管理得更好吗?在一定程度上是这样的,但我们也要知道,任何技术都是把双刃剑。
舍恩伯格其实没有机器学习背景,书上所说的某些内容也是有争议的,不过在教育民众和政府官员科普方面,还是具有重要意义,至少让大家知道了什么是大数据,也能在一定程度上促使我们思考大数据的价值和潜力,从而提升大数据应用水平以应对管理失控和黑天鹅等问题。
大数据泡沫:泡沫是必然但有其深远意义数据科学其实已经兴起多年,从早年的专家系统、数据挖掘到前些年的商业智能,不少大型企业和机构在管理大数据方面积累了丰富的经验,笔者10年前就曾参与过运营商的数据挖掘系统建设,那都是实实在在的大数据,只不过当时技术手段有限罢了,所以很少人能挖出什么高价值的东西,更谈不上智能化决策了。
17-310. 大数据思维的陷阱
大数据思维的陷阱大数据思维的陷阱大数据营销应用的现状可用这样几个“多”来形容:说的比投(入)的多;投的比做的多,如有些大型国企投入资金,建部门、雇海归,但并没有真正做什么;做的比懂的多,收集了一些数据,但读不出有价值的信息来;懂的比赚的多;认为今后赚的比现在想到的多。
如何才能实现光明的前景?一要养成大数据思维,二要避开三大陷阱。
大数据思维大数据思维有如下四个维度。
定量思维:一切皆可测?POS机、网上购物、社交媒体以及各种各样的卡,都是大数据的来源。
例如,通过传感器,利用红外线微波可以观测人的生理状态、脑电波等,如果驾车人员犯困,其心理指标发生变化并到一个临界值,汽车后台就会告诫驾驶员休息。
赌场入口处的红外传感器,会根据脑部热量情况,分析进来的是冲动型赌徒还是冷静的赌徒。
汽车行业的大数据有人、车、环境三个来源。
“人”不仅包括车主或者驾驶人员,还应包括乘客;“环境”不光是路面信息,还包括行车所到之处的周边信息,如旅馆、加油站、旅游景点等等,典型如地图应用。
“车”的应用也已有案例,如美国一家保险公司为汽车加装了跟踪器,根据行驶数据来决定保险费率;米其林也会搜集与环境相关的数据,某智能芯片厂商为长途货运汽车提供的芯片,可以全球定位、调节物流和运输。
跨界思维:一切或可联?跨界有不同媒介、渠道间的跨界,如O2O和LBS,也有商业模式、数据应用的跨界。
例如,GoPro是穿戴式照相机,但它也为寻求刺激的滑雪、跳伞运动爱好者,剪辑加工影像,并在电视上播出,吸引了广告和巨量的粉丝团队。
操作思维:一切要可行?应用大数据,不等于非得要上高大上的设备和硬件投入。
例如视频公司根据用户观看视频的过程来决定推送什么广告,其算法可能比较简陋,但速度快。
其次,要把数据和用户心理结合起来,营销精准但不要引起顾客的反感。
第三,大数据管理要与KPI结合起来,协调各个部门的利益,否则大家对数据采集不积极甚至不合作。
例如,运营部门如果看重节省运营成本,可能就对数据采集的意愿不强烈。
大数据时代让客户数据驱动利润奔跑大数据分析中的陷阱
大数据时代让客户数据驱动利润奔跑大数据分析中的陷阱在大数据时代,企业可以利用海量的客户数据来驱动业务发展和提高利润。
然而,大数据分析也存在一些陷阱需要注意。
本文将介绍大数据时代中客户数据驱动利润的潜在风险和解决方案。
首先,大数据分析的陷阱之一是处理庞大数据量的挑战。
随着数据量的增加,企业面临着处理和分析数据的困难。
传统的数据处理工具和技术往往无法胜任这个任务。
解决这个问题的方式是采用先进的数据处理和分析技术,如云计算和分布式计算,以加快数据处理速度并提高分析效率。
其次,大数据分析中的另一个陷阱是数据的质量问题。
大数据中常常存在数据质量不一致、数据缺失、数据重复等问题。
这些问题会影响数据分析的准确性和可信度。
因此,企业需要建立严格的数据管理和数据清洗机制,确保数据的准确性和完整性。
此外,选择合适的数据源和数据采集方法也非常重要,以获得高质量的数据。
第三个陷阱是隐私和安全问题。
在大数据分析中,企业通常需要处理客户的敏感信息,如个人身份、财务状况等。
泄漏这些信息可能会导致严重的法律和道德问题。
因此,企业应该制定严格的数据隐私和安全政策,并采用安全的数据存储和传输方式来保护客户数据的机密性和完整性。
此外,大数据分析还面临着算法和模型的选择挑战。
在选择合适的分析算法和模型时,企业需要考虑问题的复杂性、数据的特点以及分析目标。
选择不合适的算法和模型可能导致分析结果的不准确或不可靠。
为了解决这个问题,企业可以依靠数据科学家和专业人士的意见,并进行充分的测试和验证。
最后,大数据分析中的时间和成本也是一个重要的陷阱。
大数据分析需要投入大量的时间、资源和人力,包括数据收集、清洗、分析和解释等环节。
如果企业没有足够的资源来支持这些过程,大数据分析的效果可能会大打折扣。
因此,企业应该在进行大数据分析之前充分评估自身的能力和资源,并制定合理的计划和预算。
综上所述,大数据时代让客户数据驱动利润的同时,也存在一些潜在的陷阱。
大数据分析师的数据分析过程中的常见错误和陷阱
大数据分析师的数据分析过程中的常见错误和陷阱在当今信息时代,大数据的崛起使得数据分析成为了各个行业中不可或缺的一环。
作为一名大数据分析师,正确地进行数据分析对于决策者来说至关重要。
然而,在数据分析的过程中,常常会出现一些错误和陷阱,可能导致分析结果不准确或误导决策。
本文将探讨大数据分析师在数据分析过程中常见的错误和陷阱,并提出相应的解决方法。
一、数据采集阶段的错误和陷阱在数据分析的第一步中,数据采集是至关重要的一环。
然而,很多分析师在数据采集阶段会出现以下错误和陷阱:1. 数据的不完整性:在采集数据时,很容易忽视一些数据源或遗漏了重要的数据点,导致分析结果不完整。
解决这个问题的方法是,明确分析目标,确保涵盖了所有相关的数据源,并进行全面的数据采集。
2. 数据的不准确性:数据的准确性是数据分析的基础,但是由于数据源本身可能存在问题,例如数据输入错误、采集设备故障等,导致数据的准确性受到威胁。
为了解决这个问题,分析师需要在数据采集阶段进行数据验证和清洗,确保数据的准确性。
3. 数据偏差的影响:在数据采集过程中,数据偏差是一个不容忽视的问题。
例如,在调查问卷中,回答者可能存在回避某些问题或者给出不真实的答案,导致数据的偏差。
解决这个问题的方法是,采用合理的调查问卷设计,加强问卷回答者的信任感,尽量减少数据偏差的发生。
二、数据清洗阶段的错误和陷阱在数据采集之后,数据清洗是必不可少的一步。
然而,在数据清洗阶段,常常会出现以下错误和陷阱:1. 缺失值的处理不当:在数据清洗中,缺失值是一个常见的问题。
分析师需要注意对缺失值进行合理的处理,而不是将其简单地删除或用平均值填充。
根据实际情况选择合适的处理方法,以保证数据的准确性。
2. 异常值的处理错误:异常值的存在会对数据分析结果产生重要影响。
在处理异常值时,分析师需要根据分析目标和数据的特点,选择合适的方法进行处理。
需要注意的是,过度处理异常值可能会导致数据的失真,因此需要谨慎处理。
大数据分析的光荣与陷阱
大数据分析的光荣与陷阱本文从谷歌流感趋势2009年前后表现差异谈起,讨论了大数据分析容易面临的大数据自大、算法演化、看不见的动机导致数据生成机制变化等陷阱,以及对我国大数据产业发展的借鉴。
本文认为,为健康发展大数据产业,我国需要防范大数据自大风险、推动大数据产业和小数据产业齐头并进,并强化提高大数据透明度、审慎评估大数据质量等方面的努力。
一、谷歌流感趋势:未卜先知?“谷歌流感趋势”(Google Flu Trends,GFT)未卜先知的故事,常被看做大数据分析优势的明证。
2008年11月谷歌公司启动的GFT项目,目标是预测美国疾控中心(CDC)报告的流感发病率。
甫一登场,GFT就亮出十分惊艳的成绩单。
2009年,GFT团队在《自然》发文报告,只需分析数十亿搜索中45个与流感相关的关键词,GFT就能比CDC提前两周预报2007-2008季流感的发病率。
也就是说,人们不需要等CDC公布根据就诊人数计算出的发病率,就可以提前两周知道未来医院因流感就诊的人数了。
有了这两周,人们就可以有充足的时间提前预备,避免中招。
多少人可以因为大数据避免不必要的痛苦、麻烦和经济损失啊。
此一时,彼一时。
2014年, Lazer等学者在《科学》发文报告了GFT近年的表现。
2009年,GFT没有能预测到非季节性流感A-H1N1;从2011年8月到2013年8月的108周里,GFT有100周高估了CDC报告的流感发病率。
高估有多高呢?在2011-2012季,GFT预测的发病率是CDC报告值的1.5倍多;而到了2012-2013季,GFT流感发病率已经是CDC报告值的双倍多了。
这样看来,GFT不就成了那个喊“狼来了”的熊孩子了么。
那么不用大数据会如何?作者报告,只用两周前CDC的历史数据来预测发病率,其表现也要比GFT好很多。
2013年,谷歌调整了GFT的算法,并回应称出现偏差的罪魁祸首是媒体对GFT 的大幅报道导致人们的搜索行为发生了变化。
50个思维陷阱,很容易掉进去,不得不防
50个思维陷阱,很容易掉进去,不得不防1.差理由偏误:“为什么要把蓝色和黑色的衣服分开洗?”,“因为我想分开洗”。
事实:人们只要听到“因为”,就倾向于产生理解,理由好坏有时并不重要。
所以,注意不要被差理由忽悠。
2.疲劳决策:劳累一天头昏脑胀的时候,做了一个重要决定,后来发现很不明智。
事实:做决定是需要消耗能量的,疲劳后人容易做出不理性的决定。
所以,不要在疲劳的时候,做重要的决定。
3.关联谬误:选择了自己吉祥数字的房间,尽管这个房间其实没那么好。
事实:人们倾向于把本身不相关的事,赋予某种荒唐的关联,在没有因果的地方强加因果。
所以,谨防关联偏误,做出错误决策。
4.平均数偏误:尝试去蹚一条平均1米深的河,以为完全没危险。
事实:人们经常把平均数当真相,但平均数很多时候并没有意义,因为它常常不具有代表性。
所以,了解事实还是要看,数据整体分布情况。
5.激励排挤效应:出于友情帮朋友搬家,结果朋友给我发了一个100的红包。
事实:有些时候人的动力源于精神层面,金钱上的激励会排挤掉非金钱意义上的动力。
所以,有些时候,给钱并不管用,可能还会引起负面的效果。
6.废话倾向:一个人滔滔不绝,但似乎听起来,并没有表达什么有价值的信息。
事实:人常有废话倾向,害怕不说话,别人把自己当傻瓜,于是废话连篇,彻底暴露了自己糊涂的思想。
所以,没有什么可说的时候,最好就什么也不说。
7.移民效应:有个笑话说,那些从俄克拉荷马州搬到加利福尼亚州的人,一下提高了两个州的平均智商。
事实:数据变好,事情并不一定就变好,比如,通过调换组员,将两组的平均值都变好,但其实并没有实质上让两组都变好。
所以,要警惕移民效应。
8.信息偏倚:拿一张1比1的地图,是学不到知识的。
事实:人们总是希望尽可能多地获取信息,来支撑自己决策,但过量的信息反而会干扰决策。
所以,重要的是,掌握关键信息,而不是更多信息。
9.聚集性幻觉:从天空中的一堆云里看到一只猫,便以为是一种上天的启示。
大数据分析师的数据分析过程中的常见错误和陷阱
大数据分析师的数据分析过程中的常见错误和陷阱数据分析在当今互联网时代扮演着至关重要的角色,而大数据分析师则是这个领域中的重要从业人员。
然而,在进行数据分析的过程中,大数据分析师常常会遇到一些常见的错误和陷阱。
本文将探讨这些错误和陷阱,并提供相应的解决方法,以帮助大数据分析师更加准确地进行数据分析。
一、数据清洗错误和陷阱在进行数据分析之前,数据清洗是非常重要的一步。
然而,很多大数据分析师在数据清洗过程中存在一些常见错误和陷阱。
以下是几个常见的错误和陷阱,以及相应的解决方法:1. 缺失数据处理不当在实际数据采集和整理过程中,可能会出现缺失数据的情况。
如果不妥善处理,缺失数据可能会对最终的分析结果造成误导。
解决方法之一是使用适当的填充方法,如均值、中位数或众数填充缺失的数据。
2. 异常值未正确处理在数据中存在异常值时,如果没有正确处理,这些异常值可能会对分析结果产生不利影响。
解决方法之一是使用合理的统计指标,如平均绝对偏差(MAD)或箱型图(box plot)来检测和处理异常值。
3. 数据格式错误数据分析中常常会涉及到不同的数据格式,如日期时间、文本或数值。
在处理过程中,如果没有正确处理不同的数据格式,可能会导致分析结果的误解。
解决方法之一是将数据按照正确的格式进行转换,以便于后续的分析和处理。
二、数据分析方法错误和陷阱在进行数据分析的过程中,选择合适的分析方法是非常重要的。
以下是一些常见的数据分析方法错误和陷阱,以及相应的解决方法:1. 不适当的统计方法选择在进行数据分析时,选择适当的统计方法能够更准确地得出结论。
然而,很多大数据分析师在选择统计方法时存在迷茫和错误。
解决方法之一是对不同的统计方法进行充分了解,并根据问题的特点选择最合适的方法。
2. 忽略样本量大小样本量对于数据分析的可靠性非常重要,但很多分析师在进行数据分析时常常忽视样本量的大小。
解决方法之一是进行样本容量计算,确保样本量足够大以得到可靠的结果。
大数据的思维误区与价值纬度
大数据的思维误区与价值纬度by 吴甘沙2014-04-26本文为“泰山会”微信群线下沙龙速记稿,全文如下:分享嘉宾:吴甘沙,英特尔中国研究院首席工程师大家周末好,我是吴甘沙,在英特尔中国研究院工作。
清华基于微博分析获得的大数据幸福指数发现人们周六最幸福,相信大家心情不错,因此今天不谈枯燥的技术。
关于大数据的思维、理念、方法论已经被反复消费了,本来我想直接进入交互环节,继挺兄还是要求先有一部分规定动作,我就先自弹自唱几十分钟,既然是漫谈,也不见得扣题,说到哪里是哪里。
各位有问题,我可以择时择机插入讨论。
先说大数据思想的形成吧。
自从人类开始文字和数字,数据就开始产生。
就数据增长曲线而言,极小的初值确实要经历漫长的过程达到人类能感知的曲线拐点。
谷歌前CEO埃里克·施密特曾给出了一个有趣的数据:从人类文明曙光初现到2003年一共产生的数据,只相当于2010年两天产生的数据量。
而一旦越过拐点,“大数据摩尔定律”的滚滚铁轮下,指数效应爆发:最近两年产生的数据量相当于之前产生的全部数据量。
在漫长的数据蓄水过程中,数学和统计学逐渐发展,人们开始注意对数据的量化分析,在人类进入信息时代以前这样的例子就不胜枚举。
比如经济上,黄仁宇先生对宋朝经济的分析中发现了“数目字管理”(即定量分析)的广泛应用(可惜王安石变法有始无终)。
又如军事,“向林彪学习数据挖掘”的桥段不论真假,其背后量化分析的思想无疑有其现实基础,而这一基础甚至可以回推到2000多年前,孙膑正是通过编造“十万灶减到五万灶再减到三万灶”的数据、利用庞涓的量化分析习惯对其进行诱杀。
到上世纪50-60年代,磁带取代穿孔卡片机,启动了数据存储的革命。
磁盘驱动器随即发明,它带来的最大想象空间并不是容量,而是随机读写的能力,这一下子解放了数据工作者的思维模式,开始数据的非线性表达和管理。
数据库应运而生,从层次型数据库(IBM为阿波罗登月设计的层次型数据库迄今仍在建行使用),到网状数据库,再到现在通用的关系数据库。
大数据营销三大陷阱
大数据营销三大陷阱作者:陈宇新来源:《销售与市场·渠道版》2014年第05期1.样本偏差陷阱。
企业搜集到的样本数据看上去很多,但有时却不全面而具有迷惑性。
2006年,某知名化妆品牌因被检测出重金属含量超标而下架。
新浪上的网络调查显示,95%的网民表示不会再购买该品牌产品。
但是该品牌产品重新调整上架后,销量虽然下降了40%,但远不及新浪的网络调查的糟糕程度。
上述网络调查虽然有足够多的样本,但是网民不能代表该品牌的全部消费者。
如果该品牌以上述网络调查作为决策依据,就有可能产生偏差。
2.信息缺失陷阱。
在拥有大数据的情况下,一家企业能够轻易地知道自己与顾客之间的交易信息,但却不知道竞争对手或者其他类型公司与顾客的交易情况。
这种信息断层,会对大数据营销带来一定的效果壁垒。
国内一家航空公司把一年乘坐40次航班以上的旅客确定为金卡顾客,20次以下的确定为普通卡顾客。
他们后来查验了公司所有持卡顾客的情况,并把竞争对手的旅客订单进行对比后发现,在该航空公司界定的普通卡低端顾客中,有相当一部分顾客实际乘坐次数都在20次以上,但他们对价格不敏感,且分散乘坐不同公司的航班,导致在每家航空公司都没有金卡、银卡。
这些具有高的潜在价值的顾客,航空公司只有进行更全面的数据分析后才能察觉。
3.内生变量可能模糊因果关系。
国内一家电商消费品企业用大数据软件判断得出,某个消费者可能是价格敏感者。
于是企业打折促销、发放折扣券,确实诱发了该消费者的购买行为。
但这样的数据可能是被企业的促销信息“污染的数据”,而不是该消费者内生的“干净的行为”。
营销人员可以通过故意改变营销条件来验证这种因果关系正确与否。
比如过一段时间后折扣改变为15%,看看消费者是否继续购买。
如果他不购买的话,之前的判断就是正确的,如果还是继续购买,那说明前面判断是错误的。
需探讨可联系编辑:冯华魁1301446679@。
产品经理-警惕!数据分析的陷阱
警惕!数据分析的陷阱很多数据分析人员在工作中,过度关注数据或者方法论,容易忽视一些“陷阱”,以致于得出的结果以致于很可能出现偏差。
本文我将从业务层面的视角,来探讨和梳理在数据分析演化过程中几个可能常见“陷阱”,希望对你有帮助。
我们上篇内容,给大家梳理了数据分析光荣的一些荣耀和欣慰时刻,包括数据分析的重要性、数据分析产出价值、数据分析经典案例汇总。
相信大家对“数据分析”的价值以及重要性有了相应的、立体的、全面的认知和自己的感悟思考。
(详情请看:数据分析的荣耀与仰慕)然而,我们在日常工作中所,你一定听过运营或者产品等相关人员人员会说道“要拿数据说话”“用要数据来讲故事”等等的话语。
可见数据越来越受我们每个企业或者业务线人员的重视,也成为我们在实际工作的重要的参考以及决策支持。
但此时,很多的数据分析人员往往太过于过分去关注数据或者分析方法论等,尤其是对于刚入门的,在解读数据过程中,受到数据来源、采集方法、统计口径、分析方法、业务经验、思考方式等利空因素影响,就会出现一些容易忽视的“陷阱”,以致于得出的结果很可能出现歧异偏差。
所以,重视数据分析是漂亮的,但也难以千万不能掉进数据分析的“陷阱”里。
那么,本文我们将理财业务从银行业务层面的视角,来探讨和梳理在数据分析过程中几个可能常见“陷阱”,目的是主要就给刚入门的、产品、运营等提供一些有益经验分享,帮助大家在实际工作中同场景中遇到这些情况的时候,可以尽量规避一些不太注意的“陷阱”。
在数据分析中相当注重的是分析,而并不是数据本身,这就造成了数据分析最强最强者的陷阱:不了解数据来源,不全面落实数据的正确性,就开始分析了。
因此,数据分析的最终目标就是了解数据来源,确保数据准确性。
比如,一个考勤软件的App在做渠道投放,全网了新版的落地页。
上线了一段时间数据更稳定后,业务人员从数据发现,此某个渠道的落地页点击率、转化率等数据相比其他的投放的效果高出很多,从数据中,可以看到说明这个渠道来的用户效果很好,以后就要加大这个平台的投放。
大数据时代社科实证研究的几个陷阱
数据可能来自于非权威、非官方的渠道,其真实 性和可信度存疑。
样本偏差
数据来源的样本可能存在偏差,不能代表总体, 导致研究结果失真。
主观性数据
部分数据可能带有主观性,如问卷调查等,其客 观性和准确性受到影响。
数据处理错误
数据清洗不彻底
数据清洗过程中可能遗漏了部分错误或异常数据,影响后 续分析。
忽视数据分布
在分析数据时,如果不考虑数据 的分布情况,可能会导致对结果 的误解。
05
陷阱五:研究伦理失范
隐私泄露风险
个人隐私泄露
在大数据时代,个人信息的采集、存 储和使用变得更加容易,但这也增加 了隐私泄露的风险,如未经授权的数 据共享、黑客攻击等。
群体隐私泄露
除了个人隐私外,群体隐私也可能受 到威胁,如通过数据分析揭示出某些 群体的敏感信息或行为模式。
打破学科壁垒
鼓励不同团队建设
组建具有多学科背景的 团队,发挥各自优势, 提高研究效率和质量。
推动成果共享
通过学术会议、期刊发 表等方式分享研究成果 和经验,促进学术交流 与进步。
感谢您的观看
THANKS
数据转换错误
在数据转换过程中,可能出现格式错误、单位不统一等问 题,导致数据失真。
数据分析方法不当
数据分析方法选择不当,可能导致结果出现偏差或误导。
数据缺失与异常值
数据缺失
部分数据可能因为各种原因缺失 ,如采集不全、丢失等,导致数 据不完整。
异常值处理不当
对于异常值,如果没有进行合适 的处理,可能会对整体数据分析 产生干扰。
培养批判性思维
对数据保持审慎和批判态度,避免盲目相信和依赖数据。
强化研究设计与方法严谨性
当心大数据时代的浮夸陷阱
当心大数据时代的浮夸陷阱
张田勘
【期刊名称】《新阅读》
【年(卷),期】2015(000)002
【摘要】数据分析师在对阿里巴巴内衣销售数据进行分析后发现,购买大号内衣的女性往往更“败家”。
其根据是,65%B罩杯的女性属于低消费顾客,而c罩杯及以上的顾客大多属于中等消费或高消费买家。
这一结论是否成立姑且不论,但首先传递了一个信息,今天人们已经进入数据为王的时代,其中大数据似乎又是王中之王。
【总页数】1页(P11-11)
【作者】张田勘
【作者单位】
【正文语种】中文
【中图分类】F222.72
【相关文献】
1.当心大数据时代的浮夸陷阱
2.当心!
视觉陷阱
——《给孩子的视觉魔法书》导读3.当心掉进挂号APP精准贩号陷阱4.网络中布满陷阱未成年人更要当心5.当心“经济舆论场”中的陷阱
因版权原因,仅展示原文概要,查看原文内容请购买。
产品经理我们该如何爬出大数据陷阱
导读:大数据革命,是企业始终在为之奋斗,且试图翻越的一座大山。
没有一家企业没有数据,但鲜有企业能够用好数据。
本文通过结合金融行业一线的工作经验,提出大数据运营视角下的小数据运维思路设计方向,供大家一同参考和学习,一起做好数据价值提升。
金融一线是与客户互动的重要窗口,拥有完整、清晰的一手客户行为数据,应当成为开展大数据业务的排头兵。
随着服务渠道体系的健全,我们与客户的交流渠道已涵盖热线、APP、微信公众号、网银等诸多方面。
作为客户服务的大脑,数据中心应当对现有沉淀数据提供业务端更多的理解,要主动进行学习归纳。
大数据运营视角,对企业的帮助,就像是臂膀,触及到更多的信息;小数据运维思路,就像是细胞,让企业可以学会造血,创造价值。
大数据乍一听是很高大上词汇,但我们要思考的是怎样将大数据进行落地。
通过与一线数据使用人员,进行沟通了解到,目前我们的报表数据主要包含员工与客户的话务沟通、业务咨询办理、操作行为等内容,统计维度较为完整,基础数据较为准确。
但从更好做到数据应用的角度出发,我们发现相关人员往往不能第一时间从密密麻麻的统计报表中发现问题,后台管理人员需要二次付出大量的时间,将数据进行处理,才能够得到需要的分析结果。
以金融呼叫中心为例,很多时候拿到的只是一份简单的EXCLE数据陈列统计,而我们真正想知道的是平均呼入通话时长、处理时长、事后处理市场、振铃时长等数据指标的分布情况,以及各团队的工作状态,做一些横向的比较,更好关心到每一位员工的日常工作。
在这一方面,提出:将统计报表模型化,实现分析结果的自动化、常态化使用,让不起眼的小数据,创造出更大的管理价值。
依然以金融呼叫中心为例,与负责排班预测的管理人员进行沟通了解到,在对每月人力进行安排时,往往需要花费很大的时间对比冗杂的历史数据,并且借助前人经验,对于话务量进行预测,耗时耗力,而且部分计算公式背后的判断逻辑较为复杂,工作上手时间较久。
这个问题其实反映出的是在数据处理阶段,人工明显体现出算力不足、经验有限的特点,没有办法充分发挥出沉淀数据的背后价值。
最新-品牌建设大数据陷阱分析 精品
品牌建设大数据陷阱分析摘要大数据的出现给营销界带来了巨大的改变,也让品牌建设迎来了新的挑战。
本文就大数据在品牌建设方面存在的问题进行了分析,明确指出了大数据在品牌大创意、产品理念以及差异化方面存在的陷阱,为品牌建设工作提供了参考。
关键词品牌建设;大数据最近,《战狼2》的票房不断地刷新着国产影片票房纪录,开始有专业人士用大数据分析电影火爆背后的原因。
整个分析数据非常充分,图解非常清晰,最后的结论影片的公众网络好评和微博传播起到了很大作用,作品引起了共鸣,激起了民心。
越来越多的人相信大数据能够帮助我们揭示事物的本质,能够帮助我们做决策,能够帮助我们树立品牌。
毫无疑问,在今天,营销界最为时髦的词应该是大数据。
大数据专家们认为这个新资源的出现,将使传统营销彻底过时。
大数据将对营销领域发动一场大革命,因为我们可以透过庞大的数据,分析消费者想要什么,他们有什么样的行为,他们在哪里购买,如何消费媒体,以及什么样的信息能够真正激发他们积极的响应。
此外,大数据还允许营销人员将他们的目标客户调整到更小的利基市场,并为营销人员提供准确的客户信息,帮助他们在个人层面上进行差异化销售。
在大数据分析的基础上进行定制化营销,想必结果要远远好于现在常用的营销方法。
不可否认,所有这一切听起来都非常好,让我们看到了希望。
但起码有一个例外,当涉及品牌建设时,大数据有可能会帮倒忙,产生相反的效果,让品牌丧失内涵。
虽然大数据项目多数都是高大上的,但许多项目并不理解我们在品牌建设中不断追求的东西是什么。
品牌建设中我们不断追求的是一种品牌精神,这种精神甚至可以强大到让消费者信仰、崇拜。
就我看来,至少有以下三个方面原因导致大数据在品牌建设中失去美丽的光环。
第一,大数据会导致品牌为了迎合不断细分的利基市场消费者需求而逐渐边缘化大创意。
数据挖掘技术的广泛应用会使营销人员走上一条自认为非常时髦的道路。
在这条道路上,营销人员会努力寻找消费者个人层面的需求差异,淡化原有的品牌内涵,极力讨好每一位消费者。
大数据的陷阱
大数据的陷阱卢昌海-(1)这几年,大数据的“出镜率”颇高。
连带着,“数据科学家”成为了新的高薪一族。
人气、财气的提升也带动了士气,有人开始高估大数据的神通,仿佛只要积累了足够多数据,请“数据科学家”们坐在电脑前——就像福尔摩斯坐在太师椅上——敲一通键盘,各种问题就都能迎刃而解。
(2)大数据真有如此神通吗?回顾一段小历史对我们也许不无启示。
(3)那是在1936 年,美国共和党人艾尔弗·兰登与民主党人富兰克林·罗斯福竞选总统。
当时很有影响力的《文摘》杂志决定搞一次超大规模的民意调查,调查人数高达1,000 万,约为当时选民总数的1/4,最终收到的回复约有240 万份,对于民意调查来说可谓是“大数据”——事实上,哪怕在今天,一些全国性民意调查的调查对象也只有几千。
通过对这组“大数据”的分析,《文摘》杂志预测兰登将以55% 比41% 的显著优势获胜。
但不久后揭晓的真正结果却是罗斯福以61% 比37% 的优势大胜。
《文摘》杂志的“大数据”遭到了惨败。
(4)当然,那已是陈年旧事了。
240 万份回复作为民意调查是超大规模的,从数据角度讲,以今天的标准来衡量却实在小得可怜。
不过,今天的“大”在几十年后也未必不会如昔日的“小”一样可怜。
那段小历史的真正启示在于:。
这种类型的错误对于大数据是一种警示。
(5)现在让我们回到当代。
2008 年8 月,大数据“成功偶像”之一的谷歌公司领衔在《自然》杂志上发表论文,推介了一个如今被称为“谷歌流感趋势”的系统。
这一系统能利用互联网上有关流感的搜索的数量和分布来估计各地区流感类疾病的患者数目。
谷歌表示,这一系统给出的估计不仅比美国疾病控制与预防中心的数据更快速,而且还有“不依赖于理论”的特点。
(6)但是,这个一度引起轰动的系统经过几年的运行后,却引人注目地演示了大数据可能..带来的陷阱。
(7)2013 年 2 月,《自然》杂志资深记者巴特勒发表了一篇题为“当谷歌弄错了流感”的文章,指出“谷歌流感趋势”对2012 年底美国流感类疾病患者数目的估计比美国疾病控制与预防中心给出的实际数据高了约一倍。
智媒时代大数据“杀熟”陷阱与应对策略
智媒时代大数据“杀熟”陷阱与应对策略从媒介情境论到智媒场景的建构,“杀熟”一词完成了由现实消费市场向虚拟化环境的过渡;与此同时,种种因技术加持而产生的问题也随着智能媒体的到来不断显现。
大数据“杀熟”作为当前互联网生态中频发的现象之一,其通过数据来源、内容推送、隐私保护、信息重复传播等方式完成场景的搭建,同时也在无形之中为用户的使用和媒介的运作埋下陷阱。
为消弭大数据“杀熟”而带来的问题,本文提出应当多方发力:聚合信息内容、破除信息茧房,扩充审核渠道、采用人机协同,回归用户自主性、消除惯性操作,提高算法透明度、实现行业平稳等,以实现智能化技术的合理利用。
近十几年来,随着智能技术的突飞猛进,以“可计算性”为特征的新型传播样态逐渐扩张至各大产业领域,也重构了当前的媒介生态。
算法传播,以“计算引擎决定一切”的基本特征创造出一套渐趋完整的可操作系统,并不断为传播活动嵌入新的价值观念和行为模式。
智能技术对于媒介观念的重塑和传播实践的变革给传媒业带来了持久而深远的影响。
与此同时,种种为满足特定利益需求而生的媒介化风险也在凸显,并从根本上威胁着个人、行业乃至社会的进步。
一、从情境到场景:“杀熟”由现实到虚拟的过渡美国传播学者约书亚·梅罗维茨(Joshua Meyrowitz)1985年在其著作《消失的地域:电子媒介对社会行为的影响》中提出媒介情境的概念。
所谓情境,是指在一定时间内各种情况的相对或结合的境况。
简言之,情境是社会环境变动所带来的影响。
在梅罗维茨看来,这种情境的变动也取决于媒介的变化,最终将落实到个体的社会实践当中。
媒介情境论的提出,将宏观的媒介技术与微观的个人社会化进程相交融,预示着技术的出现将打破某些原有的社会平衡,而个体的各种行为表现都可以在媒介的“笼罩”下找到源头。
随着互联网技术裂变式的发展,媒介情境又有了新的延伸,多种媒体形式间优势互补,媒介融合进入智能化整合阶段。
当“场景”作为一种更宏大的媒介景观映入受众视野时,传统时空维度的限制早已不再是影响个体行为的决定性因素。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据思维的陷阱
大数据思维的陷阱
大数据营销应用的现状可用这样几个“多”来形容:说的比投(入)的多;投的比做的多,如有些大型国企投入资金,建部门、雇海归,但并没有真正做什么;做的比懂的多,收集了一些数据,但读不出有价值的信息来;懂的比赚的多;认为今后赚的比现在想到的多。
如何才能实现光明的前景?一要养成大数据思维,二要避开三大陷阱。
大数据思维
大数据思维有如下四个维度。
定量思维:一切皆可测?
POS机、网上购物、社交媒体以及各种各样的卡,都是大数据的来源。
例如,通过传感器,利用红外线微波可以观测人的生理状态、脑电波等,如果驾车人员犯困,其心理指标发生变化并到一个临界值,汽车后台就会告诫驾驶员休息。
赌场入口处的红外传感器,会根据脑部热量情况,分析进来的是冲动型赌徒还是冷静的赌徒。
汽车行业的大数据有人、车、环境三个来源。
“人”不仅包括车主或者驾驶人员,还应包括乘客;“环境”不光是路面信息,还包括行车所到之处的周边信息,如旅馆、加油站、旅游景点等等,典型如地图应用。
“车”的应用也已有案例,如美国一家保险公司为汽车加装了跟踪器,根据行驶数据来决定保险费率;米其林也会搜集与环境相关的数据,某智能芯片厂商为长途货运汽车提供的芯片,可以全球定位、调节物流和运输。
跨界思维:一切或可联?
跨界有不同媒介、渠道间的跨界,如O2O和LBS,也有商业模式、数据应用的跨界。
例如,GoPro是穿戴式照相机,但它也为寻求刺激的滑雪、跳伞运动爱好者,剪辑加工影像,并在电视上播出,吸引了广告和巨量的粉丝团队。
操作思维:一切要可行?
应用大数据,不等于非得要上高大上的设备和硬件投入。
例如视频公司根据用户观看视频的过程来决定推送什么广告,其算法可能比较简陋,但速度快。
其次,要把数据和用户心理结合起来,营销精准但不要引起顾客的反感。
第三,大数据管理要与KPI结合起来,协调各个部门的利益,否则大家对数据采集不积极甚至不合作。
例如,运营部门如果看重节省运营成本,可能就对数据采集的意愿不强烈。
实验思维:一切应可试?
比如,要想知道推荐的效果,可以做一个实验。
一半消费者有推荐,一半没有。
从短期看,推荐效果并不明显,但长期效果非常明显。
因为推荐是购物体验的一部分。
短时间内,消费者对所推荐的产品可能没需求,但到有需求时就会想起来,尤其是当推荐产品符合他们的品位和风格时。
三大陷阱
应用大数据进行精准营销,要注意规避如下三大陷阱。
有数不一定有据?
应用大数据需要什么样的统计或逻辑背景?首先,描述。
要能辨识出我们描述的人跟心里想的目标人群是不是一群人。
其次,预测。
理解现象、变量之间的相关性。
第三,优化。
理解因果关系,否则无法优化。
简言之,预测需要相关性,而优化则需要因果性,而描述关键在样本的代表性。
大而不全?
有些大数据应用收集的数据非常多,但对其倾向性却不清楚。
解决的办法是跨界,收集企业之外的数据。
例如,汽车制造商要跟电商结合,要跟社交媒体结合,通过跨界把数据做全,才能把精准营销做得更好。
其次,要把营销、销售和库存等内部信息打通。
内生变量模糊了因果关系?
大数据介入消费者购买过程越多,可能对消费者真实偏好的了解越少。
例如,视频网站给某用户推荐了一个同性恋电影,他看了;再推荐一部,他又看了。
这时,推荐系统就会认定该用户是同性恋,从而继续推荐,实际上该用户可能不过是一时好奇,最后深受其害。
解决办法是定期实验。
基于大数据的精准营销到底谁会胜出?在直线管理看来,要至少具备以下资源优势的一种:产品有优势、对客户特别了解、数据来源特别多、平台优势。
目前,电商的优势显而易见,因为其数据量非常大,而且有平台优势。
制造商的机会在哪里?一要把产品做得非常好,二要联网提供服务,就像特斯拉,买车,更是买背后的互联网服务。
然而,无论谁是赢家,笑到最后的应该是消费者,特别是新一代以网络为家的消费者。