大数据与互联网信息挖掘
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据与互联网信息挖掘
学习体会
前言
现在是一个技术奔腾、信息爆炸的社会,大数据这个新概念一出现就受到了人们极大的热捧。作为一名计算机与网络专业的学生,更是深刻地体会到身处网络的信息海洋中,常常会有被数据、信息“淹没”窒息感和无力感。面对海量的网络信息,我们的眼中不应该只是屏幕上的代码和设备中的0和1,我们更要看到这些看似没什么联系的信息中,隐藏的深层信息,和它们背后潜在的巨大机遇。
学习了这门课程后,我对大数据有了更深刻的理解,在此,从以下几方面谈谈我的看法。
首先,什么是大数据?
大数据指一般的软件工具难以捕捉、管理和分析的大容量非结构数据,一般以“太字节”为单位。构成大数据的信息主要包括:宽带普及带来的巨量日志和通讯记录,社交网络每天不断更新的个人信息,视频通讯、医疗影像、地理信息、监控录像等视频记录,传感器、导航设备等非传统IT 设备产生的数据信息,以及持续增加的各种智能终端产生的图片及信息,这些信息呈爆炸性增长,不断涌入网络海洋。大数据之大并不仅仅在于容量之大,更大的意义在于:通过对海量数据的交换、整合和分析,发现新的知识,创造新的价值,带来大知识、大科技、大利润和大发展。
我看过一本书,书中引用了几个十分经典的案例,向我们深入浅出地诠释了大数据的含义和意义,我从这几件案例中也总结出了一些启示。
案例一、美国总统奥巴马成功当选竟然靠的大数据?!
奥巴马在2012年的总统大选中之所以最后胜出,借用了大数据的方法,通过对目标选民的细分,奥巴马的竞选团队甚至对每一个个体选民进行统计,如年龄,性别甚至喜欢在什么时段收看节目……这样,在投放广告时才更有针对性。竞选结果表明,他仅以微弱的优势获得了胜利,而这微弱优势的选票,也许就来自于接收到精准投放广告的那部分选民。
启示:大数据并不是一门高深的“技术”,而是一种思维方式。从部分抽样到全部抽样,不再是传统统计学对趋势的把握,而更加注重个体特征的综合分析,从而得出更有针对性的决策和判断。
案例二、亚马逊的华丽转身——大数据公司
会员为亚马逊贡献了三分之一的运营收入,而究其原因,大概与亚马逊精准的“推荐系统”有关。曾在亚马逊的网站上消费过的朋友可能注意过,当你选择一种商品的时
候,他总会很贴心地为你推荐相关的产品。拿国内流行的一句话说:“他比你更了解你自己”。
启示:大数据的商业意义在于,通过海量的收集、挖掘,数据会自动做出更有说服力的选择,真正做到“让数据说话”。需要关注的是,大数据与传统的统计相比,由于样本量趋于无穷大,所以在帮助人们决策时,往往更具科学性,也更有洞察力。正因为大数据在商业上的价值在亚马逊上得到了验证,业内甚至有人评论:“亚马逊并不是家商务公司,而是一家大数据公司。”
案例三、挽救早产儿—生命本该不脆弱
在加拿大多伦多的一家医院,针对早产婴儿,每秒钟有超过3000次的数据读取。通过这些数据分析,医院能够提前知道哪些早产儿出现问题并且有针对性地采取措施,避免早产婴儿夭折。而研究表明,那些由于早产不幸夭折的孩子们在“特定时期”并不会有剧烈的生命体征变化,而通过大数据分析,只要及时进行医疗干预,这些灾难完全可以避免。
启示:大数据的魔力在于不仅仅是事后的分析评估,而是能够在某种程度上“预知未来”。如果被预测出来的“时间窗口”事关重大甚至像上面的案例讲的——“人命关天”,那大数据的价值将不可限量。
通过以上三个案例可以看出,大数据已经从政治、商业、医疗等各个方面影响人们的生活了。依靠数据做决策看似机械、古板,实际上,如果一个机构从来不充分利用自己的数据,那就和一个人有过目不忘的本事却从来不动脑筋没有分别。在移动互联网时代,智能终端的快速普及让每个人都能消费数据,然而,在消费的同时,我们每个人也都在无时不刻地生产数据,我们的位置、速度、阅读信息等等……这个世界进入了“大数据”时代。
案例四、航空公司也能生产大数据?
一家德国的航空公司,在飞机上安装了许多监测设备,在执行日常的飞行任务时,获取大量气象数据(如:气温、气压等),通过采集大量的数据并将其反馈给当地的气象部门,他们惊喜地发现,天气预报的准确率提高了7个百分点。这实在是非常了不起。
启示:“生活中并不缺少美,缺少的是发现美的眼睛。”罗丹在100多年前说的这段话改装一下用在大数据上也同样可信:生活中并不缺乏数据,只是缺乏善于从数据中发现规律的方法。值得注意的是,维克托教授在这里有一个核心观点:大数据时代最大的转变就是,放弃对因果关系的渴求,而取而代之关注相关关系。也就是说只要知道“是什么”,而不需要知道“为什么”。这是对人们长时间积累起来的思维习惯的一次冲击和挑战,但当我们开始习惯用大数据的思维时,经过一段时间的积累,也许就会发现大数据的魅力了。
大数据时代面临的挑战
大数据是信息通信技术发展积累至今,按照自身技术发展逻辑,从提高生产效率向更高级智能阶段的自然生长。无处不在的信息感知和采集终端为我们采集了海量的数据,而以云计算为代表的计算技术的不断进步,为我们提供了强大的计算能力,这就围绕个人以及组织的行为构建起了一个与物质世界相平行的数字世界。
大数据时代下的信息技术日渐成熟,但是在高科技发展的今天,也存在着诸多不足,综合各方面信息,我总结出了几点技术上和非技术上大数据时代面临的挑战:
●运营商带宽能力与对数据洪流的适应能力面临前所未有的挑战
●大数据处理和分析的能力远远不及理想中水平,数据量的快速增长,对存储技
术提出了挑战;同时,需要高速信息传输能力支持,与低密度有价值数据的快
速分析、处理能力。
●大数据环境下通过对用户数据的深度分析,很容易了解用户行为和喜好,乃至
企业用户的商业机密,对个人隐私问题必须引起充分重视;
●大数据时代的基本特征,决定其在技术与商业模式上有巨大的创新空间,如何
创新已成为大数据时代的一个首要问题;
●大数据时代对政府制订规则与监管部门发挥作用提出了新的挑战;
●大数据的可视化还没有达到人们的需求;
●海量数据洪流中,在线对话与在线交易活动日益增加,其安全威胁更为严峻;
而且现今黑客的组织能力、作案工具、作案手法及隐蔽程度更上一层楼;
●大数据人才的缺乏,大数据时代对数据分析师的要求极高,只有大数据专业化
的人才,才具备开发预言分析应用程序模型的技能。
大数据时代面临挑战的应对策略
大数据时代的浪潮已经袭来,这对于我们每一个人来说,既是大数据的缔造者,因为我们的认知和行为方式都在源源不断地产生各种各样的数据;又是大数据的使用者,因为人的大脑几乎每时每刻都在对所观察到和所搜集到的各种数据进行分析,以期得出结论;更是大数据的直接受益者,因为通过对数据的分析和挖掘,大数据的大价值最终体现在指导人的行动并由此推动社会的不断进步。面对大数据时代在现如今面临的挑战,个人提出几点应对策略:
1、合理获取数据
在大数据时代,数据的产生速度飞快而且体量庞大,往往以TB或YB甚至是ZB来
衡量。各种机构、个人都在不断地向外产生和发布结构化与非结构化的复杂数据,并进行数据交换,如人们当前最常用的数据来源渠道——互联网,每天的数据交换量已极为惊人。
在这种情况下,由于数据传播的速度极快,且在传播过程中本身已有可能通过交换发生多次变换而生成了更多的复杂数据,那么,对我们普通人来说,当数据充分融合在一起的时候就很难分辨其真正的来源。即使能够弄清楚数据的真正来源,你又将面临那些复杂的非结构化数据的考验。