大数据与数据挖掘(全文)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大数据与数据挖掘(全文)

胡经国

本文作者的话:

本全文由已在百度文库发表的本文4篇连载文档汇集而成。特此说明。

一、大数据与数据挖掘的相对绝对关系

1、安全和商业领域的大数据与数据挖掘

⑴、数据挖掘与隐私安全

当爱德华·斯诺登(Edward Snowden)还在寻求容身之所的时候,美国国家安全局(NSA)全方位收集电话和电子邮件记录之事经过他的披露,已经引发了人们的不安和愤怒。美国前总统奥巴马当局声称,监听数据带来了安全。然而,左翼和右翼都在谴责这种窥探行为是对隐私的侵犯。

数据不是信息,而是有待理解的原材料。但是,有一件事是确定无疑的,那就是当NSA为了从其海量数据中挖掘出信息,耗资数十亿美元改善其数据挖掘新手段时,它正好受益于陡然降低的计算机存储和处理的价格。

⑵、数据挖掘与疾病筛查

麻省理工学院的研究者约翰·古塔格(John Guttag)和柯林·斯塔尔兹(Collin Stultz)创建了一个计算机模型,用来分析心脏病病患者丢弃的心电图数据。他们利用数据挖掘和机器学习,在海量数据中筛选。结果发现,在心电图中出现三类异常者一年内死于第二次心脏病发作的机率,比未出现者高1~2倍。这种新方法能够识别出更多的、无法通过现有的风险筛查被探查出来的高危病人。

⑶、数据挖掘与科学研究

数据挖掘这一术语含义广泛,是指一些通常由软件实现的机制,其目的是从巨量数据中提取出信息。数据挖掘往往又被称作算法。

威斯康星探索学院主任大卫·克拉考尔(David Krakauer)说,数据量的增长以及提取信息的能力的提高也在影响着科学。“计算机的处理能力和存储空间在呈指数增长,成本却在呈指数级下降。从这个意义上讲,很多科学研究如今也遵循摩尔定律。”

在2005年,一块容量1TB的硬盘价格大约为1000美元。“但是,现在一枚不到100美元的U盘就有那么大的容量。”研究智能演化的克拉考尔说。现下关于大数据和数据挖掘的讨论,“之所以发生,是因为我们正处于惊天动地的变革当中,而且我们正以前所未有的方式感知它。”克拉劳尔说。

⑷、大数据不断增长对商业的影响

随着我们通过电话、信用卡、电子商务、互联网和电子邮件留下更多的生活痕迹,大数据不断增长的商业影响,也在如下时刻表现出来:

你搜索一条飞往塔斯卡鲁萨的航班,然后便看到网站上出现了塔斯卡鲁萨的宾馆打折信息;

你观赏的电影采用了以几十万GB数据为基础的计算机图形图像技术;

你光顾的商店在对顾客行为进行数据挖掘的基础上获取最大化的利润;

用算法预测人们购票需求,航空公司以不可预知的方式调整价格;

智能手机的应用识别到你的位置,因此你收到附近餐厅的服务信息。

2、科研领域的大数据挖掘

除了安全和商业,大数据和数据挖掘在科研领域也正在风起云涌。越来越多的设备带着更加精密的传感器;而这些传感器则不断传回愈发难以驾驭的数据流。于是,人们需要日益强大的数据分析能力。在气象学、石油勘探和天文学等领域,数据量的井喷式增长对更高层次的数据分析和洞察提供了支持,甚至提出了要求。

⑴、海洋表面洋流示意图

2005年6月至2007年12月海洋表面洋流示意图(略)的数据源:海面高度数据来自美国航空航天局(NASA)的Topex/Poseidon卫星、Jason-1卫星,以及海形图任务/Jason-2卫星测高仪;重力数据来自NASA/德国航空航天中心的重力恢复及气候实验任务;表面风压数据来自NASA的QuikScat任务;海平面温度数据来自NASA/日本宇宙航空研究开发机构的先进微波扫描辐射计-地球观测系统;海冰浓度和速度数据来自被动微波辐射计;温度和咸度分布数据来自船载系泊式测量仪器以及国际Argo海洋观测系统。

这幅2005年6月至2007年12月海洋表面洋流示意图,集成了带有数值模型的卫星数据。漩涡和窄洋流在海洋中传送热量和碳。海洋环流和气候评估项目提供了所有深度的洋流,但是这里仅仅使用了表层洋流。这些示意图用来测量海洋在全球碳循环中的作用,并监测地球系统的不同部分内部及之间的热量、水和化学交换。

⑵、生物信息学及其应用

在医学领域,2003年算是大数据涌现过程中的一个里程碑。在那一年,第一例人类基因组完成了测序。在那次突破性的进展之后,数以千计人类、灵长类、老鼠和细菌的基因组,扩充了人们所掌握的基因组数据。在每个基因组上有几十亿个“字母”;在计算时有出现纰漏的危险,因而催生了生物信息学。这一学科借助软件、硬件以及复杂算法之力支撑着新的科学类型。

①、神经、精神障碍的成因以及其间的关系

精神障碍通常是具体病例具体分析。但是,一项对150万名病人病例的研究表明,相当多的病人患有超过同一种疾病。芝加哥大学的西尔维奥·康特中

心,利用数据挖掘理解神经、精神障碍的成因以及其间的关系。“好几个(研究)团队都在致力于这个问题的解决。”中心主任安德烈·柴斯基(Andrey Rzhetsky)说,“我们正试图把它们全部纳入模型,统一分析那些数据类型……寻找可能的环境因素。”

②、抗癌药品测试与开发

另一例生物信息学的应用,来自美国国家癌症研究所。该所的苏珊·霍尔贝克(Susan Holbeck),在60种细胞系上测试了5000对美国食品和药品管理局批准的抗癌药品。经过30万次试验之后,霍尔贝克说:“我们知道每种细胞系里面每一条基因的RNA表达水平。我们掌握了序列数据、蛋白质数据,以及微观RNA表达的数据。我们可以取用所有这些数据进行数据挖掘,看一看为什么一种细胞系对混合药剂有良好的反应,而另一种却没有。我们可以抽取一对观察结果,开发出合适的靶向药品,并在临床测试。”

3、政治领域的大数据挖掘

当医学家忙于应对癌症、细菌和病毒之时,互联网上的政治言论已呈燎原之势。在整个推特圈上每天都要出现超过5亿条推文;其政治影响力将与日俱增。它使廉洁政府团体面临着数据挖掘技术带来的巨大挑战。

(原文献事例:略)

4、人们头脑里的大数据

⑴、人类连接组及充满数据的“组”

人脑是终极的计算机器,也是终极的大数据困境。因为,在独立的神经元之间有无数可能的连接。人类连接组项目是一项雄心勃勃的试图绘制出不同脑区之间相互作用的计划。

除了连接组,还有很多充满数据的“组”:

基因组:由DNA编码的或者由RNA编码的(比如病毒)全部基因信息。

转录组:由一个有机体的DNA产生的全套RNA“读数”。

蛋白质组:所有可以用基因表达的蛋白质。

代谢组:在一个有机体新陈代谢过程中的所有小分子,包括中间产物和最终产物。

⑵、人类连接组项目的目标和实现

连接组项目的目标,是“从1200位神经健康的人身上,收集先进的神经影像数据以及认知、行为和人口数据”,圣路易斯市华盛顿大学的连接组项目办事处的信息学主任丹尼尔·马库斯(Daniel Marcus)说。

该项目使用三种核磁共振造影来观察脑的结构、功能和连接。根据马库斯的预期,在两年之后数据收集工作完成之时,连接组研究人员将埋头于大约100万GB数据。

相关文档
最新文档