大数据技术研究综述_刘智慧

合集下载

大数据时代下的智能数据分析技术综述

大数据时代下的智能数据分析技术综述

大数据时代下的智能数据分析技术综述作者:周洪海来源:《科学与信息化》2019年第32期摘要最近这些年来,伴随着中国云计算技术和互联网技术的快速腾飞,网络中数据的增长速度呈指数型增长,每天出现的数据量甚是多。

中国已经进入大数据时代。

在大数据时代,我们应该对数据背后的价值进行充分挖掘,增强对数据分析的能力。

在大数据社会,之前的数据库无法再有效地处理数据,因此需要更高级的数据处理方法。

本文重点介绍了在大数据时代对数据进行分析的方式以及大数据分析技术的具体应用。

关键词大数据;智能数据;分析引言在现在的国家发展形势下,互联网技术得到了前所未有的发展,人工智能现在正在影响着人们的生活和工作。

随着技术的飞速发展,我们不得不与数据进行交流和沟通,数据通常来自:社交软件,在线交易,网络设备,它们以微妙的方式影响着我们的一举一动。

然而,在农业中,大数据和人工智能主要用于识别和判断昆虫,因此部署在目标区域中的传感器可以捕获昆虫翅膀的振动频率,将其上传到云中,并使其通过翅膀振动,然后大数据和人工智能可以自动确定这种昆虫的种类并确定其是否为害虫,这可以为特定区域的农作物害虫防治提供相关措施。

系统智能完成后,它可以自动派遣无人机进行农药喷洒。

1 大数据的分析方式和分析技术1.1 大数据的分析方式在大数据时代,数据分析的最重要特征之一就是多源和异构。

数据分析的过程不是一个具体而直观的概念。

抽象性和降维性是它最显著的特点,并且具有很强的概括性。

从数据收集源的角度来看,大数据分析的数据对象可以分为以下几类。

第一种类型是基于Web用户的访问和点击次数,生成的Internet數据、网站的更改以及用于数据监视的搜索关键字的数量。

第二种类型是基于用户的行为和操作系统以及对系统操作日志数据状态的监视。

第三类是由通信字段生成的数据、信令数据、用户的个人信息以及通话时间。

第四类是国民经济不同部门之间的统计数据。

1.2 大数据的分析技术为了从大量信息中筛选出最有价值的信息,一定要有先进的分析技术。

智能系统中的超大规模数据处理技术研究

智能系统中的超大规模数据处理技术研究

智能系统中的超大规模数据处理技术研究随着人工智能和大数据技术的飞速发展,智能系统已经成为促进社会和经济发展的主要力量之一。

然而,随着数据规模的增大和数据处理的复杂性的增加,智能系统中的数据处理技术面临着巨大的挑战。

如何开发更加高效和有效的超大规模数据处理技术,已成为智能系统领域的一个重要研究方向。

一、超大规模数据的挑战和特点随着移动互联网和物联网技术的普及,人们在日常生活中所产生的数据量越来越大。

例如,社交网络、搜索引擎、视频分享、物联网设备等各种设备和系统都在产生海量的数据。

这些数据不仅包含着人类所有的经验和知识,而且这些数据还会不断地增长。

因此,超大规模数据的处理成为了智能系统领域的一大挑战。

超大规模数据处理的最大难点在于如何有效地处理和分析这些数据。

由于海量数据的高维性和复杂性,传统的数据处理技术很难直接处理如此多的数据。

因此,大量数据处理需要使用分布式计算系统来处理。

分布式计算系统通过多个计算节点的协作来解决超大规模数据计算量大、时间复杂度高等各种问题,提供了一种高效稳定的处理海量数据的方法。

二、超大规模数据处理技术的应用超大规模数据处理技术主要被应用在以下三个方面:1. 机器学习和深度学习超大规模数据处理技术在机器学习和深度学习领域中具有非常广泛的应用。

机器学习和深度学习需要大量的数据作为输入,来训练模型或者进行分类、预测等相关任务。

超大规模数据处理技术可以加速这些任务的处理,提高算法的准确性和效率。

2. 大数据分析在大数据分析领域中,超大规模数据处理技术具有非常优秀的优势。

海量数据的分析可以帮助企业了解消费者的行为、购买习惯以及产品销售等情况,帮助企业优化营销策略和提高效率等方面。

3. 智能系统超大规模数据处理技术在智能系统中,能够帮助系统获取大量的数据并快速分析处理,从而帮助系统更好地理解和预测用户需求,提高个性化推荐效率等方面。

三、超大规模数据处理技术的发展趋势超大规模数据处理技术的发展趋势有以下几个方面:1. 人工智能技术普及将加快对超大规模数据处理的需求。

大数据技术研究综述_刘智慧

大数据技术研究综述_刘智慧

第48卷第6期2014年6月浙 江 大 学 学 报(工学版)Journal of Zhejiang University(Engineering Science)Vol.48No.6Jun.2014收稿日期:2013-07-25.浙江大学学报(工学版)网址:www.journals.zju.edu.cn/eng 基金项目:国家“十二五”科技支撑计划资助项目(2012BAF10B04).作者简介:刘智慧(1989—),女,硕士生,从事大数据处理技术方面的研究.E-mail:zhihui891126@163.com通信联系人:张泉灵,男,副研究员.E-mail:qlzhang@iipc.zju.edu.cnDOI:10.3785/j.issn.1008-973X.2014.06.001大数据技术研究综述刘智慧,张泉灵(浙江大学智能系统与控制研究所,浙江杭州310027)摘 要:大数据的产生给海量信息处理技术带来新的挑战.为了更全面深入地了解大数据的内涵,从大数据的概念特征、一般处理流程、关键技术三个方面进行详细阐述.分析了大数据的产生背景,简述了大数据的基本概念、典型的4“V”特征以及重点应用领域;归纳总结了大数据处理的一般流程,针对其中的关键技术,如MapReduce、GFS、BigTable、Hadoop以及数据可视化等,介绍了基本的处理过程和组织结构;具体分析指出了大数据时代所面临的问题与挑战.关键词:大数据;数据处理技术;数据分析;云计算中图分类号:TP 391;TP 311 文献标志码:A 文章编号:1008-973X(2014)06-0957-16Research overview of big data technologyLIU Zhi-hui,ZHANG Quan-ling(Institute of Cyber-systems and Control,Zhejiang University,Hangzhou310027,China)Abstract:The emergence of“big data”has brought new challenges to mass information processingtechnology.This comprehensive overview was intended to elaborate on big data from three aspects:theconcept and characteristics,general data processing framework and key techniques.The background of bigdata was explained,and the basic concepts,typical 4“V”characteristics as well as related application fieldswere sketched.Then,the general procedures of big data processing were summarized,and fundamentalanalysis and description of the key techniques,such as MapReduce,GFS,BigTable,Hadoop and datavisualization,were given as well.Finally,the new issues and challenges in the Big Data Era were pointedout.Key words:big data;data processing technique;data analysis;cloud computing 随着移动互联网、物联网和云计算技术的迅速发展,开启了移动云时代的序幕,大数据(Big Data)也越来越吸引人们的视线.正如1982年世界预测大师、未来学家约翰·奈斯比特(John Naisbitt)在他的著作Megatrends:Ten new directions transfor-ming our live[1]一书中所提到的:“我们现在大量生产信息,正如过去我们大量生产汽车一样”、“人类正被信息淹没,却饥渴知识”,等等诸如此类的预言均在当下得到了充分的证实,这也恰恰说明,世界正处于一个信息爆炸的时代.Internet的出现缩短了人与人、人与世界之间的距离,整个世界连成一个“地球村”,人们通过网络无障碍交流、交换信息和协同工作.与此同时,借助Internet的高速发展、数据库技术的成熟和普及、高内存高性能的存储设备和存储介质的出现,人类在日常学习、生活、工作中产生的数据量正以指数形式增长,呈现“爆炸”状态.“大数据问题”(Big DataProblem)就是在这样的背景下产生的,成为科研学术界和相关产业界的热门话题,并作为信息技术领域的重要前沿课题之一,吸引着越来越多的科学家研究大数据带来的相关问题.著名未来学家阿尔文·托夫勒在《第三次浪潮》[2]一书中,将大数据热情赞颂为“第三次浪潮的华彩乐章”.著名期刊《Nature》[3]和《Science》[4]针对大数据分别出版了专刊“Big Data”和“Dealingwith Data”,从互联网技术、互联网经济学、超级计算、环境科学、生物医药等多个方面讨论了大数据处理面临的各种问题.2011年5月,全球知名咨询公司麦肯锡(Mckensey and Company)在美国拉斯维加斯举办了第11届EMC World年度大会,设定的主题为“云计算相遇大数据”,发布了“Big data:Thenext frontier for innovation,competition and pro-ductivity”[5]的报告,首次提出“大数据”的概念,并在报告中指出:“数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素,而人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来”.世界经济论坛(World EconomicForum)2012年发布的“Big data,big impact:Newpossibilities for international development”[6]报告,指出了大数据的发展为世界带来的新机遇;美国政府在2012年3月29日发布了“大数据研究发展倡议”(Big data research and development initia-tive)[7],正式启动“大数据发展计划”,拟投资2亿美元在大数据的研究上,以培养更多的大数据研发与应用人才;联合国在2012年5月公布了“Challengesand opportunities with big data”[8]白皮书,分析了大数据的处理流程以及可能面临的挑战;互联网数据中心(Internet Data Center,IDC)在2012年5月发布《中国互联网市场洞见:互联网大数据技术创新研究》[9]报告,报告中指出大数据将引领中国互联网行业新一轮技术浪潮.不仅如此,世界范围内对大数据的关注已从经济领域上升到了政治领域.美国总统科技顾问委员会在2010年就撰写了一份报告给当时的奥巴马总统,报告名为“Designing a digital future:Federallyfunded research and development in networkingand information technology”[10],报告中指出:数据正在以指数形式迅速增长,如何收集、管理和分析数据日渐成为网络信息研究的重点,联邦政府的每一个机构和部门都应该制定应对大数据的战略计划.同时,美国联邦政府建立统一的门户开放网站———Data.Gov,开放政府拥有的公共数据,鼓励民众对其进行自由开发,进一步推进政府数据开放;美国政府各部门也纷纷有所行动,美国国家科学基金委员会(NSF)、美国国家卫生研究院(NIH)、美国能源部(DOE)、美国国防部(DOD)、美国国防部高级研究计划局(DARPA)、美国地质勘探局(USGS)等6个部门联合推出了大数据计划,旨在提升从大量复杂数据中获取知识和洞见的能力[11].处于发展中国家前列的中国,大数据的应用处于起步阶段.在工信部发布的物联网“十二五”规划[12]中,把信息处理技术作为4项关键技术创新工程之一提出,其中包括了海量数据存储、数据挖掘、图像视频智能分析,这都是大数据的重要组成部分.而另外3项:信息感知技术、信息传输技术、信息安全技术,也与“大数据”密切相关.同时,为推动大数据在我国的发展,2012年8月,中国科学院启动了“面向感知中国的新一代信息技术研究”战略性先导科技专项,其任务之一就是研制用于大数据采集、存储、处理、分析和挖掘的未来数据系统;同时,中国计算机学会成立了大数据专家委员会(CCF Big DataTask Force,CCF BDTF);为探讨中国大数据的发展战略,中科院计算机研究所举办了以“网络数据科学与工程———一门新兴的交叉学科?”[13]为主题的会议,与国内外知名专家学者一起为中国大数据发展战略建言献计;2013年,科技部正式启动863项目“面向大数据的先进存储结构及关键技术”[14],启动5个大数据课题.由此可见,大数据的发展已经得到了世界范围内的广泛关注,发展趋势势不可挡.如何将巨大的原始数据进行有效地利用和分析,使之转变成可以被利用的知识和价值,解决日常生活和工作中的难题,成为国内外共同关注的重要课题,同时也是大数据最重要的研发意义所在.1 大数据的基本概念现在的社会是一个信息化、数字化的社会,互联网、物联网和云计算技术的迅猛发展,使得数据充斥着整个世界,与此同时,数据也成为一种新的自然资源[15],亟待人们对其加以合理、高效、充分的利用,使之能够给人们的生活工作带来更大的效益和价值.在这种背景下,数据的数量不仅以指数形式递增,而且数据的结构越来越趋于复杂化,这就赋予了859浙 江 大 学 学 报(工学版) 第48卷 “大数据”不同于以往普通“数据”更加深层的内涵.1.1 大数据的产生在科学研究(天文学、生物学、高能物理等)[16]、计算机仿真、互联网应用、电子商务等领域,数据量呈现快速增长的趋势.美国互联网数据中心(IDC)指出[17],互联网上的数据每年将增长50%以上,每2年便将翻一番,而目前世界上90%以上的数据是最近几年才产生的.数据并非单纯指人们在互联网上发布的信息,全世界的工业设备、汽车、电表上有着无数的数码传感器,随时测量和传递有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化等也产生了海量的数据信息.1)科学研究产生大数据.现在的科研工作比以往任何时候都依赖大量的数据信息交流处理,尤其是各大科研实验室之间研究信息的远程传输.比如类似希格斯玻粒子的发现就需要每年36个国家的150多个计算中心之间进行约26PB(26×1015 B)的数据交流.在过去的10年间,连接超过40个国家实验室、超级计算中心和科学仪器的能源科学网[18](Esnet)上的流量每年以72%的速度增长,2012年11月Esnet将升级为100Gbps.2)物联网的应用产生大数据.物联网[19-20](theInternet of things)是新一代信息技术的重要组成部分,解决了物与物、人与物、人与人之间的互联.本质而言,人与机器、机器与机器的交互,大都是为了实现人与人之间的信息交互而产生的.在这种信息交互的过程中,催生了从信息传送到信息感知再到面向分析处理的应用.人们接受日常生活中的各种信息,将这些信息传送到数据中心,利用数据中心的智能分析决策得出信息处理结果,再通过互联网等信息通信网络将这些数据信息传递到四面八方,而在互联网终端的设备利用传感网等设施接受信息并进行有用的信息提取,得到自己想要的数据结果.目前,物联网在智能工业、智能农业、智能交通、智能电网、节能建筑、安全监控等行业都有应用.巨大连接的网络使得网络上流通的数据大幅度增长,从而催生了大数据的出现.3)海量网络信息的产生催生大数据.移动互联时代,数以百亿计的机器、企业、个人随时随地都会获取和产生新的数据.互联网搜索的巨头Google现在能够处理的网页数量是在千亿以上,每月处理的数据超过400PB,并且呈继续高速增长的趋势;Youtube每天上传7万小时的视频;淘宝网在2010年就拥有3.7亿会员,在线商品8.8亿件,每天交易超过数千万笔,单日数据产生量超过50TB(50×1012 B),存储量40PB;2011年Internet World统计互联网用户近20亿,Facebook注册用户超过8.5亿,每天上传3亿张照片,每天生成300TB日志数据;新浪微博每天有数十亿的外部网页和API接口访问需求,每分钟都会发出数万条微博;百度目前数据总量接近1 000PB,存储网页数量接近1万亿,每天大约要处理60亿次搜索请求,几十PB数据;据IDC的研究结果,2011年创造的信息数量达到1 800EB(1 800×1018 B),每年产生的数字信息量还在以60%的速度增长,到2020年,全球每年产生的数据信息将达到35ZB((35×1021 B)[21]……所有的这些都是海量数据的呈现.随着社交网络的成熟、传统互联网到移动互联网的转变、移动宽带的迅速提升,除了个人电脑、智能手机、平板电脑等常见的客户终端之外,更多更先进的传感设备、智能设备,比如智能汽车、智能电视、工业设备和手持设备等都将接入网络,由此产生的数据量及其增长速度比以往任何时期都要多,互联网上的数据流量正在迅猛增长.1.2 大数据概念的提出1989年,Gartner Group的Howard Dresner首次提出“商业智能”(Business Intelligence)这一术语[22].商业智能通常被理解为企业中现有的数据转化为知识、帮助企业做出明智的业务经营决策的工具,主要目标是将企业所掌握的的信息转换成竞争优势,提高企业决策能力、决策效率、决策准确性.为了将数据转化为知识,需要利用数据仓库、联机分析处理(OLAP)工具和数据挖掘(Data Mining)等技术[23].随着互联网络的发展,企业收集到的数据越来越多、数据结构越来越复杂,一般的数据挖掘技术已经不能满足大型企业的需要,这就使得企业在收集数据之余,也开始有意识的寻求新的方法来解决大量数据无法存储和处理分析的问题.由此,IT界诞生了一个新的名词———“大数据”.对于“大数据”的概念目前来说并没有一个明确的定义.经过多个企业、机构和数据科学家对于大数据的理解阐述,虽然描述不一,但都存在一个普遍共识,即“大数据”的关键是在种类繁多、数量庞大的数据中,快速获取信息.维基百科中将大数据定义为:所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理,并整理成为帮助企业经营决策更积极目的的资讯.IDC将大数据定义为:为更经济地从高频率的、大容量的、不959第6期刘智慧,等:大数据技术研究综述同结构和类型的数据中获取价值而设计的新一代架构和技术.信息专家涂子沛在著作《大数据》中认为[24]:“大数据”之“大”,并不仅仅指“容量大”,更大的意义在于通过对海量数据的交换、整合和分析,发现新的知识,创造新的价值,带来“大知识”、“大科技”、“大利润”和“大发展”.从“数据”到“大数据”,不仅仅是数量上的差别,更是数据质量的提升.传统意义上的数据处理方式包括数据挖掘、数据仓库、联机分析处理(OLAP)等,而在“大数据时代”,数据已经不仅仅是需要分析处理的内容,更重要的是人们需要借助专用的思想和手段从大量看似杂乱、繁复的数据中,收集、整理和分析数据足迹,以支撑社会生活的预测、规划和商业领域的决策支持等.著名数据库专家、图灵奖的获得者Jim Gray博士总结出,在人类的科学研究史上,先后经历了实验(Empirical)、理论(Theoretical)和计算(Computational)3种范式,而在数据量不断增加和数据结构愈加复杂的今天,这3种范式已经不足以在新的研究领域得到更好地运用,所以JimGray博士[25]提出了科学的“第4种范式”(TheFouth Paradigm)这一新型的数据研究方式,即“数据探索”(Data Exporation),用以指导和更新领域的科学研究.4种科学范式的比较如表1所示.表1 4种科学范式Tab.1 Four science paradigms科学范式时间思想方法实验数千年前描述自然现象理论几百年前运用模型、总结一般规律计算几十年前模拟复杂现象数据探索现在通过设备采集数据或是模拟器仿真产生数据;通过软件实现过程仿真;将重要信息存储在电脑中;科学家通过数据库分析相关数据1.3 大数据的特征在日新月异的IT业界,各个企业对大数据都有着自己不同的解读.但大家都普遍认为,大数据有着4“V”特征,即Volume(容量大)、Variety(种类多)、Velocity(速度快)和最重要的Value(价值密度低)[26-30].Volume是指大数据巨大的数据量与数据完整性.十几年前,由于存储方式、科技手段和分析成本等的限制,使得当时许多数据都无法得到记录和保存.即使是可以保存的信号,也大多采用模拟信号保存,当其转变为数字信号的时候,由于信号的采样和转换,都不可避免存在数据的遗漏与丢失.那么现在,大数据的出现,使得信号得以以最原始的状态保存下来,数据量的大小已不是最重要的,数据的完整性才是最重要的.Variety意味着要在海量、种类繁多的数据间发现其内在关联.在互联网时代,各种设备连成一个整体,个人在这个整体中既是信息的收集者也是信息的传播者,加速了数据量的爆炸式增长和信息多样性.这就必然促使我们要在各种各样的数据中发现数据信息之间的相互关联,把看似无用的信息转变为有效的信息,从而做出正确的判断.Velocity可以理解为更快地满足实时性需求.目前,对于数据智能化和实时性的要求越来越高,比如开车时会查看智能导航仪查询最短路线,吃饭时会了解其他用户对这家餐厅的评价,见到可口的食物会拍照发微博等诸如此类的人与人、人与机器之间的信息交流互动,这些都不可避免带来数据交换.而数据交换的关键是降低延迟,以近乎实时的方式呈献给用户.大数据特征里最关键的一点,就是Value.Val-ue的意思是指大数据的价值密度低.大数据时代数据的价值就像沙子淘金,数据量越大,里面真正有价值的东西就越少.现在的任务就是将这些ZB、PB级的数据,利用云计算、智能化开源实现平台等技术,提取出有价值的信息,将信息转化为知识,发现规律,最终用知识促成正确的决策和行动.1.4 大数据的应用领域发展大数据产业将推动世界经济的发展方式由粗放型到集约型的转变,这对于提升企业综合竞争力和政府的管制能力具有深远意义的影响.将大量的原始数据汇集在一起,通过智能分析、数据挖掘等技术分析数据中潜在的规律,以预测以后事物的发展趋势,有助于人们做出正确的决策,从而提高各个领域的运行效率,取得更大的收益.1.4.1 商业 商业是大数据应用最广泛的领域.沃尔玛(Walmart)通过对消费者购物行为等这种非结构化数据进行分析,了解顾客购物习惯,公司从销售数据分析适合搭配在一起买的商品,创造了“啤酒与尿布”[31]的经典商业案例;淘宝服务于卖家的大数据平台———“淘宝数据魔方”[32]有一个“无量神针———倾听用户的痛”屏幕,监听着几百万淘宝买家的心跳,收集分析买家的购物行为,找出问题的先兆,避免“恶拍”(买家拍下产品但拒收)发生,淘宝还069浙 江 大 学 学 报(工学版) 第48卷 针对买家设置大数据平台,为买家量身打造完善网购体验的产品.1.4.2 金融 大数据在金融业也有着相当重要的作用[33].华尔街“德温特资本市场”公司分析全球3.4亿微博账户的留言,判断民众情绪,人们高兴的时候会买股票,而焦虑的时候会抛售股票,依此决定公司股票的买入或卖出,该公司2012年第一季度获得了7%的收益率.Equifax公司是美国三大征信所之一,其存储的财务数据覆盖了所有美国成年人,包括全球5亿个消费者和8 100万家企业.在它的数据库中与财务有关的记录包括贷款申请、租赁、房地产、购买零售商品、纳税申报、费用缴付、报纸与杂志订阅等,看似杂乱无章的共26PB数据,经过交叉分享和索引处理,能够得出消费者的个人信用评分,从而推断客户支付意向与支付能力,发现潜在的欺诈.1.4.3 医疗 随着大数据在医疗与生命科学研究过程中的广泛应用和不断扩展,产生的数据之大、种类之多令人难以置信.比如医院中做B超、PACS影像、病理分析等[34]业务产生了大量非结构化数据;2000年一幅CT存储量才10MB,现在的CT则含有320MB,甚至600MB的数据量,而一个基因组序列文件大小约为750MB,一个标准病理图的数据量则有接近5GB.如果将这些数据量乘以人口数量和平均寿命,仅一个社区医院就可以累积达数TB甚至PB级的结构化和非结构化数据.另外,为了实现医院之间对病患信息的共享,2010年我国公布的“十二五”规划中指出要重点建设国家级、省级和地市级三级卫生信息平台,建设电子档案和电子病历两个基础数据库等[35].随着国家逐渐加大对电子病历的投入,各级医院也将加大在数据中心、医疗信息仓库等领域的投入,医疗信息存储将越来越受重视,医疗信息中心的关注点也将由传统“计算”领域转移到“存储”领域上来.1.4.4 制造业 中国制造业的相关企业随着ERP、PLM等信息化系统的部署完成,管理方式由粗放式管理逐步转为精细化管理,新产品的研发速度和设计效率有了大幅提升,企业在实现对业务数据进行有效管理的同时,积累了大量的数据信息,产生了利用现代信息技术收集、管理和展示分析结构化和非结构化的数据和信息的诉求[36],企业需要信息化技术帮助决策者在储存的海量信息中挖掘出需要的信息,并且对这些信息进行分析,通过分析工具加快报表进程从而推动决策、规避风险[37],并且获取重要的信息,因此,越来越多的企业在原有的各种控制系统(DCS、FCS、CIPS等)和各种生产经营管理系统(MIS、MRPⅡ、CRM、ERP等)的基础上,管理重心从以前的以流程建设为主,转换为以流程建设和全生命周期数据架构建设并行的模式,在关注流程的质量和效率的同时,又关注全流程上数据的质量和效率,建立以产品为核心的覆盖产品全生命周期的数据结构,用企业级PLM系统来支撑这些数据结构,有效地提高了企业满足市场需求的响应速度,更加经济地从多样化的数据源中获得更大价值.2 大数据处理流程从大数据的特征和产生领域来看,大数据的来源相当广泛,由此产生的数据类型和应用处理方法千差万别.但是总的来说,大数据的基本处理流程大都是一致的.目前,中国人民大学网络与移动数据管理实验室(WAMDM)[38]开发了一个学术空间“ScholarSpace”,从计算机领域收集的相关文献可以总结出大数据处理的一般流程[39].在此基础上,作者认为大数据的处理流程基本可划分为数据采集、数据处理与集成、数据分析和数据解释4个阶段.整个大数据处理流程如图1所示,即经数据源获取的数据,因为其数据结构不同(包括结构、半结构和非结构数据),用特殊方法进行数据处理和集成,将其转变为统一标准的数据格式方便以后对其进行处理;然后用合适的数据分析方法将这些数据进行处理分析,并将分析的结果利用可视化等技术展现给用户,这就是整个大数据处理的流程.2.1 数据采集大数据的“大”,原本就意味着数量多、种类复杂,因此,通过各种方法获取数据信息便显得格外重要.数据采集是大数据处理流程中最基础的一步,目前常用的数据采集手段有传感器收取、射频识别(RFID)[40]、数据检索分类工具如百度和谷歌等搜索引擎,以及条形码技术等.并且由于移动设备的出现,如智能手机和平板电脑的迅速普及,使得大量移动软件被开发应用,社交网络逐渐庞大,这也加速了信息的流通速度和采集精度.2.2 数据处理与集成数据的处理与集成主要是完成对于已经采集到的数据进行适当的处理、清洗去噪以及进一步的集成存储.169第6期刘智慧,等:大数据技术研究综述图1 大数据处理基本流程Fig.1 Basic framework of big data processing 根据前文所述,大数据特点之一是“Variety”,也就是大数据的多样性.这就决定了经过各种渠道获取的数据种类和结构都非常复杂,给之后的数据分析处理带了极大的困难.通过数据处理与集成这一步骤,首先将这些结构复杂的数据转换为单一的或是便于处理的结构,为以后的数据分析打下良好的基础,因为这些数据里并不是所有的信息都是必需的,而是会掺杂很多噪音和干扰项,因此,还需对这些数据进行“去噪”和清洗,以保证数据的质量以及可靠性.常用的方法是在数据处理的过程中设计一些数据过滤器,通过聚类或关联分析的规则方法将无用或错误的离群数据挑出来过滤掉,防止其对最终数据结果产生不利影响;然后将这些整理好的数据进行集成和存储,这是很重要的一步,若是单纯随意的放置,则会对以后的数据取用造成影响,很容易导致数据访问性的问题,现在一般的解决方法是针对特定种类的数据建立专门的数据库,将这些不同种类的数据信息分门别类的放置,可以有效地减少数据查询和访问的时间,提高数据提取速度.2.3 数据分析数据分析是整个大数据处理流程里最核心的部分,因为在数据分析的过程中,会发现数据的价值所在.经过上一步骤数据的处理与集成后,所得的数据便成为数据分析的原始数据,根据所需数据的应用需求对数据进行进一步的处理和分析.传统的数据处理分析方法有数据挖掘、机器学习、智能算法、269浙 江 大 学 学 报(工学版) 第48卷 。

大数据驱动的图书馆精准服务研究

大数据驱动的图书馆精准服务研究
图 1 图书馆精准管理与服务需求分析
2 文献综述 目前对图书馆精准服务的探讨主要围绕精准服
务的基本问题、精准服务的相关技术、精准服务的模 式、精准服务的应用四个方面。 2.1 图书馆精准服务的基本问题
图书馆精准服务的基本问题包括图书馆精准服 务的概念、理论基础和实践意义等。当前关于精准 服务较有代表性的概念是牛勇提出的: “精准服务是 建立在当前图书馆一般性服务的基础上,以用户问 题为导向的图书馆服务模式,强调的是,从依据用户 共性需求配置资源到依据用户个性化需求配置资源 的转变[9]。”唐 斌 认 为 精 准 服 务 要 建 立 在 数 据 化 认 知建构的 基 础 上[10]。 章 春 艳 认 为 分 析 读 者 行 为 信 息数据、挖掘读者的潜在需求、为读者提供精准服务 是大数据 时 代 图 书 馆 迫 切 需 要 解 决 的 问 题[11]。 随 着场景时 代 的 到 来,张 乐 飞 提 出,如 何 通 过 移 动 设 备、社交媒体、大数据、传感器、定位系统来理解读者 是谁、正在做什么和接下来可能做什么等场景,精准 预测读者需求,从而提供精确的服务,成为新时代图 书馆的重要任务。图书馆需要构建新思维、设计新 指标和 找 准 新 途 径,以 提 供“智 慧 能 动”“高 效 速 动”“个性互动”的图书馆服务新生态[12]。
24图书馆精准服务应用研究当前图书馆精准服务的国内外应用案例较少国外康奈尔大学图书馆通过blackboard平台提供教学服务提供面向精准科研服务的读者个性化专题资料库和根据特定教学教授的要求提供精准咨询服务3副的实践经验国内的成都理工大学图书馆按照学科服务对象的不同精准细分不同的读者群从而开展精准服务3
54
2019 4
大数据驱动的图书馆精准服务研究 / 曹树金,刘慧云,王连喜

基于人工智能的大数据分析技术研究

基于人工智能的大数据分析技术研究

基于人工智能的大数据分析技术研究随着科技的快速发展,大数据分析技术已经成为各行各业不可或缺的重要工具。

而近年来人工智能的兴起更是给大数据分析带来了新的机遇和挑战。

本文将探讨基于人工智能的大数据分析技术的研究现状和未来趋势。

一、人工智能在大数据分析中的应用人工智能在大数据分析中的应用已经非常广泛,包括但不限于以下几个方面:1. 自然语言处理(NLP):人工智能的自然语言处理技术可以帮助实现对大数据中文本信息的快速分析和处理。

通过NLP,可以对海量的文本数据进行语义分析、情感分析、主题提取等,从而挖掘出潜在的信息和洞察。

2. 机器学习:机器学习是人工智能的核心技术之一,它可以通过对大数据进行学习和训练,从中发现隐藏的模式和关联规则。

通过机器学习,可以构建预测模型、分类模型和聚类模型,帮助企业做出更准确的决策。

3. 深度学习:深度学习是机器学习的一个分支,通过神经网络的层次化结构,可以对大数据进行更深层次的学习和理解。

深度学习在图像识别、语音识别和自然语言处理等领域有着广泛的应用。

4. 数据挖掘:人工智能可以通过数据挖掘技术从大数据中挖掘出有用的信息和知识。

通过数据挖掘,可以发现规律、发现异常、预测趋势等,帮助企业提高营销效果、降低风险和优化运营。

二、基于人工智能的大数据分析技术的挑战虽然人工智能为大数据分析带来了很多机会,但在实际应用中也面临一些挑战:1. 数据质量:大数据分析的基础是高质量的数据,然而真实世界中的数据往往存在着噪声、缺失值和离群点等问题。

人工智能在面对这些问题时往往会出现一些不确定性和误差。

因此,如何保证数据的质量对于人工智能的大数据分析技术来说是一个重要的挑战。

2. 算法复杂性:大数据往往包含海量的样本和特征,给算法设计带来了巨大的复杂性。

传统的机器学习算法在处理大数据时往往效率低下,而基于人工智能的复杂算法需要更高的计算能力和存储资源。

如何在面对海量数据时选择合适的算法并提高计算效率是一个亟待解决的问题。

2024年面向大数据的人工智能技术综述报告

2024年面向大数据的人工智能技术综述报告

2024年,人工智能(AI)和大数据技术得到了迅猛发展,面向大数据的AI技术也在不断地完善和发展。

一、大数据中的机器学习(Machine Learning)
机器学习是大数据中使用最广泛的AI技术之一、机器学习能够在大数据中发现有趣的趋势和规律,并利用这些趋势和规律来做出智能决策。

机器学习技术本质上是通过使用数据集训练算法,然后利用这些算法来预测新的数据集。

在2024年,有许多新的机器学习技术被开发出来,如深度学习(Deep Learning)、自然语言处理(NLP)和图像识别(Image Recognition)等。

深度学习可以利用大量深层神经网络自动学习复杂函数,而NLP则是利用传统机器学习方法和语言模型技术来处理自然语言,图像识别则是利用深度学习和计算机视觉技术来处理图像。

二、大数据中的规则引擎(Rule Engine)
规则引擎是一种利用规则对大数据进行解释和分析的AI技术。

规则引擎将预定义的规则用于解释和分析大数据,从而产生出更有效的决策。

2024年,规则引擎技术也发展得很快,许多新的规则引擎技术被提出,如K规则(K-Rules)、模糊规则(Fuzzy Rules)和基于证据的规则(Evidence-based Rules)等。

这些新的规则引擎技术可以为大数据分析带来更好的结果和更快的速度。

面向初中智慧教育的大数据教学分析

面向初中智慧教育的大数据教学分析

总第356期2021年2月教育信息化与智能化面向初中智慧教育的大数据教学分析程 彬 余 泉摘 要:初中是基础教育的转折阶段和学生成长的关键时期。

在“互联网+”时代背景下,基于智慧教育的建设要求,分析初中教育的教学特点,剖析大数据的技术内涵,研究大数据技术与初中教学分析深度融合的实现途径,以提升初中教学分析的科学性、全面性和准确性。

关键词:智慧教育;大数据技术;初中教育;教学分析作者简介:程彬,本科,高级教师。

湖北省广水市实验初级中学,432700余泉,硕士,编辑。

武汉大学,430072随着“互联网+”的深入,大数据、人工智能等被列入国家重大战略。

在新型信息技术的推动下,教育信息化被赋予了新的内容:智慧教育。

智慧教育是教育信息化的新阶段,即教育信息化2.0阶段。

其本质是将大数据、人工智能等新型信息技术与教育教学活动紧密结合,使教育具备智慧化特征。

2018年,为推进智慧教育的发展,教育部印发了《教育信息化2.0行动计划》,在政策层面做了顶层规划[1]。

在智慧教育的发展驱动下,“互联网+”背景下的信息技术已开始应用在教学、管理、评价、科研、服务等各类教育活动中,覆盖小学、中学、大学等各个教育阶段,逐步构建出物联化、智能化、感知化、泛在化的教育信息生态系统[2]。

基于上述背景,本文重点关注初中教育阶段,智慧教育中的大数据在教学分析中所发挥的作用。

一、初中教育的特点分析初中教育是基础教育中的决定性阶段。

教育工作者中流传着一句话:“小学是脚,高中是头,初中是腰。

”初中教育是基础教育承上启下的转折阶段,其教学定位、学生特质与小学阶段有着根本性的差异,是学生成长的关键时期。

1.初中教育的教学定位初中阶段,学生首次全方位接触各类学科,进入科学知识体系,是真正意义上科学的开端。

相对而言,小学阶段,学生年龄较小,教学开设科目少,涉及知识面相对较窄,学习主要以启蒙为主[3];而高中阶段,学习内容则是初中教育的全面深化,并根据学生爱好,有一定倾向性地划分理工、文史两类学习方向。

智能制造中的大数据分析技术研究综述

智能制造中的大数据分析技术研究综述

智能制造中的大数据分析技术研究综述在当前信息化浪潮的推动下,智能制造作为制造业的重要发展方向,得到了广泛的关注和研究。

而大数据分析技术作为智能制造的重要支撑,起着至关重要的作用。

本文旨在对智能制造中的大数据分析技术进行全面深入的综述,包括其概念、应用领域、关键方法等方面的研究现状和发展趋势。

一、智能制造中大数据分析技术的概念智能制造中的大数据分析技术是指通过对海量的数据进行收集、存储、处理和挖掘,运用统计学、机器学习、数据挖掘等技术手段,探索数据背后的规律和模式,从而支持制造过程的优化、决策的精准化和创新的驱动力。

二、智能制造中大数据分析技术的应用领域智能制造中的大数据分析技术广泛应用于以下领域:1. 生产数据分析:通过对生产过程中的各种数据进行采集和分析,实现生产过程的优化和效率的提升。

2. 质量数据分析:通过对产品质量相关的数据进行分析,及时发现问题和隐患,提高产品质量控制的能力。

3. 故障预测与维修优化:通过对设备运行数据进行分析,实现故障的提前预测和准确诊断,从而优化设备维修计划,提高生产设备的稳定性和可靠性。

4. 供应链数据分析:通过对供应链中的各种数据进行分析,实现供应链的优化和管理。

5. 智能决策支持:通过对多源异构数据的融合和分析,提供决策者有效的决策支持,降低决策风险。

三、智能制造中大数据分析技术的关键方法智能制造中的大数据分析技术主要包括以下关键方法:1. 数据采集与存储:通过传感器、RFID等技术手段对制造过程中的数据进行实时采集,并利用云计算等技术手段进行存储和管理。

2. 数据预处理:对采集到的原始数据进行去噪、归一化、去重等预处理操作,为后续的分析建模做好准备。

3. 数据挖掘与分析:运用统计学、机器学习等方法对数据进行挖掘和分析,包括聚类、分类、关联规则挖掘等。

4. 数据可视化:通过图表、仪表盘等方式将分析结果可视化展示,提供给决策者直观的信息和洞察力。

四、智能制造中大数据分析技术的研究现状当前,智能制造中的大数据分析技术研究已经取得了不少进展。

大数据下的智能数据分析技术研究

大数据下的智能数据分析技术研究

大数据下的智能数据分析技术研究摘要:在当前大数据背景下,通过科学合理应用智能数据分析技术,能够对数据进行高效收集、分析、处理,可以最大化挖掘出智能数据的潜在价值。

如何对现有的海量数据进行有效的存储、处理、分析、计算,已经成为当前智能数据分析技术的应用要点。

本文对大数据下的智能数据分析技术进行研究分析。

关键字:大数据;智能数据分析技术引言:通过科学合理的应用智能数据分析技术,能够对海量的数据进行高效处理、收集、分析、归类,可以有效地对问题进行针对性的分析,通过挖掘智能数据中存在的潜在价值,可以对未来的发展趋势进行科学合理的预测、评估。

因此,在当前大数据时代背景下智能数据分析技术已经成为重点研究内容。

一、传统智能数据分析方法概述(一)决策树决策树是对概率的一种运算方式,其可以针对各种事件可能发生的频次构建决策树,进而通过求取净现值的期望值大于等于零的状况,从而对某项事件可能产生的风险进行评估分析。

利用决策树对项目是否具备可行性进行分析,可以提供更加直观、正向的决策分析方法,同时也能够向其提供清晰明确的图解方法。

由于决策树是以信息论为基础,其主要是对数据进行分类、处理,在此过程中需要优先建立该项目的决策树,并对所有涉及的可能发生的数据及概率进行预测,通过在决策树上进行规则生成,从而利用最直观的方式对可能出现的结果进行清晰分析,其具备较高的效率以及较高的精确度。

通常情况下,决策树分为分类及回归树两种类型。

针对分类树,其主要是指对某项事件产生的数据进行记录、标记以及归类的方式;针对回归树,其主要是对当前事件的变量以及目标数值进行预估、评价。

(二)关联规则关联规则主要是针对该项目的大数据项集中包含重要价值的关联建立关系,通过建立 X和Y的蕴含式,可以表达出X与Y之间存在的关联特性或者其具备的先导性、后继性,通过关联规则能够对数据中产生的记录集合进行挖掘、组成,从而构建出海量的数据库。

因此,通过关联规则可以对当前的探索空间进行不断探索分析。

基于人工智能的大数据采集技术研究

基于人工智能的大数据采集技术研究

基于人工智能的大数据采集技术研究随着科技的迅猛发展,人工智能技术的广泛应用改变了我们的生活方式,其中基于人工智能的大数据采集技术应用越来越广泛。

本文将探讨基于人工智能的大数据采集技术的研究现状、发展趋势及其应用。

一、研究现状大数据采集技术涉及到数据的获取、存储、处理、分析等方面,其中数据获取是技术的核心和基础。

传统的数据获取方式依赖于人工处理,效率较低,不适合大规模数据采集和分析。

而基于人工智能的大数据采集技术可以自动抓取信息并进行分析,从而提高效率和准确性。

目前,大数据采集技术主要采用自然语言处理、图像识别以及模式识别等技术进行文本和图像数据的智能化分析和挖掘。

同时,随着深度学习和神经网络技术的不断发展,机器学习的应用也得到了很大的提升。

二、发展趋势未来,基于人工智能的大数据采集技术将会迎来更广泛的应用。

人工智能技术可以帮助企业和组织从庞大的数据中识别出有价值的信息,帮助经理和分析师更好地做出决策。

另外,智能化的机器人和无人机将能够在不同环境下进行信息的采集和分析。

通过整合传感器、摄像头和导航系统等设备,这些机器人能够在恶劣的环境中操作并采集数据,同时还可以通过人工智能技术进行数据分析。

三、应用场景基于人工智能的大数据采集技术应用于各个领域。

其中,金融领域、医疗领域和电子商务领域是应用最为广泛的几个领域。

在金融领域,人工智能技术可以通过数据分析和挖掘预测股票价格的走势,帮助投资者进行决策。

在医疗领域,数据分析和挖掘可以协助医生进行疾病预测和治疗方案制定。

在电子商务领域,人工智能技术可以对用户的购物行为进行分析和挖掘,进一步提高用户的购物体验和销售额。

除此之外,基于人工智能的大数据采集技术还可以应用于智能交通、智慧城市、农业等诸多领域。

四、挑战与问题尽管基于人工智能的大数据采集技术应用广泛,但是在应用过程中还存在着一些问题和挑战。

首先,由于人工智能技术的先进性和复杂性,技术的开发困难度较高。

其次,不安全因素仍是人工智能技术在大数据处理中的一大问题,随着数据安全性问题的增加,人工智能技术的使用可能受到限制。

智慧农业大数据分析技术的研究与应用

智慧农业大数据分析技术的研究与应用

智慧农业大数据分析技术的研究与应用智慧农业是指借助现代信息技术和通信技术,以大数据分析为核心,实现农业生产全过程的数字化、信息化管理,提高农业生产效率,保障农产品质量与安全的一种现代化农业生产方式。

在智慧农业的发展过程中,大数据分析技术扮演着至关重要的角色。

本文将对智慧农业大数据分析技术进行研究与应用进行深入探讨。

首先,大数据分析技术在智慧农业中的应用可凝聚在多个方面。

大数据技术可以对农业生产的各个环节进行监测和预测,包括土壤管理、气象变化、作物生长情况等。

通过传感器、遥感技术等手段采集大量农业生产数据,结合数据挖掘、机器学习等技术,实现对数据的分析和挖掘,为农业生产提供决策支持。

例如,通过对作物生长环境的数据分析,可以为农民提供作物生长的最佳管理方案,提高农作物产量和品质。

其次,大数据分析技术在智慧农业中还可以用于提升农业生产的精准化管理水平。

通过分析农业生产过程中的各种数据,可以实现对种植、施肥、灌溉、病虫害防治等过程的精准化管理。

例如,在种植过程中,通过对土壤质量、水分含量、养分含量等数据进行分析,可以及时调整种植密度、施肥量等参数,为作物生长提供更为合理的环境。

另外,大数据分析技术在智慧农业中还可以用于促进农产品的溯源和质量安全管理。

通过对农产品生产流程的数据进行采集和分析,可以实现对农产品的全程追溯,并及时发现潜在的安全隐患。

例如,在农产品生产过程中,通过扫描产品上的二维码,消费者可以了解产品的生产地点、生产时间、生产环境等信息,从而增加对产品的信任度。

最后,大数据分析技术在智慧农业中还可以用于农业生产的智能化管理。

通过对数据的分析和挖掘,结合人工智能、物联网等技术,可以实现对农业生产过程的自动化和智能化管理。

例如,可以利用传感器监测土壤湿度、作物生长情况等数据,通过人工智能算法实现自动灌溉、自动施肥等操作,提高农业生产的效率和质量。

综上所述,大数据分析技术在智慧农业中具有广泛的应用前景和重要的意义。

浅谈计算机文献检索的方法及应用_刘智慧

浅谈计算机文献检索的方法及应用_刘智慧
52有利于文后的参考文献进行标准化和规范化文后参考文献的著录是论文不可缺少的一部分其标引方式著录项及编排规则都有专门标准对于存在著录缺项或著录不规范的参考文献一般的网络数据库对所收录的论文文献类型发表时间作者及其单位出版物名称及其年卷期页码出版地出版社intelligence科技天地45visualfoxpro的扩展功能西安外事学院计算机中心周媛一visualfoxpro的com特性从fox进入可视化的时代后对com技术的支持一直是visualfoxpro在过去现在将来不断改进的地方
参考文献: [1] 孙淑霞:《Visual FoxPro6.0 程序设计教程》. 北京 : 电子工业出版 社 , 2007. [2] 张洪举:《Visual FoxPro 权 威指南》. 张洪举 . 北京 : 电子工业出 版社 , 2007 [3] 范荣:《Visual FoxPro 8.0 数据库开发教程》. 北京 : 清华大学出 版社 , 2004
44
④数据库的基本索引和辅助索引, 以及提供的检索途径和检索标识的特 点;
⑤数据库的检索费用。 2.3 根据文献线索确定检索标识 弄清信息需求,了解了检索课题的 主要内容后,确定其概念单元和检索标 识。检索标识的表示应符合两方面的要 求:(1)切题性;(2)匹配性。 2.4 拟定检索提问式,确定具体的 查找程序。 2.5 检索效果评估 这是对检索过程的初步总结。如果 有误,应重新检索,以求最佳效果。 3、计算机文献检索的策略研究 检索策略是在分析课题内容的基 础上,确定检索系统、检索文档、检索 途径和检索词,并科学安排各检索词之 间的位置关系和逻辑关系以及查找步骤 等。检索策略考虑得是否周全,直接影 响文献的查全率和查准率。 3.1 检索的策略和技巧 在检索时应注意以下几个方面: (1)使用特定的词汇和专业术语; (2)使用布尔逻辑和括号; (3)使用双引号进行精确检索; (4)使用加减号限定检索; (5)尽量使用高级选项; (6)细化查询; 3.2 调整检索策略 在计算机文献检索中,常常会出现 文献资料过多或过少的情况,此时检索 人员应与用户进行分析,及时调整检索 策略,通过增加检索项和运用布尔逻辑 的组配,增加或缩小检索范围等,以达 到增加或减少命中文献的目的。 4、计算机文献检索的效率研究 4.1 计算机文献的检索效率 检索效率就是利用检索工具进行 检索时产生的有效结果,它直接反映检 索系统的性能。在信息检索中最理想的

智能大数据分析技术的研究与应用

智能大数据分析技术的研究与应用

智能大数据分析技术的研究与应用随着互联网和信息技术的飞速发展,数据量和种类急剧增多,数据分析已经成为企业和政府决策不可或缺的部分。

而智能大数据分析技术的应用,更是在企业和政府决策层中发挥着巨大的作用。

智能大数据分析技术是通过算法、模型及人工智能等多种技术手段,将庞杂复杂的数据整理出有用的信息和规律,从而用于管理决策和市场预测等方面。

其研究及应用的发展,对于企业管理和政府决策至关重要。

一、智能探索——数据挖掘技术数据挖掘技术可以通过计算机自动分析历史数据,发掘数据的潜在价值,并预测未来趋势和行为模式。

数据挖掘技术可以将庞杂的信息快速上升到机器处理层面,提高信息挖掘的速度和准确性。

现如今,基于数据挖掘的智能大数据分析技术在各个领域中都有广泛的应用。

例如,在电商行业中,智能推荐算法就是一种典型的基于数据挖掘技术的应用。

在人工智能的影响下,数据挖掘技术的应用效果也在不断提升。

自然语言处理技术可将人类语言和计算机语言进行快速转换,使得计算机可以自动处理人们的语音和文字信息。

而图像识别技术也可以通过自动识别图片中的内容和特征,为企业管理和决策层提供更加全面和准确的信息支持。

二、数据分析——数据信息的提取和加工数据分析技术即是通过对数据的提取分析和加工修改,使得企业管理决策更加科学化和系统化。

数据分析技术可以让企业迅速发现问题原因,并采取相应对策。

而对于政府决策层,则可以通过数据分析技术更加深入了解社会发展和市场趋势。

同时,数据分析技术也为企业制定科学化方案提供了更多的帮助。

例如,智能大数据分析技术可以帮助企业快速掌握市场竞争现状,并结合各种因素,得出更有利于市场竞争的方案。

数据分析技术的应用也可以解决企业在生产、管理和经营等方面出现的问题,提高企业的效益和竞争力。

三、数据预测——模型预测和智能化选择数据预测技术是智能大数据分析技术中的另一个重要环节。

它基于历史数据和现有信息,根据规律性而预测未来的趋势和发展方向。

大数据在农业中的应用(上传版)

大数据在农业中的应用(上传版)

大数据在农业中的应用摘要:结合大数据系统的一般结构,介绍和对比了当前大数据领域在文件存储、数据处理和数据库领域的关键技术。

分析了大数据的产生背景,简述了大数据的基木概念、典型的4“V”特征以及重点应用领域.通过各种技术的对比,得到了一些分析结果。

农业数据具有容量大、关联性强、复杂多变等特点。

大数据技术能从庞大的数据集合中寻找有价值的数据和知识。

推动大数据技术在农业领域的实践和应用,对把握农业信息内在联系和规律意义重大。

关键词:大数据;数据分析;关键技术;农业;应用随着移动互联网、物联网和云计算技术的迅速发展,开启了移动云时代的序幕,大数据(Big Data)也越来越吸引人们的视线。

人们通过网络无障碍交流、交换信息和协同工作,互联网的出现缩短了人与人、人与世界之间的距离,整个世界连成一个“地球村”。

与此同时,借助互联网的高速发展、高内存高性能的存储设备和存储介质的出现、数据库技术的成熟和普及,人类在日常学习、生活、工作中产生的数据量正以指数形式增长,呈现“爆炸”状态[1]。

“大数据问题”(Big Data Problem)就是在这样的背景下产生的,成为科研学术界和相关产业界的热门话题,吸引着越来越多的科学家研究大数据带来的相关问题。

大数据的“大”不仅仅体现在数据的海量性,还在于其数据类型的复杂性。

随着报表、账单、影像、办公文档等在商业公司中得到普遍使用,互联网上视频、音乐、网络游戏不断发展,越来越多的非结构化数据进一步推动数字宇宙爆炸。

数据海量而复杂,这是对大数据的诠释。

与传统的数据相比,大数据具有规模性(Volume)、多样性(Variety)、高速性(Velocity)和低价值密度(Value)的4V特点[2]。

规模性和高速性是数据处理一直以来研究和探讨的问题,多样性和价值密度低是当前数据处理发展中不断显现出来的问题,而且在可以预见的未来,随着智慧城市、智慧地球等各种新设想的不断成为现实,上面的4种问题将会变得更加凸显,而且是不得不面对的问题。

用大数据思维方式促进舞蹈专业发展的相关文献

用大数据思维方式促进舞蹈专业发展的相关文献

一、概述大数据思维作为一种全新的思考方式,近年来逐渐在各行各业得到广泛应用,为其发展和创新注入了新的活力。

舞蹈艺术作为一门古老而又充满活力的艺术形式,如何应用大数据思维来促进其专业发展,成为了学术界和艺术界关注的焦点之一。

本文将通过对相关文献的综述和分析,探讨如何运用大数据思维来推动舞蹈专业的发展。

二、大数据思维在舞蹈艺术中的应用1. 数据采集与分析大数据思维在舞蹈专业中的首要应用是数据的采集和分析。

通过对舞蹈表演、观众反馈、舞蹈教学等方面的数据进行采集和分析,可以更好地了解舞蹈艺术的受众裙体、受欢迎程度、表演效果等方面的情况,为舞蹈专业的发展提供数据支持。

2. 舞蹈教育与培训大数据思维也可以在舞蹈教育和培训中发挥作用。

通过对学生学习情况、兴趣爱好等方面的数据进行分析,可以更好地制定教学计划和培训方案,提高教学效果,培养更多优秀的舞蹈人才。

3. 舞蹈创作与表演在舞蹈创作与表演方面,大数据思维可以帮助舞蹈艺术家更好地了解观众的喜好和需求,从而创作出更具吸引力和感染力的舞蹈作品。

大数据分析也可以帮助舞蹈演出团体更好地制定巡回演出计划和营销策略,提高演出效益。

4. 舞蹈产业发展大数据思维还可以在舞蹈产业的发展中发挥重要作用。

通过对舞蹈市场、文化消费趋势、投资状况等方面的数据进行分析,可以帮助相关部门和企业制定产业发展规划,推动舞蹈产业的健康发展。

三、大数据思维促进舞蹈专业发展的挑战和机遇1. 挑战尽管大数据思维在促进舞蹈专业发展方面具有巨大潜力,但在实际应用过程中也面临诸多挑战。

数据采集与管理、数据安全与隐私保护、数据分析与应用等方面都需要解决相关问题,确保数据的科学性和可靠性。

2. 机遇与挑战相对应的是大数据思维为舞蹈专业发展带来的机遇。

通过大数据分析,可以更加准确地了解市场需求和观众喜好,为舞蹈专业的艺术创作、教育培训、演出表演等方面提供更科学的支持,提高专业发展的效率和水平。

四、国内外相关研究成果1. 国外相关研究在欧美等发达国家,大数据思维在舞蹈领域的应用相对较早,相关研究和实践成果丰富。

探讨大数据下的智能数据分析技术研究

探讨大数据下的智能数据分析技术研究

探讨大数据下的智能数据分析技术研究摘要:通过大数据技术,我们可以实现互联网的实时更新,并对有效的信息进行整合和分析。

这样,不同行业的人们就可以逐渐接触到这些技术,并将智能数据分析技术与互联网技术结合起来。

数据收集和分析的整合已经彻底改变了传统行业的发展模式,从单一的数据统计转变为多维度、多样化的结构化数据模型,使得信息化资源的基础内容和智能数据分析技术得以有效结合,从而使数据挖掘和分析更加深入,更加贴近实际应用。

通过运用大数据分析技术,本文探讨了智能数据分析技术的实际应用,并提出了一些构建该体系的原则。

关键词:大数据;智能数据;分析;体系当今,伴随着网络、WEB乃至移动技术设备的发展,数据收集与分析的能力也在迅速提升,数据的数量也在迅速扩张,这一切都表明,当今世界正在迈向一个充满活力的数据分析时代,数据的数量乃至其所带来的信息处理,都远超以往的数字水平,因而,要想有效地利用这些数据,就必须借助先进的数据分析技术,以便在充满活力的网络环境中,更好地实施有效的数据分析策略。

通过深入研究,我们提高了对于智能数据的利用率。

我们将重点关注如何利用这些信息来提升我们的工作效率。

一、大数据分析技术理论伴随中国经济发展,逐渐多的中小企业开始抓住机会,将更多的资源投入到大数据分析的研究和应用中,进而提高了中小企业的运营效率,但也带来了一定的风险,即可能会出现信息的虚假、错误、无法进行有效的管理和协调。

根据最新的统计,中国的电子商务市场已经迅速崛起,目前已经拥有4亿的电商消费者,并且每年的增速约为14%。

伴随电子商务市场的不断完善,中国的电子商务市场也逐渐成熟,对电商的管理也越发规范。

此外,由于科技的进步,大数据技术也日益得到人们的关注,它可以帮助公司更好地管理和控制电子商务市场,进而更好地推动电子商务的发展。

由于技术发展,我们可以更快地捕捉到信息的变化,并根据这些变化做出必要的调整,进而提高我们的决策精度。

大数据技术的核心思想在于,它可以从海量的原始、可用的、可视的、可定制的、可量的、可视的、可操控的等方面收集、处理、存储、管理、利用,进而使我们的决策更加精准、可靠。

智慧大数据报告

智慧大数据报告

智慧大数据报告引言智慧大数据是指通过收集和分析大量的数据,利用人工智能和机器学习算法来获取洞察力和理解,从而支持决策制定和问题解决的过程。

智慧大数据已经在各个行业和领域中得到广泛的应用,如金融、医疗、零售等。

本报告将概述智慧大数据的定义、应用领域和优势,并探讨智慧大数据对企业和社会的影响。

智慧大数据的定义智慧大数据是指利用大数据技术和人工智能算法对大规模、多样化和高速增长的数据进行分析和挖掘的过程。

它包括数据的收集、存储、处理和分析等环节,从中提取出有价值的信息和洞察力。

通过智慧大数据分析,人们可以更好地理解数据中的模式、趋势和关系,从而做出更准确、更快速的决策。

智慧大数据的应用领域智慧大数据的应用领域非常广泛,以下是一些常见的领域:1.金融业:智慧大数据分析可以帮助银行和投资公司识别风险、优化投资组合、预测市场趋势等。

通过分析大量的金融数据,可以提供更准确的风险评估和投资建议。

2.医疗保健:智慧大数据分析可以帮助医院和医生提供更准确和个性化的诊断和治疗方案。

通过分析大量的医疗数据,可以发现新的治疗方法、预测疾病的发展趋势等。

3.零售业:智慧大数据分析可以帮助零售商了解客户的购买习惯、喜好和需求。

通过分析大量的销售数据和客户行为数据,可以进行精准的市场定位和商品推荐。

4.交通运输:智慧大数据分析可以帮助交通管理部门提供更高效和安全的交通系统。

通过分析大量的交通数据和车辆行为数据,可以预测交通拥堵情况、优化交通信号等。

除了以上领域,智慧大数据还在教育、能源、政府等领域有广泛的应用。

智慧大数据的优势智慧大数据具有以下优势:1.大规模数据分析:智慧大数据可以处理海量的数据,可以分析数百万甚至数十亿条数据。

通过对大规模数据的分析,可以发现更细微的模式和趋势。

2.高速数据处理:智慧大数据可以实时处理数据,可以在几毫秒内做出响应。

这使得企业和组织可以及时做出决策,提供更快速的服务。

3.深入洞察力:智慧大数据可以挖掘数据中的隐藏信息和关联关系,可以提供更深入的洞察力。

大数据技术研究综述

大数据技术研究综述

大数据技术研究综述
刘智慧;张泉灵
【期刊名称】《浙江大学学报(工学版)》
【年(卷),期】2014(048)006
【摘要】大数据的产生给海量信息处理技术带来新的挑战.为了更全面深入地了解大数据的内涵,从大数据的概念特征、一般处理流程、关键技术三个方面进行详细阐述.分析了大数据的产生背景,简述了大数据的基本概念、典型的4“V”特征以及重点应用领域;归纳总结了大数据处理的一般流程,针对其中的关键技术,如MapReduce、GFS、BigTable、Hadoop以及数据可视化等,介绍了基本的处理过程和组织结构;具体分析指出了大数据时代所面临的问题与挑战.
【总页数】16页(P957-972)
【作者】刘智慧;张泉灵
【作者单位】浙江大学智能系统与控制研究所,浙江杭州310027;浙江大学智能系统与控制研究所,浙江杭州310027
【正文语种】中文
【中图分类】TP391;TP311
【相关文献】
1.基于CiteSpace的大数据技术在工程管理领域研究综述 [J], 包慧敏;孙剑
2.基于CiteSpace的大数据技术在工程管理领域研究综述 [J], 包慧敏;孙剑
3.大数据技术在供应链管理中的应用研究综述 [J], 闫军;封丽华;常乐
4.大数据技术在财产保险反欺诈中的应用研究综述 [J], 张巍巍;吴恒亮
5.校企协同育人背景下的清远市大数据技术专业人才需求的研究综述 [J], 丁知平;黄华;林昆
因版权原因,仅展示原文概要,查看原文内容请购买。

大数据技术在智慧决策支持中的应用研究

大数据技术在智慧决策支持中的应用研究

大数据技术在智慧决策支持中的应用研究第一章引言随着互联网的迅猛发展和信息技术的进步,大数据技术逐渐成为了支持智慧决策的重要工具。

大数据技术以其强大的数据处理和分析能力,为决策者提供了全新的视角和思路。

本文将围绕大数据技术在智慧决策支持中的应用展开研究,旨在探索其在提高决策效率和准确性方面的潜力。

第二章大数据技术的基础概念和原理2.1 大数据的定义和特点2.2 大数据技术的基本架构2.3 大数据的存储和处理技术2.4 大数据技术的数据挖掘和分析方法第三章大数据技术在决策支持系统中的应用3.1 大数据技术在数据采集和清洗中的应用3.2 大数据技术在数据建模和分析中的应用3.3 大数据技术在预测和预警中的应用3.4 大数据技术在决策可视化中的应用第四章大数据技术在智慧决策中的案例分析4.1 大数据技术在金融行业中的应用案例分析4.2 大数据技术在医疗领域中的应用案例分析4.3 大数据技术在制造业中的应用案例分析4.4 大数据技术在城市规划中的应用案例分析第五章大数据技术在智慧决策支持中的挑战和展望5.1 大数据技术面临的挑战5.2 大数据技术在智慧决策中的未来发展5.3 大数据技术的应用前景和发展趋势第六章结论本文通过对大数据技术在智慧决策支持中的应用进行研究,发现大数据技术在提高决策效率和准确性方面具有巨大的潜力。

然而,大数据技术在应用过程中还面临着一些挑战,需要进一步研究和探索解决方案。

未来,随着大数据技术的不断发展和完善,它将在智慧决策领域发挥更加重要的作用,为人们的决策提供更多的支持和帮助。

参考文献:[1] Chen M, Mao S, Liu Y. Big data: a survey[J]. Mobile Networks and Applications, 2014, 19(2): 171-209.[2] McAfee A, Brynjolfsson E, Davenport T H, et al. Big data: the management revolution[J]. Harvard Business Review, 2012, 90(10):60-68.[3] Jin O, Sun L, Ma J, et al. Data-intensive applications, challenges, techniques and technologies: A survey on Big Data[J]. Information Systems, 2018, 74: 1-32.。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第48卷第6期2014年6月浙 江 大 学 学 报(工学版)Journal of Zhejiang University(Engineering Science)Vol.48No.6Jun.2014收稿日期:2013-07-25.浙江大学学报(工学版)网址:www.journals.zju.edu.cn/eng 基金项目:国家“十二五”科技支撑计划资助项目(2012BAF10B04).作者简介:刘智慧(1989—),女,硕士生,从事大数据处理技术方面的研究.E-mail:zhihui891126@163.com通信联系人:张泉灵,男,副研究员.E-mail:qlzhang@iipc.zju.edu.cnDOI:10.3785/j.issn.1008-973X.2014.06.001大数据技术研究综述刘智慧,张泉灵(浙江大学智能系统与控制研究所,浙江杭州310027)摘 要:大数据的产生给海量信息处理技术带来新的挑战.为了更全面深入地了解大数据的内涵,从大数据的概念特征、一般处理流程、关键技术三个方面进行详细阐述.分析了大数据的产生背景,简述了大数据的基本概念、典型的4“V”特征以及重点应用领域;归纳总结了大数据处理的一般流程,针对其中的关键技术,如MapReduce、GFS、BigTable、Hadoop以及数据可视化等,介绍了基本的处理过程和组织结构;具体分析指出了大数据时代所面临的问题与挑战.关键词:大数据;数据处理技术;数据分析;云计算中图分类号:TP 391;TP 311 文献标志码:A 文章编号:1008-973X(2014)06-0957-16Research overview of big data technologyLIU Zhi-hui,ZHANG Quan-ling(Institute of Cyber-systems and Control,Zhejiang University,Hangzhou310027,China)Abstract:The emergence of“big data”has brought new challenges to mass information processingtechnology.This comprehensive overview was intended to elaborate on big data from three aspects:theconcept and characteristics,general data processing framework and key techniques.The background of bigdata was explained,and the basic concepts,typical 4“V”characteristics as well as related application fieldswere sketched.Then,the general procedures of big data processing were summarized,and fundamentalanalysis and description of the key techniques,such as MapReduce,GFS,BigTable,Hadoop and datavisualization,were given as well.Finally,the new issues and challenges in the Big Data Era were pointedout.Key words:big data;data processing technique;data analysis;cloud computing 随着移动互联网、物联网和云计算技术的迅速发展,开启了移动云时代的序幕,大数据(Big Data)也越来越吸引人们的视线.正如1982年世界预测大师、未来学家约翰·奈斯比特(John Naisbitt)在他的著作Megatrends:Ten new directions transfor-ming our live[1]一书中所提到的:“我们现在大量生产信息,正如过去我们大量生产汽车一样”、“人类正被信息淹没,却饥渴知识”,等等诸如此类的预言均在当下得到了充分的证实,这也恰恰说明,世界正处于一个信息爆炸的时代.Internet的出现缩短了人与人、人与世界之间的距离,整个世界连成一个“地球村”,人们通过网络无障碍交流、交换信息和协同工作.与此同时,借助Internet的高速发展、数据库技术的成熟和普及、高内存高性能的存储设备和存储介质的出现,人类在日常学习、生活、工作中产生的数据量正以指数形式增长,呈现“爆炸”状态.“大数据问题”(Big DataProblem)就是在这样的背景下产生的,成为科研学术界和相关产业界的热门话题,并作为信息技术领域的重要前沿课题之一,吸引着越来越多的科学家研究大数据带来的相关问题.著名未来学家阿尔文·托夫勒在《第三次浪潮》[2]一书中,将大数据热情赞颂为“第三次浪潮的华彩乐章”.著名期刊《Nature》[3]和《Science》[4]针对大数据分别出版了专刊“Big Data”和“Dealingwith Data”,从互联网技术、互联网经济学、超级计算、环境科学、生物医药等多个方面讨论了大数据处理面临的各种问题.2011年5月,全球知名咨询公司麦肯锡(Mckensey and Company)在美国拉斯维加斯举办了第11届EMC World年度大会,设定的主题为“云计算相遇大数据”,发布了“Big data:Thenext frontier for innovation,competition and pro-ductivity”[5]的报告,首次提出“大数据”的概念,并在报告中指出:“数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素,而人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来”.世界经济论坛(World EconomicForum)2012年发布的“Big data,big impact:Newpossibilities for international development”[6]报告,指出了大数据的发展为世界带来的新机遇;美国政府在2012年3月29日发布了“大数据研究发展倡议”(Big data research and development initia-tive)[7],正式启动“大数据发展计划”,拟投资2亿美元在大数据的研究上,以培养更多的大数据研发与应用人才;联合国在2012年5月公布了“Challengesand opportunities with big data”[8]白皮书,分析了大数据的处理流程以及可能面临的挑战;互联网数据中心(Internet Data Center,IDC)在2012年5月发布《中国互联网市场洞见:互联网大数据技术创新研究》[9]报告,报告中指出大数据将引领中国互联网行业新一轮技术浪潮.不仅如此,世界范围内对大数据的关注已从经济领域上升到了政治领域.美国总统科技顾问委员会在2010年就撰写了一份报告给当时的奥巴马总统,报告名为“Designing a digital future:Federallyfunded research and development in networkingand information technology”[10],报告中指出:数据正在以指数形式迅速增长,如何收集、管理和分析数据日渐成为网络信息研究的重点,联邦政府的每一个机构和部门都应该制定应对大数据的战略计划.同时,美国联邦政府建立统一的门户开放网站———Data.Gov,开放政府拥有的公共数据,鼓励民众对其进行自由开发,进一步推进政府数据开放;美国政府各部门也纷纷有所行动,美国国家科学基金委员会(NSF)、美国国家卫生研究院(NIH)、美国能源部(DOE)、美国国防部(DOD)、美国国防部高级研究计划局(DARPA)、美国地质勘探局(USGS)等6个部门联合推出了大数据计划,旨在提升从大量复杂数据中获取知识和洞见的能力[11].处于发展中国家前列的中国,大数据的应用处于起步阶段.在工信部发布的物联网“十二五”规划[12]中,把信息处理技术作为4项关键技术创新工程之一提出,其中包括了海量数据存储、数据挖掘、图像视频智能分析,这都是大数据的重要组成部分.而另外3项:信息感知技术、信息传输技术、信息安全技术,也与“大数据”密切相关.同时,为推动大数据在我国的发展,2012年8月,中国科学院启动了“面向感知中国的新一代信息技术研究”战略性先导科技专项,其任务之一就是研制用于大数据采集、存储、处理、分析和挖掘的未来数据系统;同时,中国计算机学会成立了大数据专家委员会(CCF Big DataTask Force,CCF BDTF);为探讨中国大数据的发展战略,中科院计算机研究所举办了以“网络数据科学与工程———一门新兴的交叉学科?”[13]为主题的会议,与国内外知名专家学者一起为中国大数据发展战略建言献计;2013年,科技部正式启动863项目“面向大数据的先进存储结构及关键技术”[14],启动5个大数据课题.由此可见,大数据的发展已经得到了世界范围内的广泛关注,发展趋势势不可挡.如何将巨大的原始数据进行有效地利用和分析,使之转变成可以被利用的知识和价值,解决日常生活和工作中的难题,成为国内外共同关注的重要课题,同时也是大数据最重要的研发意义所在.1 大数据的基本概念现在的社会是一个信息化、数字化的社会,互联网、物联网和云计算技术的迅猛发展,使得数据充斥着整个世界,与此同时,数据也成为一种新的自然资源[15],亟待人们对其加以合理、高效、充分的利用,使之能够给人们的生活工作带来更大的效益和价值.在这种背景下,数据的数量不仅以指数形式递增,而且数据的结构越来越趋于复杂化,这就赋予了859浙 江 大 学 学 报(工学版) 第48卷 “大数据”不同于以往普通“数据”更加深层的内涵.1.1 大数据的产生在科学研究(天文学、生物学、高能物理等)[16]、计算机仿真、互联网应用、电子商务等领域,数据量呈现快速增长的趋势.美国互联网数据中心(IDC)指出[17],互联网上的数据每年将增长50%以上,每2年便将翻一番,而目前世界上90%以上的数据是最近几年才产生的.数据并非单纯指人们在互联网上发布的信息,全世界的工业设备、汽车、电表上有着无数的数码传感器,随时测量和传递有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化等也产生了海量的数据信息.1)科学研究产生大数据.现在的科研工作比以往任何时候都依赖大量的数据信息交流处理,尤其是各大科研实验室之间研究信息的远程传输.比如类似希格斯玻粒子的发现就需要每年36个国家的150多个计算中心之间进行约26PB(26×1015 B)的数据交流.在过去的10年间,连接超过40个国家实验室、超级计算中心和科学仪器的能源科学网[18](Esnet)上的流量每年以72%的速度增长,2012年11月Esnet将升级为100Gbps.2)物联网的应用产生大数据.物联网[19-20](theInternet of things)是新一代信息技术的重要组成部分,解决了物与物、人与物、人与人之间的互联.本质而言,人与机器、机器与机器的交互,大都是为了实现人与人之间的信息交互而产生的.在这种信息交互的过程中,催生了从信息传送到信息感知再到面向分析处理的应用.人们接受日常生活中的各种信息,将这些信息传送到数据中心,利用数据中心的智能分析决策得出信息处理结果,再通过互联网等信息通信网络将这些数据信息传递到四面八方,而在互联网终端的设备利用传感网等设施接受信息并进行有用的信息提取,得到自己想要的数据结果.目前,物联网在智能工业、智能农业、智能交通、智能电网、节能建筑、安全监控等行业都有应用.巨大连接的网络使得网络上流通的数据大幅度增长,从而催生了大数据的出现.3)海量网络信息的产生催生大数据.移动互联时代,数以百亿计的机器、企业、个人随时随地都会获取和产生新的数据.互联网搜索的巨头Google现在能够处理的网页数量是在千亿以上,每月处理的数据超过400PB,并且呈继续高速增长的趋势;Youtube每天上传7万小时的视频;淘宝网在2010年就拥有3.7亿会员,在线商品8.8亿件,每天交易超过数千万笔,单日数据产生量超过50TB(50×1012 B),存储量40PB;2011年Internet World统计互联网用户近20亿,Facebook注册用户超过8.5亿,每天上传3亿张照片,每天生成300TB日志数据;新浪微博每天有数十亿的外部网页和API接口访问需求,每分钟都会发出数万条微博;百度目前数据总量接近1 000PB,存储网页数量接近1万亿,每天大约要处理60亿次搜索请求,几十PB数据;据IDC的研究结果,2011年创造的信息数量达到1 800EB(1 800×1018 B),每年产生的数字信息量还在以60%的速度增长,到2020年,全球每年产生的数据信息将达到35ZB((35×1021 B)[21]……所有的这些都是海量数据的呈现.随着社交网络的成熟、传统互联网到移动互联网的转变、移动宽带的迅速提升,除了个人电脑、智能手机、平板电脑等常见的客户终端之外,更多更先进的传感设备、智能设备,比如智能汽车、智能电视、工业设备和手持设备等都将接入网络,由此产生的数据量及其增长速度比以往任何时期都要多,互联网上的数据流量正在迅猛增长.1.2 大数据概念的提出1989年,Gartner Group的Howard Dresner首次提出“商业智能”(Business Intelligence)这一术语[22].商业智能通常被理解为企业中现有的数据转化为知识、帮助企业做出明智的业务经营决策的工具,主要目标是将企业所掌握的的信息转换成竞争优势,提高企业决策能力、决策效率、决策准确性.为了将数据转化为知识,需要利用数据仓库、联机分析处理(OLAP)工具和数据挖掘(Data Mining)等技术[23].随着互联网络的发展,企业收集到的数据越来越多、数据结构越来越复杂,一般的数据挖掘技术已经不能满足大型企业的需要,这就使得企业在收集数据之余,也开始有意识的寻求新的方法来解决大量数据无法存储和处理分析的问题.由此,IT界诞生了一个新的名词———“大数据”.对于“大数据”的概念目前来说并没有一个明确的定义.经过多个企业、机构和数据科学家对于大数据的理解阐述,虽然描述不一,但都存在一个普遍共识,即“大数据”的关键是在种类繁多、数量庞大的数据中,快速获取信息.维基百科中将大数据定义为:所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理,并整理成为帮助企业经营决策更积极目的的资讯.IDC将大数据定义为:为更经济地从高频率的、大容量的、不959第6期刘智慧,等:大数据技术研究综述同结构和类型的数据中获取价值而设计的新一代架构和技术.信息专家涂子沛在著作《大数据》中认为[24]:“大数据”之“大”,并不仅仅指“容量大”,更大的意义在于通过对海量数据的交换、整合和分析,发现新的知识,创造新的价值,带来“大知识”、“大科技”、“大利润”和“大发展”.从“数据”到“大数据”,不仅仅是数量上的差别,更是数据质量的提升.传统意义上的数据处理方式包括数据挖掘、数据仓库、联机分析处理(OLAP)等,而在“大数据时代”,数据已经不仅仅是需要分析处理的内容,更重要的是人们需要借助专用的思想和手段从大量看似杂乱、繁复的数据中,收集、整理和分析数据足迹,以支撑社会生活的预测、规划和商业领域的决策支持等.著名数据库专家、图灵奖的获得者Jim Gray博士总结出,在人类的科学研究史上,先后经历了实验(Empirical)、理论(Theoretical)和计算(Computational)3种范式,而在数据量不断增加和数据结构愈加复杂的今天,这3种范式已经不足以在新的研究领域得到更好地运用,所以JimGray博士[25]提出了科学的“第4种范式”(TheFouth Paradigm)这一新型的数据研究方式,即“数据探索”(Data Exporation),用以指导和更新领域的科学研究.4种科学范式的比较如表1所示.表1 4种科学范式Tab.1 Four science paradigms科学范式时间思想方法实验数千年前描述自然现象理论几百年前运用模型、总结一般规律计算几十年前模拟复杂现象数据探索现在通过设备采集数据或是模拟器仿真产生数据;通过软件实现过程仿真;将重要信息存储在电脑中;科学家通过数据库分析相关数据1.3 大数据的特征在日新月异的IT业界,各个企业对大数据都有着自己不同的解读.但大家都普遍认为,大数据有着4“V”特征,即Volume(容量大)、Variety(种类多)、Velocity(速度快)和最重要的Value(价值密度低)[26-30].Volume是指大数据巨大的数据量与数据完整性.十几年前,由于存储方式、科技手段和分析成本等的限制,使得当时许多数据都无法得到记录和保存.即使是可以保存的信号,也大多采用模拟信号保存,当其转变为数字信号的时候,由于信号的采样和转换,都不可避免存在数据的遗漏与丢失.那么现在,大数据的出现,使得信号得以以最原始的状态保存下来,数据量的大小已不是最重要的,数据的完整性才是最重要的.Variety意味着要在海量、种类繁多的数据间发现其内在关联.在互联网时代,各种设备连成一个整体,个人在这个整体中既是信息的收集者也是信息的传播者,加速了数据量的爆炸式增长和信息多样性.这就必然促使我们要在各种各样的数据中发现数据信息之间的相互关联,把看似无用的信息转变为有效的信息,从而做出正确的判断.Velocity可以理解为更快地满足实时性需求.目前,对于数据智能化和实时性的要求越来越高,比如开车时会查看智能导航仪查询最短路线,吃饭时会了解其他用户对这家餐厅的评价,见到可口的食物会拍照发微博等诸如此类的人与人、人与机器之间的信息交流互动,这些都不可避免带来数据交换.而数据交换的关键是降低延迟,以近乎实时的方式呈献给用户.大数据特征里最关键的一点,就是Value.Val-ue的意思是指大数据的价值密度低.大数据时代数据的价值就像沙子淘金,数据量越大,里面真正有价值的东西就越少.现在的任务就是将这些ZB、PB级的数据,利用云计算、智能化开源实现平台等技术,提取出有价值的信息,将信息转化为知识,发现规律,最终用知识促成正确的决策和行动.1.4 大数据的应用领域发展大数据产业将推动世界经济的发展方式由粗放型到集约型的转变,这对于提升企业综合竞争力和政府的管制能力具有深远意义的影响.将大量的原始数据汇集在一起,通过智能分析、数据挖掘等技术分析数据中潜在的规律,以预测以后事物的发展趋势,有助于人们做出正确的决策,从而提高各个领域的运行效率,取得更大的收益.1.4.1 商业 商业是大数据应用最广泛的领域.沃尔玛(Walmart)通过对消费者购物行为等这种非结构化数据进行分析,了解顾客购物习惯,公司从销售数据分析适合搭配在一起买的商品,创造了“啤酒与尿布”[31]的经典商业案例;淘宝服务于卖家的大数据平台———“淘宝数据魔方”[32]有一个“无量神针———倾听用户的痛”屏幕,监听着几百万淘宝买家的心跳,收集分析买家的购物行为,找出问题的先兆,避免“恶拍”(买家拍下产品但拒收)发生,淘宝还069浙 江 大 学 学 报(工学版) 第48卷 针对买家设置大数据平台,为买家量身打造完善网购体验的产品.1.4.2 金融 大数据在金融业也有着相当重要的作用[33].华尔街“德温特资本市场”公司分析全球3.4亿微博账户的留言,判断民众情绪,人们高兴的时候会买股票,而焦虑的时候会抛售股票,依此决定公司股票的买入或卖出,该公司2012年第一季度获得了7%的收益率.Equifax公司是美国三大征信所之一,其存储的财务数据覆盖了所有美国成年人,包括全球5亿个消费者和8 100万家企业.在它的数据库中与财务有关的记录包括贷款申请、租赁、房地产、购买零售商品、纳税申报、费用缴付、报纸与杂志订阅等,看似杂乱无章的共26PB数据,经过交叉分享和索引处理,能够得出消费者的个人信用评分,从而推断客户支付意向与支付能力,发现潜在的欺诈.1.4.3 医疗 随着大数据在医疗与生命科学研究过程中的广泛应用和不断扩展,产生的数据之大、种类之多令人难以置信.比如医院中做B超、PACS影像、病理分析等[34]业务产生了大量非结构化数据;2000年一幅CT存储量才10MB,现在的CT则含有320MB,甚至600MB的数据量,而一个基因组序列文件大小约为750MB,一个标准病理图的数据量则有接近5GB.如果将这些数据量乘以人口数量和平均寿命,仅一个社区医院就可以累积达数TB甚至PB级的结构化和非结构化数据.另外,为了实现医院之间对病患信息的共享,2010年我国公布的“十二五”规划中指出要重点建设国家级、省级和地市级三级卫生信息平台,建设电子档案和电子病历两个基础数据库等[35].随着国家逐渐加大对电子病历的投入,各级医院也将加大在数据中心、医疗信息仓库等领域的投入,医疗信息存储将越来越受重视,医疗信息中心的关注点也将由传统“计算”领域转移到“存储”领域上来.1.4.4 制造业 中国制造业的相关企业随着ERP、PLM等信息化系统的部署完成,管理方式由粗放式管理逐步转为精细化管理,新产品的研发速度和设计效率有了大幅提升,企业在实现对业务数据进行有效管理的同时,积累了大量的数据信息,产生了利用现代信息技术收集、管理和展示分析结构化和非结构化的数据和信息的诉求[36],企业需要信息化技术帮助决策者在储存的海量信息中挖掘出需要的信息,并且对这些信息进行分析,通过分析工具加快报表进程从而推动决策、规避风险[37],并且获取重要的信息,因此,越来越多的企业在原有的各种控制系统(DCS、FCS、CIPS等)和各种生产经营管理系统(MIS、MRPⅡ、CRM、ERP等)的基础上,管理重心从以前的以流程建设为主,转换为以流程建设和全生命周期数据架构建设并行的模式,在关注流程的质量和效率的同时,又关注全流程上数据的质量和效率,建立以产品为核心的覆盖产品全生命周期的数据结构,用企业级PLM系统来支撑这些数据结构,有效地提高了企业满足市场需求的响应速度,更加经济地从多样化的数据源中获得更大价值.2 大数据处理流程从大数据的特征和产生领域来看,大数据的来源相当广泛,由此产生的数据类型和应用处理方法千差万别.但是总的来说,大数据的基本处理流程大都是一致的.目前,中国人民大学网络与移动数据管理实验室(WAMDM)[38]开发了一个学术空间“ScholarSpace”,从计算机领域收集的相关文献可以总结出大数据处理的一般流程[39].在此基础上,作者认为大数据的处理流程基本可划分为数据采集、数据处理与集成、数据分析和数据解释4个阶段.整个大数据处理流程如图1所示,即经数据源获取的数据,因为其数据结构不同(包括结构、半结构和非结构数据),用特殊方法进行数据处理和集成,将其转变为统一标准的数据格式方便以后对其进行处理;然后用合适的数据分析方法将这些数据进行处理分析,并将分析的结果利用可视化等技术展现给用户,这就是整个大数据处理的流程.2.1 数据采集大数据的“大”,原本就意味着数量多、种类复杂,因此,通过各种方法获取数据信息便显得格外重要.数据采集是大数据处理流程中最基础的一步,目前常用的数据采集手段有传感器收取、射频识别(RFID)[40]、数据检索分类工具如百度和谷歌等搜索引擎,以及条形码技术等.并且由于移动设备的出现,如智能手机和平板电脑的迅速普及,使得大量移动软件被开发应用,社交网络逐渐庞大,这也加速了信息的流通速度和采集精度.2.2 数据处理与集成数据的处理与集成主要是完成对于已经采集到的数据进行适当的处理、清洗去噪以及进一步的集成存储.169第6期刘智慧,等:大数据技术研究综述图1 大数据处理基本流程Fig.1 Basic framework of big data processing 根据前文所述,大数据特点之一是“Variety”,也就是大数据的多样性.这就决定了经过各种渠道获取的数据种类和结构都非常复杂,给之后的数据分析处理带了极大的困难.通过数据处理与集成这一步骤,首先将这些结构复杂的数据转换为单一的或是便于处理的结构,为以后的数据分析打下良好的基础,因为这些数据里并不是所有的信息都是必需的,而是会掺杂很多噪音和干扰项,因此,还需对这些数据进行“去噪”和清洗,以保证数据的质量以及可靠性.常用的方法是在数据处理的过程中设计一些数据过滤器,通过聚类或关联分析的规则方法将无用或错误的离群数据挑出来过滤掉,防止其对最终数据结果产生不利影响;然后将这些整理好的数据进行集成和存储,这是很重要的一步,若是单纯随意的放置,则会对以后的数据取用造成影响,很容易导致数据访问性的问题,现在一般的解决方法是针对特定种类的数据建立专门的数据库,将这些不同种类的数据信息分门别类的放置,可以有效地减少数据查询和访问的时间,提高数据提取速度.2.3 数据分析数据分析是整个大数据处理流程里最核心的部分,因为在数据分析的过程中,会发现数据的价值所在.经过上一步骤数据的处理与集成后,所得的数据便成为数据分析的原始数据,根据所需数据的应用需求对数据进行进一步的处理和分析.传统的数据处理分析方法有数据挖掘、机器学习、智能算法、269浙 江 大 学 学 报(工学版) 第48卷 。

相关文档
最新文档