大数据及其应用的矛盾问题与可拓学-科技促进发展

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
** 李兴森,博士、教授、高级工程师。浙江大学宁波理工学院信息管理与信息系统研究所所长,中国人工智能学会理事, 中国人工智能学会可拓工程专业委员会秘书长,宁波市拔尖与领军人才,浙江大学博士后合作导师。擅长以可拓学 和信息技术处理管理中的矛盾问题,承担多项数据挖掘项目,为企业决策提供科学依据。
张浩澜,博士,副教授,浙江大学硕士生导师,浙江省新世纪 151 人才。2008 年获澳大利亚维多利亚大学博士学位 , 2008-2010 任皇家墨尔本理工大学博士后。截止 2013 年 9 月已发表高质量期刊及学术会议及技术报告 50 多篇(SCI 期刊 7 篇)。
陈艳,浙江大学宁波理工学院信息管理与信息系统专业本科生。
SCIENCE&TECHNOLOGY FOR DEVELOPMENT 45
国高技术产业发展促进会 中
hina High-Tech Industry Promotion Soc
iety
关注Βιβλιοθήκη Baidu国
C
大数据意味着大机遇,如何更好地管理和利用大 数据已经成为普遍关注的话题。然而,大数据数量的 规模性、结构的异构性、产生的快速性和价值的稀疏性 [4] 给数据存储、管理以及数据分析带来了极大的挑战。
关键词:大数据 可拓学 矛盾问题 可拓创新方法 数据挖掘 DOI:10.11842/chips.2014.01.008
一、引 言
这类数据的产生方式是主动的。各类微型传感器、摄像 头及 GPS 的广泛应用,会源源不断地自动产生新数据。
人类正面临史上空前的数据浪潮。海量数据的产 这些被动、主动和自动产生的数据共同构成了大数据
二、大数据研究与应用中的矛盾问题
从技术、管理、社会等角度,大数据及其应用面 临的主要矛盾可归纳如下:
1. 大数据与分析工具无法胜任的矛盾 量变引起质变。大规模数据的传输、存储、分析 计算与图形化展示等大大超出了小规模数据处理工具 的能力。需要在硬件、软件系统和算法上进行改良与革 命,这些算法、软件系统必须从根本上变革以适应超 大规模数据高性能处理的需求 [5]。类似曹冲称象面临的 问题,大象很重,秤的秤量很小。传统的数据管理技 术面临转型升级以有效应对海量数据的挑战。甚至需 要建立新的专门的数据密集型科学与工程(DISE),以 应对大数据管理 [5]。 2. 分布式异构数据整合的矛盾 构成大数据的来源多种多样,自然界的、人类社 会的交织在一起;被动的、主动的、自动的同时存在。 数据结构的复杂化与数据类型的多样化同时存在,例如 图像、视频、音频、线下文本、网页链接、博客、微信 和论坛数据等形式多样;GPS、物联网等的实时数据结 构不一,甚至识别数据主体都相当困难。把不同数据 源、不同形式的数据整合在一起,是一项复杂的巨系统, 涉及数据拥有单位提供数据的意愿或手段等社会因素 与各种技术因素。 3. 数据产生迅速与大数据分析周期长的矛盾 数据需要整合、清洗、处理才能有效用于挖掘分析, 这往往需要较长时间。互相关联的各种数据构成了多种 信息网络,如互联网、物联网、交通运输网、无线通信网、 知网(CNKI)和社交网络等。这些规模庞大的网络仍 在不断进化、成长之中 [5]。等基于历史数据的分析结果 出来,信息网络的数据和环境已经发生变化。以社交 计算这一典型的大数据应用为例,早在 2012 年底,全 球互联网用户数已达 24 亿,互联网博客数量超过2亿, 主要论坛的帖子数接近千亿。从博客、评论、网购评
生已经处于随时、随地、随人的泛在阶段,几乎完全 不受时间、地点的限制。数据产生的形式包含了被动、 主动和自动 3 类 [1],超市的销售记录、银行的交易记录、
的数据来源,其中自动式产生的数据是大数据的最主 要来源 [1]。
大数据是来源多样、类型多样、大而复杂、具有
医院病人的医疗记录、公交车的刷卡记录、百度的搜索 潜在价值,但难以在期望时间内处理和分析的数据集
分等数据中抽取知识(例如用户对某类产品的兴趣等) 是极为重要的,需要综合采用数据抽取、自然语言处理、 机器学习、数据挖掘和信息检索等技术。然而,用户 的兴趣既受到他人的影响,也影响他人,等用户的兴 趣挖掘出来,该用户的兴趣也许已经改变。
4. 数据质量低与分析结论要求高的矛盾 数据分析与挖掘依赖真实、准确的数据。“垃圾进, 垃圾出”,数据质量高低影响大数据应用的成败。冗余、 不一致、不准确、缺失等低质量的数据会影响分析的 结果,甚至可能得出错误的结论,使得大数据应用的 价值大大降低。数据质量低的原因很多,包括原始数 据录入不细心、设备精度低、外部环境干扰(如突然 断电)、数据整合时错位等。大数据的数据来源广,数 据质量问题也更为突出。由于数据量大、数据之间的 关联错综复杂、数据结构的多元化等,数据的一致性、 完整性很难维护,这对通过大数据挖掘获取知识辅助 决策是一个潜在的大漏洞。 5. 大数据公开应用与个人隐私保护的矛盾 数据安全与隐私保护是大数据应用需要解决的主 要问题之一,涉及教育、医疗、能源、交通、国土安 全、数字化民主、经济等各种应用领域。很多数据在 一定程度上涉及到个人的隐私信息,例如,购买记录 与消费者的消费兴趣、消费行为有关,医疗记录与患 者的身体状况有关,银行记录与储户的财产信息有关。 数据安全和隐私保护贯穿数据收集、存储、维护、查 询、分析等整个数据生命周期。大数据应用于电子商务、 智慧医疗等领域的同时,必然会泄露一些个人的隐私 信息、公司的商业信息等,如何处理数据公开与隐私 保护之间的矛盾,是社会各界极为关心的问题,数据 隐私保护不利,将影响大数据资源的开发利用。 6. 大数据的大范围集成与高效查询的矛盾 大数据应用将涵盖更多的原本可能相互隔离的数 据集合。针对海量数据的不同来源数据的管理以及高 效的数据集成检索和查询,都是大数据应用需要解决 的问题。例如,12306 火车售票网站购票的身份证号码 和姓名有效性的确认,需要和公安部身份证数据校核, 大型医疗保健系统需要结合医疗机构、卫生部门、民 政部门的数据。如何将海量的数据、信息进行整合并
电脑为代表的全天候接入网络的新型移动设备的出现, 联网搜索、电子商务、金融、通讯、智能电网等行业,
使得人们在网上分享信息、展现自我的方式更为便捷, 将会带来巨大的效益。
* 国家自然科学基金项目“基于可拓学的知识智能涌现创新机理研究”(#71271191),负责人:李兴森。浙江省科技厅 软科学课题“浙江省软件产业项目群资源配置优化与评价方法研究”(#2013C35085),负责人:郭研。
Focus on China
C
国高技术产业发展促进会 中
hina High-Tech Industry Promotion Soc
iety
大数据及其应用的矛盾问题与可拓学 *
■ 李兴森 ** 张浩澜 ** 陈 艳 浙江大学宁波理工学院 智能计算与数据管理研究中心 宁波 315100
摘 要:大数据应用面临众多机遇与挑战。本文分析了大数据研究与应用中的矛盾问 题,介绍了处理矛盾问题的可拓学及基于可拓学的创新方法;以数据质量的矛盾问题分析 为例,本文展示了可拓学处理矛盾问题的思路,探讨、展望了可拓学对大数据应用中矛 盾问题处理的支持。
记录等,是被动方式产生的数据。以博客、微博、微信 为代表的新型社交网络的出现和快速发展,使得用户 分享思想、体验的意愿更加强烈。以智能手机、平板
(第 462 次香山科学会议)。大数据已成为一种新型的战 略性基础资源 [2],涉及物理、生物、脑科学、医疗、环 保、经济、文化、安全等众多领域 [3]。大数据应用于互
相关文档
最新文档