科学大数据——科技创新的机遇和挑战

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
引自:黄向阳研究员第507次香山会议报告
特征一:基于全样本的研究模式
基于样本的社会学研究:
数据源
全英32482个行政区 6500万人口通话信息
结论
研究发现,电话联系人 多样性越强的行政区, 其经济社会发展水平也 越高,从一个侧面证明 了社会资本等价于经济 资本(Science 2010)
局部性
样本数也许<50% 随机抽样 异常数据预处理
整体性
样本数也许>95% 随机性不重要 允许存在误差
• 挑战
– 数据资源获取能力 – 存储/计算能力
“长尾”科学产生小型但数量众多的数据集合,关 键是如何释放这些数据集合的潜力,降低访问和重 用它们的门槛。
中国科学院“科学数据库”长期以来就主力解决这 些数据集的管理和共享问题,目前已整合超过500 个数据库,近300TB数据。
科学大数据的基本特征
来源广泛,类型复杂
观测型数据、实验型数据、调查统计型数据、模拟计算型数据、社会网络型等 数值、文本、图形、图像、影像等 表格(自由表格、结构化表格)、文件(标准格式文件、自由格式文件)等
Biblioteka Baidu
Toms-EP
Landsat 7
天文观测大数据
Data challenges of time domain astronomy (Graham et al. 2012)
“长尾”数据同样不容小觑
化学、材料、生物、生态环境等传统的学科,有成 千上万个普通实验室在进行着研究,产生大量分散 的数据集,虽然每个数据集合在规模上并不大(一 般不会超过1TB),但这种小数据集合数量众多且 异构性强,它们汇聚后的规模和复杂性都不容小觑。
Source:Nathan, et al. Network Diversity and Economic Development. Science 2010, Vol. 328 no. 5981 pp. 1029-1031 .
引自:黄向阳研究员第507次香山会议报告
特征一:基于全样本的研究模式
特点
以感知人类社会行为
高效实现人机物三元世界中的
基于对自然和社会的感知, 社会资源(人)、
一个庞大数字化数据空间 也出现——数据界?
信息资源(机)、 物理资源(物)、 的深度融合和综合利用,
提供普惠社会的智能服务。
云、物、移、大、智
1609年,第谷布拉赫(Tycho Brache) 的助手约翰尼斯开普勒(Johannes Kepler)从第谷布拉赫对天体运动的系 数观察记录中发现了行星运动定律,并 发表了伟大著作《新天文学》。
高维度和高度相关性
数据表征复杂的自然科学现象与关系,而这些自然现象或科学过程的外部表征一般具 有高度数据相关性和多重数据属性
计算和处理高度复杂性
复杂系统+复杂模型+复杂数据
不确定性与动态性
对自然过程的感知和科学实验获取的数据,决定了科学大数据普遍具有一定的误差和 不完备性
随着传感器、实验方法和手段等的动态演进,数据的格式和内容均呈现出动态变化的
适合科学大数据处理的并行架构
MapReduce+Hadoop架构在科学数据处理上,似乎满足不了大数据处理的需求
基础设施挑战
易使用、开放和可扩展的公共基础设施 以云服务的方式来提供使用
政策与法律的挑战
数据开放和共享VS.科研人员个人利益VS.国家安全和利益
人才挑战
对交叉人才(尤其是数据工程师和数据科学家)极其缺乏
这是在对所采集并仔细保存的实验数 据进行挖掘和分析的基础上建立的伟大 理论。
第谷布拉赫
“The Fourth Paradigm Data-Intensive Scientific Discovery” Microsoft Research
约翰尼斯开普勒
CERN大型强子对撞机LHC
Higgs, 超对称粒子, 暗物质, ……
QuikScat
SORCE
Envisat IKONOS
SeaWiFS SeaWinds
SPOT 4, 5 Orbview 2, 3
ERBS
Radarsat
Grace
QuickBird UARS
ALOS Jason
Aura/Aqua/Terra
Sage
CBERS
SPIN-2
EROS A1
DMC
TRMM ACRIMSAT
患者
结论
使用手机的人并不具有更高 的罹患大脑或神经系统癌症 的风险(BMJ 2011)
引自:黄向阳研究员第507次香山会议报告
Source: Use of mobile phones and risk of brain tumours: update of Danish cohort study, BMJ 2011;343:d6387
特征一:基于全样本的研究模式
基于样本的癌症研究: 国际肿瘤基因组计划
2010年4月,Nature发 表关于国际肿瘤基因组 计划的专题报道
对所有100种癌症的基 因组测序,并汇出肿瘤 基因图谱,以逐一解开 所有癌症的基因密码, 提供个性化治疗方案
Source:Nature 464, 993-998 (15 April 2010)
科学大数据 ——科技创新的机遇和挑战
黎建辉(lijh@cnic.cn)
中国科学院计算机网络信息中心 CODATA中国全国委员会
大数据应用服务技术北京市工程实验室 2016.1.8
认识自然和社会的手段发生了根本性的改变
无所不在的传感器和物联 网让我们可以准确感知自 然界
汇聚人们访问互联网和移
动互联网的行为数据,可
特点
开放程度高
与其它类型大数据相比,更为明显
资源特性明显
重复、非排它性使用 价值体现在使用中
面临的主要问题和挑战
技术上的挑战
长距离数据传输的速度VS.成本
移动数据还是移动计算?
低成本、高可扩展性的存储架构
数据的长期保存是一个永恒的问题
适合科学数据的数据管理模型
SCIDB是一次有意义的探索
科研范式的发展历程
科学大数据新模式
假说驱动 的方法
引自:黄向阳研究员第507次香山会议报告
特征一:基于全样本的研究模式
基于样本的医学研究:丹 麦学者研究手机和癌症的 关系
数据源
覆盖丹麦1990-2007年几乎所 有癌症患者和移动的数据
358403位手机用户 10729名中枢神经系统肿瘤
相关文档
最新文档