基础全面天文学中的数据挖掘

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。


•基本的天文问题 – 2
•离群探测: (未知的未知)
•找到那些超出我们预期的天体或事件 (不属于 • 已知类别) 这些有可能是真正的科学发现或垃圾 因此,离群探测可用于:
•新奇发现 –Nobel prize? 异常探测 – 探测系统是否正常工作? 数据质量保证 – 数据流是否正常工作?
•在1000维空间中或感兴趣的子空间(低维空间) • 中,如何最优化地探测到离群? 怎样衡量“兴趣度”?
•算法移植到数据 !

•科学研究的四个阶段
•第一范式

实验或测量
•第二范式

理论分析
•第三范式

数值模拟
•第四范式

数据密集型的科学

Data Fusion+DM+ML

•数据驱动到数据密集
•天文学一直以来就是数据驱动的科学 •现在成为数据密集型的科学:
• 天文信息学(Astroinformatics )!

•星系的图像和光谱、恒星和气体的光谱


• •星系
早型星 晚型星
气体 •气体

•天文学: 数据驱动的科学


天文学:是发现驱动的科学
•• 驱动发现的因素:
•– 新问题 •– 新的思想 •– 新模型 •– 新理论
•– 更重要的是新数据!

•天文学:是发现驱动的科学
•• 发现导致: – 新的问题 – 新思想 – 新模型 – 新理论 – 更重要的是 ... 更多的新数据!
•研究人员数目

•数据挖据的定义
•数据挖掘:从大量的、不完全的、有噪声的、 •模糊的、随机的实际应用数据中, •提取隐含在其中的、人们事先不知 •道的、但又是潜在有用的信息和知 •识的过程。
•在天文学中,从海量天文数据中发 •现稀有或未知类型天体或天文现象。

•数据挖掘:知识发现的过程
••数过据程挖的掘核—心知识发现•

•基本的天文问题 – 3
•降维问题:
•寻找相关性和参数的基平面
•–维数成千上万 • • 维灾 ! •–参数之间的相关性?线性或 • 非线性混合? •–本征值或紧致表示是否可以 • 代表整个数据集的性质?

•基本的天文问题 – 4
•叠加和分解问题:
•在参数空间中重叠的天体找出它们的所属类别
•假设1010 天体在1000维空间中重叠怎么办? 如何最优地分解和抽取不同类型的天体? 一些约束条件如何应用?

•分布的数据挖掘
•分布的数据挖掘有两种类型: •1. •分布的挖掘数据 •2. 挖掘分布的数据
模式评估

课题定义

数据预处理
•数据挖掘整个过程是不断 •重复和互动的,为的是获 •得更优的模型和更好的参 •数 组 合 , …
• 特征抽取/选择 • 数据挖掘模型选择

实验
• 速度 • 计算能力 • 专家知识
• 结果的解释预评估

•有效的数据挖掘分解图
• 数据(存储)
•知识库的语义创建 •模型和算法

•大型巡天导致天文学步入 • 一个新的时代
• • 大多数数据大的人们无法看 • 这就需要存储技术、网络技术、数据库相关技术和标准等 •许多知识被数据的复杂性所掩盖而难以获得
•大多(不是所有的 )经验关系是建立在3维参数空间基础上的,如椭 •圆和核球星系的基平面。宇宙就是这么简单还是人类认知的偏见 •?

•基本的天文问题 – 5
•最优化问题:
•在高维参数空间中如何找到复杂的多变量函数的最 •优解(最佳拟合、全局最大似然)

•为什么需要分布的数据挖掘?

由于…

… 许多重大的科学发现产生

于多数据源的交叉证认:

-- 类星体

-- Gamma-ray bursts

-- 极亮红外星系

-- X射线黑洞双星

•分类分析(known knowns)
•定义
•按照某种规则,新的数据被划分到已知类别中的一类。 •这个规则是通过具有标签的数据进行监督学习获得的。
•应用
•恒星分成不同的光谱型,星系按哈勃或形态分类,活动 •星系核进一步细分,等等
•方法
•神经网络 •决策树 •Naïve Bayesian Networks •支持矢量机 •学习矢量量化 •遗传算法 •…….

-- 射电星系
•...
•“Just
•Checking”

•天文数据的分布性
•不同的人、研究所、项目、国家、机构, … 数据的异构性 (如,数据库, 图像, 星表, 文件 • 系统, 网页, 文档数据图书馆, 二进制, 文本, • 结构的,非结构的, …) 天文学家要查询和挖掘这些数据需要进行 • 两步操作 尽管虚拟天文台驱动数据发现和融合,但是 • 仍然不能有助于大型数据挖掘的开展

•天文中的数据挖掘课题
Baidu Nhomakorabea

•天文学研究的转变
•过去 : 100到1000个独立的分布的异构数据 / 元数据 / •信息库 .
•目前 : 天文数据可以从融合的分布资源中获得,如虚 •拟天文台 .
•将来 : 随着大型巡天项目的发展,天文学在未来将越 •来越成为数据密集型的科学 .
•挑战 : 越来越难于将数据传输到用户 …
SDSS: •40 TB
•将来的巨型巡天项目,如:
• PanSTARRS:每晚 10 TB,,预计最终40 PB
• SKA:2020年中期运行,每天约0.5-10PB
•LSST (Large Synoptic Survey Telescope):

2020开始运行, with 3-Gigapixel camera
• 面向数据的天文学研究= “第四范式” •科学知识发现

第四范式: 数据密集型的科学发现
• Scientific Knowledge !
•• 大数据集的优点:

• 很好地统计分析典型或特殊事件

• 自动搜寻稀有事件

•科学是数据密集型的
•数据量
超大型数据集 数据迁移代价高 学科标准 高效计算的需求 超算、HPC、网格 •如:高能物理、天文学
•应用:
•SDSS的双色图恒星聚在一块 如香蕉状,类星体则偏离该区域。
•方法:
•K均值聚类 •Hierarchical clustering •预期最大算法(Expectation Maximization algorithm) •高斯混合模型(Gaussian mixture modeling) •主成分分析 •……

X射线, 可见光, 红外, ...
•分类
•粗分: 恒星 vs. 河外天体
•细分: A0 vs. B0…, AGN vs. QSO vs. 星系

•聚类分析(uknown uknowns)
•定义:
•按照某种规律聚在一起的称为一类。 •所用的数据是无标签的,通过非监督的学习方式训练数据,类间
•的差异尽可能地大,而类内的差异尽可能地小。
•大部分数据人们是无法直接理解的
•这就需要数据挖掘、知识发现、数据理解技术、超高维可视化、 •人工智能 / 机器帮助的发现
•数据挖掘是帮助和加速科学发现过程的利器

•● 大数据 •● 机器学习 •● 可视化 •● 云服务
•Credit:Tony Hey

•天文数据的特点
•空间性 •多波段性 •海量性 •非线性 •异构性 •缺值性或坏标记 •分布性 •高维性 •时序性 •开放性
•数据流:约每秒700MB,约 •每天15PB
•来自34个国家的1000名科学 •家参与该项目
•成千上万的小型天线阵分 •布在三千多米范围内
•数据流:约每秒60GB,一 •天一百万PB
•SKA超级计算机约1亿台, •每秒要执行1018次操作

•天文数据的常用类型
•光谱数据 •图像数据 •星表数据 •时序数据 •模拟数据
•天体物理学是研究宇宙的物理学,这包括星体的物理性质(光度、密 •度、温度、化学成分等等)和星体与星体彼此之间的相互作用。应用 •物理理论与方法,天文物理学探讨恒星结构、恒星演化、太阳系的起 •源和许多跟宇宙学相关的问题。
•天文统计学是用统计学的知识来解决天文问题.
•天文信息学是用信息技术来解决天文学所面临的各种大数据问题.

每30秒10 GB

每晚 30 TB,持续十年

预计最终的图像数据100 PB

预计最终的星表数据30 PB

每三晚巡全天一次: 制作天体的电影

•数据的大小和增长速度都在持续增长
•人类基因序列由约三十亿 •个碱基对组成。
•存储要求:约750兆
•15亿个传感器每秒传输四千 •万次


•海量数据
•NVO (IVOA) 注册的数据资源有~14,000
•一些大型的天文数据库包括NASA空间天文项目
•已经完成或正在进行的大型天文巡天项目,如:

MACHO 和相关的暗物质巡天: ~ 1 TB

DPOSS: 3 TB

2MASS: 10 TB

GALEX: 30 TB
•透明的计算架构 •(网格、云、
•星表和元数据
•知识

•数据挖掘的常用技术
•人工神经网络 •支持矢量机 •决策树 •遗传算法 •近邻算法 •规则推导 •粗糙集


•数据挖掘的任务
•数据总结 •分类分析 •聚类分析 •回归分析 •关联规则分析 •序列模式分析 •依赖关系分析 •偏差分析 •模式分析或统计分析 •时序数据分析 •其它

•采用何种分类器?

分类算法
•分类器可以沿几个正交的轴来 •训练,探索所有的维数比较困 •难
•不同的任务需要不同的分类器 •来实现.
•决策树, OC1 •神经网络 •最近邻规则 •或其他算法
•观测参量
•流量, 位置, 色参数, 变化参量, •空间扩展, …
•训练样本
•WGACAT, ROSAT All •Sky Survey, ...
•• 因此,需要更有效的挖掘和分析算法或工具

•天文学家一直在从事数据挖掘
•“The data are mine, and •you can’t have them!”
•• 严格意义上讲 ... •• 天文学家喜欢对事物进行分类 ... •(监督学习. 如,分类) •• 天文学家喜欢对事物归类 ... •(非监督学习. 如,聚类) •• 天文学家更希望发现新的天体或现象 ... •(半监督学习. 如, 离群探测)

•大数据-巨信息量-全波段天文时代
•Astronomy facing •“data avalanche”
•Necessity Is the Mother of Invention
•DM&KDD
•IRAS 25m 2MASS 2m DSS Optical IRAS 100m WENSS 92cmNVSS 20cm GB 6cm ROSAT ~keV
•优越性
•新的概念(Concept discovery) •点滴知识(Bootstrapping knowledge)

•聚类分析

•回归分析(known uknowns)
•定义
•将一个连续应变量建模为一个或多个预测元的函数。 •这个规则是通过具有标签的数据进行监督学习获得的。
•应用
•恒星物理参数(Teff、g、[Fe/H])的测量, •星系和类星体的测光红移,等等
•方法
•神经网络
•决策树

kNN
•支持矢量机
•核回归
•…….

•基本的天文问题 – 1
•聚类问题:
•在数据集中查找聚类的天体 •统计意义和科学意义上各个类别的重要性是什么? •找“朋友的朋友”或近邻的最优算法?
• N >1100 , 如何有效地排序、分类? • 维数 ~ 1000 – 因此, 若干子空间搜索问题 •是否存在两点或更高阶的相关性? • N >1010, N-point 相关怎么做? • 与N2logN成正比的算法显然不能用
•大型数据集 •学科内标准 •共享数据中心 •合作研究 •如:基因组学、金融

•大数据五“ V”特点: •Volume (数据量 ) •Variety (多样性) •Value (价值密度低) •Velocity (速度快时效高) •Veracity (真实性)
•中型或小型数据集 •普通文档、EXEl •广泛应用的各类数据、标准少 •本地服务器或计算机 如:社会科学、人文科学
基础全面天文学中的数据挖 掘

•概要
•必要性 •概念 •技术 •问题 •展望

•天文学、天体物理学、天文统计学、天文学信息学
•天文学是研究宇宙空间天体、宇宙的结构和发展的学科。内容包括天 •体的构造、性质和运行规律等。主要通过观测天体发射到地球的辐射 •,发现并测量它们的位置、探索它们的运动规律、研究它们的物理性 •质、化学组成、内部结构、能量来源及其演化规律。天文学是一门古 •老的科学,自有人类文明史以来,天文学就有重要的地位。
相关文档
最新文档