基础全面天文学中的数据挖掘
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
•
•基本的天文问题 – 2
•离群探测: (未知的未知)
•找到那些超出我们预期的天体或事件 (不属于 • 已知类别) 这些有可能是真正的科学发现或垃圾 因此,离群探测可用于:
•新奇发现 –Nobel prize? 异常探测 – 探测系统是否正常工作? 数据质量保证 – 数据流是否正常工作?
•在1000维空间中或感兴趣的子空间(低维空间) • 中,如何最优化地探测到离群? 怎样衡量“兴趣度”?
•算法移植到数据 !
•
•科学研究的四个阶段
•第一范式
•
实验或测量
•第二范式
•
理论分析
•第三范式
•
数值模拟
•第四范式
•
数据密集型的科学
•
Data Fusion+DM+ML
•
•数据驱动到数据密集
•天文学一直以来就是数据驱动的科学 •现在成为数据密集型的科学:
• 天文信息学(Astroinformatics )!
•
•星系的图像和光谱、恒星和气体的光谱
•
•
• •星系
早型星 晚型星
气体 •气体
•
•天文学: 数据驱动的科学
•
•
天文学:是发现驱动的科学
•• 驱动发现的因素:
•– 新问题 •– 新的思想 •– 新模型 •– 新理论
•– 更重要的是新数据!
•
•天文学:是发现驱动的科学
•• 发现导致: – 新的问题 – 新思想 – 新模型 – 新理论 – 更重要的是 ... 更多的新数据!
•研究人员数目
•
•数据挖据的定义
•数据挖掘:从大量的、不完全的、有噪声的、 •模糊的、随机的实际应用数据中, •提取隐含在其中的、人们事先不知 •道的、但又是潜在有用的信息和知 •识的过程。
•在天文学中,从海量天文数据中发 •现稀有或未知类型天体或天文现象。
•
•数据挖掘:知识发现的过程
••数过据程挖的掘核—心知识发现•
•
•基本的天文问题 – 3
•降维问题:
•寻找相关性和参数的基平面
•–维数成千上万 • • 维灾 ! •–参数之间的相关性?线性或 • 非线性混合? •–本征值或紧致表示是否可以 • 代表整个数据集的性质?
•
•基本的天文问题 – 4
•叠加和分解问题:
•在参数空间中重叠的天体找出它们的所属类别
•假设1010 天体在1000维空间中重叠怎么办? 如何最优地分解和抽取不同类型的天体? 一些约束条件如何应用?
•
•分布的数据挖掘
•分布的数据挖掘有两种类型: •1. •分布的挖掘数据 •2. 挖掘分布的数据
模式评估
•
课题定义
•
数据预处理
•数据挖掘整个过程是不断 •重复和互动的,为的是获 •得更优的模型和更好的参 •数 组 合 , …
• 特征抽取/选择 • 数据挖掘模型选择
•
实验
• 速度 • 计算能力 • 专家知识
• 结果的解释预评估
•
•有效的数据挖掘分解图
• 数据(存储)
•知识库的语义创建 •模型和算法
•
•大型巡天导致天文学步入 • 一个新的时代
• • 大多数数据大的人们无法看 • 这就需要存储技术、网络技术、数据库相关技术和标准等 •许多知识被数据的复杂性所掩盖而难以获得
•大多(不是所有的 )经验关系是建立在3维参数空间基础上的,如椭 •圆和核球星系的基平面。宇宙就是这么简单还是人类认知的偏见 •?
•
•基本的天文问题 – 5
•最优化问题:
•在高维参数空间中如何找到复杂的多变量函数的最 •优解(最佳拟合、全局最大似然)
•
•为什么需要分布的数据挖掘?
•
由于…
•
… 许多重大的科学发现产生
•
于多数据源的交叉证认:
•
-- 类星体
•
-- Gamma-ray bursts
•
-- 极亮红外星系
•
-- X射线黑洞双星
•
•分类分析(known knowns)
•定义
•按照某种规则,新的数据被划分到已知类别中的一类。 •这个规则是通过具有标签的数据进行监督学习获得的。
•应用
•恒星分成不同的光谱型,星系按哈勃或形态分类,活动 •星系核进一步细分,等等
•方法
•神经网络 •决策树 •Naïve Bayesian Networks •支持矢量机 •学习矢量量化 •遗传算法 •…….
•
-- 射电星系
•...
•“Just
•Checking”
•
•天文数据的分布性
•不同的人、研究所、项目、国家、机构, … 数据的异构性 (如,数据库, 图像, 星表, 文件 • 系统, 网页, 文档数据图书馆, 二进制, 文本, • 结构的,非结构的, …) 天文学家要查询和挖掘这些数据需要进行 • 两步操作 尽管虚拟天文台驱动数据发现和融合,但是 • 仍然不能有助于大型数据挖掘的开展
•
•天文中的数据挖掘课题
Baidu Nhomakorabea
•
•天文学研究的转变
•过去 : 100到1000个独立的分布的异构数据 / 元数据 / •信息库 .
•目前 : 天文数据可以从融合的分布资源中获得,如虚 •拟天文台 .
•将来 : 随着大型巡天项目的发展,天文学在未来将越 •来越成为数据密集型的科学 .
•挑战 : 越来越难于将数据传输到用户 …
SDSS: •40 TB
•将来的巨型巡天项目,如:
• PanSTARRS:每晚 10 TB,,预计最终40 PB
• SKA:2020年中期运行,每天约0.5-10PB
•LSST (Large Synoptic Survey Telescope):
•
2020开始运行, with 3-Gigapixel camera
• 面向数据的天文学研究= “第四范式” •科学知识发现
•
第四范式: 数据密集型的科学发现
• Scientific Knowledge !
•• 大数据集的优点:
•
• 很好地统计分析典型或特殊事件
•
• 自动搜寻稀有事件
•
•科学是数据密集型的
•数据量
超大型数据集 数据迁移代价高 学科标准 高效计算的需求 超算、HPC、网格 •如:高能物理、天文学
•应用:
•SDSS的双色图恒星聚在一块 如香蕉状,类星体则偏离该区域。
•方法:
•K均值聚类 •Hierarchical clustering •预期最大算法(Expectation Maximization algorithm) •高斯混合模型(Gaussian mixture modeling) •主成分分析 •……
•
X射线, 可见光, 红外, ...
•分类
•粗分: 恒星 vs. 河外天体
•细分: A0 vs. B0…, AGN vs. QSO vs. 星系
•
•聚类分析(uknown uknowns)
•定义:
•按照某种规律聚在一起的称为一类。 •所用的数据是无标签的,通过非监督的学习方式训练数据,类间
•的差异尽可能地大,而类内的差异尽可能地小。
•大部分数据人们是无法直接理解的
•这就需要数据挖掘、知识发现、数据理解技术、超高维可视化、 •人工智能 / 机器帮助的发现
•数据挖掘是帮助和加速科学发现过程的利器
•
•● 大数据 •● 机器学习 •● 可视化 •● 云服务
•Credit:Tony Hey
•
•天文数据的特点
•空间性 •多波段性 •海量性 •非线性 •异构性 •缺值性或坏标记 •分布性 •高维性 •时序性 •开放性
•数据流:约每秒700MB,约 •每天15PB
•来自34个国家的1000名科学 •家参与该项目
•成千上万的小型天线阵分 •布在三千多米范围内
•数据流:约每秒60GB,一 •天一百万PB
•SKA超级计算机约1亿台, •每秒要执行1018次操作
•
•天文数据的常用类型
•光谱数据 •图像数据 •星表数据 •时序数据 •模拟数据
•天体物理学是研究宇宙的物理学,这包括星体的物理性质(光度、密 •度、温度、化学成分等等)和星体与星体彼此之间的相互作用。应用 •物理理论与方法,天文物理学探讨恒星结构、恒星演化、太阳系的起 •源和许多跟宇宙学相关的问题。
•天文统计学是用统计学的知识来解决天文问题.
•天文信息学是用信息技术来解决天文学所面临的各种大数据问题.
•
每30秒10 GB
•
每晚 30 TB,持续十年
•
预计最终的图像数据100 PB
•
预计最终的星表数据30 PB
•
每三晚巡全天一次: 制作天体的电影
•
•数据的大小和增长速度都在持续增长
•人类基因序列由约三十亿 •个碱基对组成。
•存储要求:约750兆
•15亿个传感器每秒传输四千 •万次
•
•
•海量数据
•NVO (IVOA) 注册的数据资源有~14,000
•一些大型的天文数据库包括NASA空间天文项目
•已经完成或正在进行的大型天文巡天项目,如:
•
MACHO 和相关的暗物质巡天: ~ 1 TB
•
DPOSS: 3 TB
•
2MASS: 10 TB
•
GALEX: 30 TB
•透明的计算架构 •(网格、云、
•星表和元数据
•知识
•
•数据挖掘的常用技术
•人工神经网络 •支持矢量机 •决策树 •遗传算法 •近邻算法 •规则推导 •粗糙集
•
•
•数据挖掘的任务
•数据总结 •分类分析 •聚类分析 •回归分析 •关联规则分析 •序列模式分析 •依赖关系分析 •偏差分析 •模式分析或统计分析 •时序数据分析 •其它
•
•采用何种分类器?
•
分类算法
•分类器可以沿几个正交的轴来 •训练,探索所有的维数比较困 •难
•不同的任务需要不同的分类器 •来实现.
•决策树, OC1 •神经网络 •最近邻规则 •或其他算法
•观测参量
•流量, 位置, 色参数, 变化参量, •空间扩展, …
•训练样本
•WGACAT, ROSAT All •Sky Survey, ...
•• 因此,需要更有效的挖掘和分析算法或工具
•
•天文学家一直在从事数据挖掘
•“The data are mine, and •you can’t have them!”
•• 严格意义上讲 ... •• 天文学家喜欢对事物进行分类 ... •(监督学习. 如,分类) •• 天文学家喜欢对事物归类 ... •(非监督学习. 如,聚类) •• 天文学家更希望发现新的天体或现象 ... •(半监督学习. 如, 离群探测)
•
•大数据-巨信息量-全波段天文时代
•Astronomy facing •“data avalanche”
•Necessity Is the Mother of Invention
•DM&KDD
•IRAS 25m 2MASS 2m DSS Optical IRAS 100m WENSS 92cmNVSS 20cm GB 6cm ROSAT ~keV
•优越性
•新的概念(Concept discovery) •点滴知识(Bootstrapping knowledge)
•
•聚类分析
•
•回归分析(known uknowns)
•定义
•将一个连续应变量建模为一个或多个预测元的函数。 •这个规则是通过具有标签的数据进行监督学习获得的。
•应用
•恒星物理参数(Teff、g、[Fe/H])的测量, •星系和类星体的测光红移,等等
•方法
•神经网络
•决策树
•
kNN
•支持矢量机
•核回归
•…….
•
•基本的天文问题 – 1
•聚类问题:
•在数据集中查找聚类的天体 •统计意义和科学意义上各个类别的重要性是什么? •找“朋友的朋友”或近邻的最优算法?
• N >1100 , 如何有效地排序、分类? • 维数 ~ 1000 – 因此, 若干子空间搜索问题 •是否存在两点或更高阶的相关性? • N >1010, N-point 相关怎么做? • 与N2logN成正比的算法显然不能用
•大型数据集 •学科内标准 •共享数据中心 •合作研究 •如:基因组学、金融
•
•大数据五“ V”特点: •Volume (数据量 ) •Variety (多样性) •Value (价值密度低) •Velocity (速度快时效高) •Veracity (真实性)
•中型或小型数据集 •普通文档、EXEl •广泛应用的各类数据、标准少 •本地服务器或计算机 如:社会科学、人文科学
基础全面天文学中的数据挖 掘
•
•概要
•必要性 •概念 •技术 •问题 •展望
•
•天文学、天体物理学、天文统计学、天文学信息学
•天文学是研究宇宙空间天体、宇宙的结构和发展的学科。内容包括天 •体的构造、性质和运行规律等。主要通过观测天体发射到地球的辐射 •,发现并测量它们的位置、探索它们的运动规律、研究它们的物理性 •质、化学组成、内部结构、能量来源及其演化规律。天文学是一门古 •老的科学,自有人类文明史以来,天文学就有重要的地位。