基于随机森林的激变变星候选体的数据挖掘
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
体进行 了有益的尝试 。
04 此判据 可找到 白矮星与 M 型 矮星 的双 星系统 , ., 连续 7 年对 S S (l nd i lk uvy发 布 的数 据进 行粗筛 选 D S s a it ysr ) o ga s e 后人工判断 , 共确 认 了 28 新 的候选 体_ P tc 使 用 0个 z _ ai 引。 r k 判据 : 一g . , ~r . , —i 08 i . , “ <09 g <O8 r % . , - <10 此判
有 明显的 B l r ame 吸收特征 , 时还 有氦线组成 的纯吸收谱 , 有
白矮星和伴星的双星系统 , 伴星通常是 K型或 M 型红矮 星 , 有些情况下也可以是一颗白矮星或红 巨星。充满洛 希瓣 的伴 星通过吸积盘向 白矮星转 移物 质。激 变变 星主要 分为新 星 、
矮新星 、 类新 星和再发新星 。 它对 于研究恒 星和密近 双星的 结构演化 , 检验和发展 吸积 盘理论具 有重 要 的作 用和意 义。
基 于 随机 森林 的激 变 变 星候选 体 的数 据挖 掘
姜 斌 ~,罗阿理 ,赵永恒
l _中国科学 院国家天文台 , 北京 10 1 002
2 .山东大学威海分校机电与信息工程学院, 山东 威海
3 .中国科学 院研究生 院, 北京 1 0 4 009
240 629
摘
要 提 出一种适用于在郭守敬望远镜海量光谱 中 自动 、快速筛选 激变变 星的方法 。利用 已证认 的激 变
激变变星是 比较暗的天体( 6 0ma ) 1 ̄2 g ,目前 已经 发现 了两
千颗左右的激变变星l 。 1 J
或低量子数 B le线有发射核 。 a r m ]
在郭守敬望远镜的海量数据 中根据上述光谱特征快速发 现 C 类天体只能借 助于数 据挖 掘等 自动处 理方法 。本 文 Vs
变星光谱作 为模板 , 通过随机森林分类训练 , 得到一个 分类模 型, 模型给出了各个波长对应流量的重要性 该 排序 , 可根据该排序进行降维并用 于激 变变 星判 别 , 结果 作为反馈 进一 步丰富模板库 。实验 中共发现 了 1 6 个 新的激变变 星候选体 , 表明了该 方法 的可行性 。 关键词 激变 变星 ; 数据挖掘 ; 随机森林 ; 郭守敬望远镜
收稿 日期 : 0 l 3l , 2 l一 一O 修订 日期 : 0 1 62 0 2 1— — 0 0 基金项 目: 国家 自然科学 基金项 目( 0 7 0 1 1 0 8 1 ) 19 3 2 , 17 0 3 资助
1 实验数据及预处理
本文实验数据选 自 S S , D S 其数据 和郭守 敬望远镜 具有 可 比性 。 在其 cs b ቤተ መጻሕፍቲ ባይዱ o 数据库 中按 照 Skd 和 Ptc 颜色判 j zoy ai rk
第3卷, 2 2 第 期
20 12 年 2月
光
谱
学
与
光
谱
分
析
S e to c p n p c r lAn l ss p c r s o y a d S e ta a y i
Vo. 2 No 2 p 5 0 5 3 13 , . ,p 1— 1 Fe r a y 0 2 b u r ,2 1
文献标识码 :A D I 03 6/.sn 10 —5 32 1 )20 1 —4 O :1. 9 4ji . 0 00 9 (02 0 -500 s
中图分类号 : P 9 T 2
据可找到矮新 星,利用交叉 证认 的方法 共找 到了 6 4个新候
引 言
激变变 星 (aals cvr besas Vs 是一 种拥 有 ctc mi ai l tr,C ) y a
选体 。
然而 以上基于测光 的方法需要人工处理 的数据量大 , 难 以适应实时性 处理的要求 。而且除 了少数 食系统 以外 , 光 测 方法需要长时间跟踪观测 ,不宜做 大规模证认工作 。 C 的光谱特 征 明显 :8 观测 到的 C 都 处 于宁静 Vs O Vs 期 , 时光谱 以发射线 为特 征 , 此 这些 发射 线包括 B l r 、 a me 线 He 和 He 有时还有 F Ⅱ, 1 Nl ;爆发期 的光谱具 I U, e c1/ l I I
样本统计研究的课题外 , 还包含 了激变 变星 、 新星 、 超 贫金
属 星等稀少天体 。使用 数据挖掘 技术 , 在每个观 测夜获得 可 的几万条光谱 中, 在不增加很大投入 的情况下快 速找 出特殊 天体 的候选体 , 再使用其他望远镜进行后续观 测来 进一步证 认 ,从而提高望远镜 的科学产 出率 。 C 的发现方法 一般 基于测 光观测 。其 中 Sk d Vs zo y使用
模板 , 使用随机森林 (a dm rs, ) 法提取光谱特 征 rn o f et RF 算 o 并根据流量进行波长重要性排序 ; 利用训练后得到 的分类 器 在海量光谱 中寻找 C 候选 体 , Vs 大大缩 减 了数据 处理时 间。
L AMO T 。其巡天将产生海 量光谱 。这 些数据 除可用 于大 s)
作者简介 : 姜
郭守敬望远镜是大天区面积多 目标光纤光谱天文望远镜
( re sy ae l-bet f e pcrso i tlso e 1 g k ra mutojc i r s etocpc e cp , a i b e
使用 s S 数据为实验数据 , DS 利用其已发现的 C s V 光谱作 为
测光选择判据 : 一g .5 g <O 7 r >O 3 ~ “ <O 4 , —r . , — . , >
配合 山东大学威海分校 1 望远镜 ( 光星等> 1 光谱 m 测 7m, 分辨率为 5 0) 可满足郭守敬望远镜 “ 0 0, 0 发现 即观测” 的实 时性处理 的要求 。为在郭守敬望远镜数据 中快速寻 找特殊天
04 此判据 可找到 白矮星与 M 型 矮星 的双 星系统 , ., 连续 7 年对 S S (l nd i lk uvy发 布 的数 据进 行粗筛 选 D S s a it ysr ) o ga s e 后人工判断 , 共确 认 了 28 新 的候选 体_ P tc 使 用 0个 z _ ai 引。 r k 判据 : 一g . , ~r . , —i 08 i . , “ <09 g <O8 r % . , - <10 此判
有 明显的 B l r ame 吸收特征 , 时还 有氦线组成 的纯吸收谱 , 有
白矮星和伴星的双星系统 , 伴星通常是 K型或 M 型红矮 星 , 有些情况下也可以是一颗白矮星或红 巨星。充满洛 希瓣 的伴 星通过吸积盘向 白矮星转 移物 质。激 变变 星主要 分为新 星 、
矮新星 、 类新 星和再发新星 。 它对 于研究恒 星和密近 双星的 结构演化 , 检验和发展 吸积 盘理论具 有重 要 的作 用和意 义。
基 于 随机 森林 的激 变 变 星候选 体 的数 据挖 掘
姜 斌 ~,罗阿理 ,赵永恒
l _中国科学 院国家天文台 , 北京 10 1 002
2 .山东大学威海分校机电与信息工程学院, 山东 威海
3 .中国科学 院研究生 院, 北京 1 0 4 009
240 629
摘
要 提 出一种适用于在郭守敬望远镜海量光谱 中 自动 、快速筛选 激变变 星的方法 。利用 已证认 的激 变
激变变星是 比较暗的天体( 6 0ma ) 1 ̄2 g ,目前 已经 发现 了两
千颗左右的激变变星l 。 1 J
或低量子数 B le线有发射核 。 a r m ]
在郭守敬望远镜的海量数据 中根据上述光谱特征快速发 现 C 类天体只能借 助于数 据挖 掘等 自动处 理方法 。本 文 Vs
变星光谱作 为模板 , 通过随机森林分类训练 , 得到一个 分类模 型, 模型给出了各个波长对应流量的重要性 该 排序 , 可根据该排序进行降维并用 于激 变变 星判 别 , 结果 作为反馈 进一 步丰富模板库 。实验 中共发现 了 1 6 个 新的激变变 星候选体 , 表明了该 方法 的可行性 。 关键词 激变 变星 ; 数据挖掘 ; 随机森林 ; 郭守敬望远镜
收稿 日期 : 0 l 3l , 2 l一 一O 修订 日期 : 0 1 62 0 2 1— — 0 0 基金项 目: 国家 自然科学 基金项 目( 0 7 0 1 1 0 8 1 ) 19 3 2 , 17 0 3 资助
1 实验数据及预处理
本文实验数据选 自 S S , D S 其数据 和郭守 敬望远镜 具有 可 比性 。 在其 cs b ቤተ መጻሕፍቲ ባይዱ o 数据库 中按 照 Skd 和 Ptc 颜色判 j zoy ai rk
第3卷, 2 2 第 期
20 12 年 2月
光
谱
学
与
光
谱
分
析
S e to c p n p c r lAn l ss p c r s o y a d S e ta a y i
Vo. 2 No 2 p 5 0 5 3 13 , . ,p 1— 1 Fe r a y 0 2 b u r ,2 1
文献标识码 :A D I 03 6/.sn 10 —5 32 1 )20 1 —4 O :1. 9 4ji . 0 00 9 (02 0 -500 s
中图分类号 : P 9 T 2
据可找到矮新 星,利用交叉 证认 的方法 共找 到了 6 4个新候
引 言
激变变 星 (aals cvr besas Vs 是一 种拥 有 ctc mi ai l tr,C ) y a
选体 。
然而 以上基于测光 的方法需要人工处理 的数据量大 , 难 以适应实时性 处理的要求 。而且除 了少数 食系统 以外 , 光 测 方法需要长时间跟踪观测 ,不宜做 大规模证认工作 。 C 的光谱特 征 明显 :8 观测 到的 C 都 处 于宁静 Vs O Vs 期 , 时光谱 以发射线 为特 征 , 此 这些 发射 线包括 B l r 、 a me 线 He 和 He 有时还有 F Ⅱ, 1 Nl ;爆发期 的光谱具 I U, e c1/ l I I
样本统计研究的课题外 , 还包含 了激变 变星 、 新星 、 超 贫金
属 星等稀少天体 。使用 数据挖掘 技术 , 在每个观 测夜获得 可 的几万条光谱 中, 在不增加很大投入 的情况下快 速找 出特殊 天体 的候选体 , 再使用其他望远镜进行后续观 测来 进一步证 认 ,从而提高望远镜 的科学产 出率 。 C 的发现方法 一般 基于测 光观测 。其 中 Sk d Vs zo y使用
模板 , 使用随机森林 (a dm rs, ) 法提取光谱特 征 rn o f et RF 算 o 并根据流量进行波长重要性排序 ; 利用训练后得到 的分类 器 在海量光谱 中寻找 C 候选 体 , Vs 大大缩 减 了数据 处理时 间。
L AMO T 。其巡天将产生海 量光谱 。这 些数据 除可用 于大 s)
作者简介 : 姜
郭守敬望远镜是大天区面积多 目标光纤光谱天文望远镜
( re sy ae l-bet f e pcrso i tlso e 1 g k ra mutojc i r s etocpc e cp , a i b e
使用 s S 数据为实验数据 , DS 利用其已发现的 C s V 光谱作 为
测光选择判据 : 一g .5 g <O 7 r >O 3 ~ “ <O 4 , —r . , — . , >
配合 山东大学威海分校 1 望远镜 ( 光星等> 1 光谱 m 测 7m, 分辨率为 5 0) 可满足郭守敬望远镜 “ 0 0, 0 发现 即观测” 的实 时性处理 的要求 。为在郭守敬望远镜数据 中快速寻 找特殊天