韩波,武汉大学

Download Report

Transcript 韩波,武汉大学

测光红移估测中的数据挖掘技术和
大数据应用
韩
波
武汉大学
国际软件学院
大纲
1
大数据时代的测光红移估测背景
2
动态KNN
3
4
5
优化训练集
KNN预测与SVM分类的结合
决策树与多维测光红移估测
背景
 多个大型巡天望远镜获得了海量的测光数据,如SDSS,
WISE,UKIRT等
 在海量数据的基础上,KNN取得了比其他高级数据挖掘
方 法 (RBF network, SVM, linear regression, MLP,
REPTree 等)更准确的测光红移估测
数据越海量、丰富,模型越简单
 类星体的测光红移估测中存在catastrophic failure问题
 多源数据融合能提高类星体测光红移估测精度,但不是
容括所有多源数据属性就可以产生最准确的估测
动态KNN
 KNN描述及图
 KNN算法中不同的K值对估测结果有着巨大的影响,一般
的做法是枚举各个值以寻找最佳的K值,即每次K确定后
就不再发生变化。
动态KNN
 一般来说某一测试样本的距离小于某一值的最近邻居的
数目是不一样的,这里将与测试样本的距离小于某一阈
值的最近邻居称为真实邻居,于是如果固定K为某一个值,
就可能会出现测试样本的真实邻居数目小于K的情况,这
种情况下K个最近邻居中就有些与估测样本的距离相差较
大的样本,这些可以称为假邻居。这些假邻居在逻辑上
是会影响KNN算法对某些样本的估测精度的。
 因此我们将进行K值动态变化的尝试,即不再选取固定K
个最近邻节点作为邻居,而选取距离小于某一值D的节点
作为邻居,以符合条件的邻居数作为K值。
动态KNN
 SDSS多次随机独立重复实验:
10万多个样本的2/3training 1/3test
采用4C+r作为特征向量
阈值maxDis取为0.09
优化训练集
 当训练集跟测试集都比较庞大时,KNN算法将需要巨大
的内存与计算量,因此我们将尝试优化缩小训练集,以
减少占用,同时也降低计算量,并在精度上也有一定的
提高。
优化训练集
步骤:
 创建一个空的样本集E,选定一个阈值maxdz;
 将C作为训练集,D作为测试集,用最近邻居算法对D进
行测光红移估测,得到测光红移值,再结合D中的真实红
移值计算每一个样本的 值,对于 小于maxdz的测试样本,
认为它的估测准确度较高,从而认为它的估测来源有较
高的可信度,因此将它的最近邻居加入到样本集E中;
 反过来,将D作为训练集,C作为测试集,再做一次上述
步骤中的操作,即用最近邻居算法对C进行测光红移估测,
得估测到测光红移值,再结合C 中的真实红移值计算每
一个样本的 值,对于 小于maxdz的测试样本,将它的最
近邻居加入到样本集E中;
 去掉样本集E中的重复样本后得到样本集E’;
优化训练集
 SDSS多次随机独立重复实验:
10万多个样本的2/3training 1/3test
采用5Mag作为特征向量
阈值maxDis取为0.06
训练集缩小到约为原来的约50%
KNN+SVM
 用 KNN 算 法 估 测 类 星 体 的 测 光 红 移 时 , 将 出 现
catastrophic failure现象(k=1)
KNN+SVM
 KNN+SVM算法思路
KNN+SVM
 KNN+SVM算法处理后半边效果
决策树与多维测光红移估测
 多个巡天望远镜都提供了测光信息,如何将这些信息组
合起来更为准确地估算测光红移?
 交叉证认:
有效
RMSE(SDSS)=0.259
RMSE(SDSS_UKIDSS_WISE)=0.099
但交叉数据量锐减
SDSS:105783
SDSS_UKIDSS_WISE: 24089
决策树与多维测光红移估测
 多个巡天望远镜都提供了测光信息,如何将这些信息组
合起来更为准确地估算测光红移?
 可控精度下的条件适用:
Test
SDSS
UKIDSS WISE
SDSS_UKIDSS
SDSS_WISE
SDSS_UKIDSS_WISE
UKIDSS_WISE
决策树与多维测光红移估测
 多个巡天望远镜都提供了测光信息,如何将这些信息组
合起来更为准确地估算测光红移?
 可控精度下的条件适用:决策树分析
以SDSS为例:
1. IF: Cug<=0.265 & Cri<=-0.06 &r<=19.9
Then: 85%概率下测光红移估算绝对误差<0.099
2. IF: Cug<=0.265 & Cri<=-0.123 &r>19.9&r<=20.2
Then: 85%概率下测光红移估算绝对误差<0.099
3. IF: Cug<=-0.159 & Cri>-0.06 &Ciz<=0.055&Cgr<=0.627
Then: 89%概率下测光红移估算绝对误差<0.099
……