韩波，武汉大学

Transcript 韩波，武汉大学

测光红移估测中的数据挖掘技术和
大数据应用
韩
波
武汉大学
国际软件学院
大纲
1
大数据时代的测光红移估测背景
2
动态KNN
3
4
5
优化训练集
KNN预测与SVM分类的结合
决策树与多维测光红移估测
背景
 多个大型巡天望远镜获得了海量的测光数据，如SDSS，
WISE，UKIRT等
 在海量数据的基础上，KNN取得了比其他高级数据挖掘
方法 (RBF network, SVM, linear regression, MLP,
REPTree 等)更准确的测光红移估测
数据越海量、丰富，模型越简单
 类星体的测光红移估测中存在catastrophic failure问题
 多源数据融合能提高类星体测光红移估测精度，但不是
容括所有多源数据属性就可以产生最准确的估测
动态KNN
 KNN描述及图
 KNN算法中不同的K值对估测结果有着巨大的影响，一般
的做法是枚举各个值以寻找最佳的K值，即每次K确定后
就不再发生变化。
动态KNN
 一般来说某一测试样本的距离小于某一值的最近邻居的
数目是不一样的，这里将与测试样本的距离小于某一阈
值的最近邻居称为真实邻居，于是如果固定K为某一个值，
就可能会出现测试样本的真实邻居数目小于K的情况，这
种情况下K个最近邻居中就有些与估测样本的距离相差较
大的样本，这些可以称为假邻居。这些假邻居在逻辑上
是会影响KNN算法对某些样本的估测精度的。
 因此我们将进行K值动态变化的尝试，即不再选取固定K
个最近邻节点作为邻居，而选取距离小于某一值D的节点
作为邻居，以符合条件的邻居数作为K值。
动态KNN
 SDSS多次随机独立重复实验:
10万多个样本的2/3training 1/3test
采用4C+r作为特征向量
阈值maxDis取为0.09
优化训练集
 当训练集跟测试集都比较庞大时，KNN算法将需要巨大
的内存与计算量，因此我们将尝试优化缩小训练集，以
减少占用，同时也降低计算量，并在精度上也有一定的
提高。
优化训练集
步骤：
 创建一个空的样本集E，选定一个阈值maxdz；
 将C作为训练集，D作为测试集，用最近邻居算法对D进
行测光红移估测，得到测光红移值，再结合D中的真实红
移值计算每一个样本的值，对于小于maxdz的测试样本，
认为它的估测准确度较高，从而认为它的估测来源有较
高的可信度，因此将它的最近邻居加入到样本集E中；
 反过来，将D作为训练集，C作为测试集，再做一次上述
步骤中的操作，即用最近邻居算法对C进行测光红移估测，
得估测到测光红移值，再结合C 中的真实红移值计算每
一个样本的值，对于小于maxdz的测试样本，将它的最
近邻居加入到样本集E中；
 去掉样本集E中的重复样本后得到样本集E’；
优化训练集
 SDSS多次随机独立重复实验:
10万多个样本的2/3training 1/3test
采用5Mag作为特征向量
阈值maxDis取为0.06
训练集缩小到约为原来的约50%
KNN+SVM
 用 KNN 算法估测类星体的测光红移时，将出现
catastrophic failure现象(k=1)
KNN+SVM
 KNN+SVM算法思路
KNN+SVM
 KNN+SVM算法处理后半边效果
决策树与多维测光红移估测
 多个巡天望远镜都提供了测光信息，如何将这些信息组
合起来更为准确地估算测光红移？
 交叉证认：
有效
RMSE(SDSS)=0.259
RMSE(SDSS_UKIDSS_WISE)=0.099
但交叉数据量锐减
SDSS:105783
SDSS_UKIDSS_WISE: 24089
决策树与多维测光红移估测
 多个巡天望远镜都提供了测光信息，如何将这些信息组
合起来更为准确地估算测光红移？
 可控精度下的条件适用：
Test
SDSS
UKIDSS WISE
SDSS_UKIDSS
SDSS_WISE
SDSS_UKIDSS_WISE
UKIDSS_WISE
决策树与多维测光红移估测
 多个巡天望远镜都提供了测光信息，如何将这些信息组
合起来更为准确地估算测光红移？
 可控精度下的条件适用：决策树分析
以SDSS为例：
1. IF: Cug<=0.265 & Cri<=-0.06 &r<=19.9
Then: 85%概率下测光红移估算绝对误差<0.099
2. IF: Cug<=0.265 & Cri<=-0.123 &r>19.9&r<=20.2
Then: 85%概率下测光红移估算绝对误差<0.099
3. IF: Cug<=-0.159 & Cri>-0.06 &Ciz<=0.055&Cgr<=0.627
Then: 89%概率下测光红移估算绝对误差<0.099
……

韩波，武汉大学

Transcript 韩波，武汉大学

Directory