Transcript 韩波,武汉大学
测光红移估测中的数据挖掘技术和
大数据应用
韩
波
武汉大学
国际软件学院
大纲
1
大数据时代的测光红移估测背景
2
动态KNN
3
4
5
优化训练集
KNN预测与SVM分类的结合
决策树与多维测光红移估测
背景
多个大型巡天望远镜获得了海量的测光数据,如SDSS,
WISE,UKIRT等
在海量数据的基础上,KNN取得了比其他高级数据挖掘
方 法 (RBF network, SVM, linear regression, MLP,
REPTree 等)更准确的测光红移估测
数据越海量、丰富,模型越简单
类星体的测光红移估测中存在catastrophic failure问题
多源数据融合能提高类星体测光红移估测精度,但不是
容括所有多源数据属性就可以产生最准确的估测
动态KNN
KNN描述及图
KNN算法中不同的K值对估测结果有着巨大的影响,一般
的做法是枚举各个值以寻找最佳的K值,即每次K确定后
就不再发生变化。
动态KNN
一般来说某一测试样本的距离小于某一值的最近邻居的
数目是不一样的,这里将与测试样本的距离小于某一阈
值的最近邻居称为真实邻居,于是如果固定K为某一个值,
就可能会出现测试样本的真实邻居数目小于K的情况,这
种情况下K个最近邻居中就有些与估测样本的距离相差较
大的样本,这些可以称为假邻居。这些假邻居在逻辑上
是会影响KNN算法对某些样本的估测精度的。
因此我们将进行K值动态变化的尝试,即不再选取固定K
个最近邻节点作为邻居,而选取距离小于某一值D的节点
作为邻居,以符合条件的邻居数作为K值。
动态KNN
SDSS多次随机独立重复实验:
10万多个样本的2/3training 1/3test
采用4C+r作为特征向量
阈值maxDis取为0.09
优化训练集
当训练集跟测试集都比较庞大时,KNN算法将需要巨大
的内存与计算量,因此我们将尝试优化缩小训练集,以
减少占用,同时也降低计算量,并在精度上也有一定的
提高。
优化训练集
步骤:
创建一个空的样本集E,选定一个阈值maxdz;
将C作为训练集,D作为测试集,用最近邻居算法对D进
行测光红移估测,得到测光红移值,再结合D中的真实红
移值计算每一个样本的 值,对于 小于maxdz的测试样本,
认为它的估测准确度较高,从而认为它的估测来源有较
高的可信度,因此将它的最近邻居加入到样本集E中;
反过来,将D作为训练集,C作为测试集,再做一次上述
步骤中的操作,即用最近邻居算法对C进行测光红移估测,
得估测到测光红移值,再结合C 中的真实红移值计算每
一个样本的 值,对于 小于maxdz的测试样本,将它的最
近邻居加入到样本集E中;
去掉样本集E中的重复样本后得到样本集E’;
优化训练集
SDSS多次随机独立重复实验:
10万多个样本的2/3training 1/3test
采用5Mag作为特征向量
阈值maxDis取为0.06
训练集缩小到约为原来的约50%
KNN+SVM
用 KNN 算 法 估 测 类 星 体 的 测 光 红 移 时 , 将 出 现
catastrophic failure现象(k=1)
KNN+SVM
KNN+SVM算法思路
KNN+SVM
KNN+SVM算法处理后半边效果
决策树与多维测光红移估测
多个巡天望远镜都提供了测光信息,如何将这些信息组
合起来更为准确地估算测光红移?
交叉证认:
有效
RMSE(SDSS)=0.259
RMSE(SDSS_UKIDSS_WISE)=0.099
但交叉数据量锐减
SDSS:105783
SDSS_UKIDSS_WISE: 24089
决策树与多维测光红移估测
多个巡天望远镜都提供了测光信息,如何将这些信息组
合起来更为准确地估算测光红移?
可控精度下的条件适用:
Test
SDSS
UKIDSS WISE
SDSS_UKIDSS
SDSS_WISE
SDSS_UKIDSS_WISE
UKIDSS_WISE
决策树与多维测光红移估测
多个巡天望远镜都提供了测光信息,如何将这些信息组
合起来更为准确地估算测光红移?
可控精度下的条件适用:决策树分析
以SDSS为例:
1. IF: Cug<=0.265 & Cri<=-0.06 &r<=19.9
Then: 85%概率下测光红移估算绝对误差<0.099
2. IF: Cug<=0.265 & Cri<=-0.123 &r>19.9&r<=20.2
Then: 85%概率下测光红移估算绝对误差<0.099
3. IF: Cug<=-0.159 & Cri>-0.06 &Ciz<=0.055&Cgr<=0.627
Then: 89%概率下测光红移估算绝对误差<0.099
……