Transcript Document
数据处理
丛培盛
2009.10
识别问题
针对问题—选择合适的工具
化学分析体系分类—识别问题
化学分析数据类型
选择合适的算法
经典案例
白色体系
灰色体系
黑色体系
混合物中有我们感兴趣的物质
混合物中的物种和量都是未知的
混合物中的所有的物种均已知
也有未知的干扰物
解
析
目
的
测定混合物中每种物质的量
测定感兴趣的物质的量
混合物中每种物质的定性和定量
化学分析体系分类
化学分析数据类型
选择合适的算法
经典案例
0.9
7.00E-01
0.8
6.00E-01
0.7
5.00E-01
0.6
系列1
系列2
系列3
0.5
0.4
0.3
系列1
4.00E-01
系列2
3.00E-01
系列3
光谱
309
298
287
276
265
254
243
232
221
210
199
188
177
166
155
144
133
100
500
490
480
470
460
450
440
430
420
410
400
390
380
370
360
350
340
330
0.00E+00
320
0
310
1.00E-01
300
0.1
122
0.2
111
2.00E-01
色谱
信号强度/Mcounts
0.30
0.25
0.20
0.15
OV型数据
0.10
0.05
0.00
0
2
4
6
保留时间/min
质谱
8
10
特点: 每一个样品就产生一行数据
数据示例
发射
荧光激发--发射
4.00E-01
3.50E-01
3.00E-01
2.50E-01
2.00E-01
1.50E-01
1.00E-01
5.00E-02
0.00E+00
190
163
136
S151
S76
109
1
28
55
82
色谱--光谱
光谱
S1
0.35-0.4激发
0.3-0.35
0.25-0.3
0.2-0.25
0.15-0.2
0.1-0.15
0.05-0.1
0-0.05
色谱
特点: 每一个样品就产生一个n行m列的数据矩阵
一般称为 VV数据或两维数据;
如果有多个样本,将组成一个三维矩阵
GC * GC --TOF * GC --TOF 一个样品就是三维
数据示例
白色体系
灰色体系
黑色体系
VV型数据
灰色定量:至少2个样本
OV型数据
黑色定性:一个样本,但需要一些
先验知识。
黑色定量 :在定性的基础上, 至少再
需要另一个标准样本
化学分析体系分类
化学分析数据类型
选择合适的算法
经典案例
白色体系
OV型数据
◎多元校正问题
MLR, PCR, PLS, KPLS, GA-PLS
◎模式识别问题
PCA, FCM, KNN, KMC, HMC, Fisher,
CPF, AKMC,ANN
◎灰色体系解析方法
CBBL, GRA, EFA
灰色-黑色体系
VV型数据
◎黑色体系解析方法
ITTFA, ATLD(交替三线性分解)
AATLD(交替不对称三线性分解)
APTLD(交替惩罚三线性分解)
APTLDS(交替惩罚三线性分解)
具体算法详
见网站介绍
SWATLD(自加权交替三线性分解)
PARAFAC(平行因子分析)
白色体系
OV型数据 -- 多元校准或模式识别
PCR PLS KPLS(非线性时) 神经网络 PCA
灰色体系
VV型数据(或两维数据)—GRA EFA CBBL
黑色体系
VV数据或三维数据 —PRAFA、TLD方法
地址 http://chemcenter.tongji.edu.cn/bbs
在其中找“化学计量学网络计算”版块
找到算法平台地址,注册一个帐号
或者登录
首页
研究系统
工作界面
◎注册用户
◎进入系统后,选择导入数据
◎选择“我研究的系统”,选择”新增”
◎注意数据的排列方式,一行一个样本,
◎建立系统时,选择数据类型(OV型或者VV型)
还是一列一个样本?
◎建立系统后,选择“我研究的系统”,新建
◎导入完毕后,刷新系统,看到系统的数据
的系统将显示,选择对应行的“开始计算”
◎选择合适的方法进行计算,保存和查看结果
化学分析体系分类
化学分析数据类型
选择合适的算法
经典案例
光谱法测定色素混合物含量
案例位置:计量学算法网站——经典案例
案例内容:用合适的算法对日落黄、柠檬黄、
胭脂红混合物多元校正解析
属于白色体系、OV型数据、多元校正问题
实验获得的数据为不同波长下的吸光度,
数据格式
用于分析的数据表的格式为一行一个样本,
一列表示一个测量通道下的测量值
方法选择
PCR?
PLS?
MLR?
小麦质量鉴别
案例位置:计量学算法网站——经典案例
案例内容:用合适的算法对小麦的一些物理
参数进行解析,实现对小麦品质
(好/坏)的初步分类
属于白色体系、OV型数据、模式识别问题
数据准备
OV型数据,一行一个样本,一列为一
个测量物理量
本例中:用人工将小麦分成2类。
用1代表品质好的小麦,-1代表品质差的小麦。
目标:尝试建立这24个特征和小麦分类的关系。
方法选择
PCA
ANN
HCM
PCA结果
ANN结果
数据无预处理
数据经过预处理
二维数据处理
案例位置:计量学算法网站——经典案例
案例内容:迭代目标转换因子分析ITTFA解析
内分泌干扰物邻苯二甲酸二甲酯
(DMP)的水解动力学过程
实验获得的数据如下图所示:
数据格式
◎该数据是二维数据,由仪器获得的吸光度值
◎水平方向表示某时刻下的光谱
◎垂直方向表示某波长下吸光度的变化值
实验测量数据
色谱时间间隔
方法选择
光谱波长间隔
ITTFA
左上角的图形,
是体系水解的各
组分的分布曲线,
右图是对应的光
谱吸收曲线。下
面窗口里的数据,
是对应的谱图数
据。
多元校正(multivariate calibration):
利用测得的多变量信息对混合物体系进行浓度预测的一
建模
预报
种化学计量学方法。
样品测量值
定量关系
样品浓度
样品浓度
已
知
样
品
建模
预报
样品测量值
未知样品
未知样浓度
◎与MLR 类似,解决的是 y=f(x) 类
◎可以与PCR解决相同的问题
型的建模问题。即,其求解的
不同在于,PLS 不借助于直
MLR:多元线性回归 ◎与PCR
通过遗传算法进行优化,
◎是在PLS 算法的基础上,通过所谓的核函数来扩展
是 Y = XC方程的解,系数矩阵C。
接分解X矩阵求解,而是同时对X和Y
使该方法适合于实际控
PCR:
主成分回归
的PLS 算法,根据选择的核函数的不同,可以适合
矩阵进行分解,使得求取出的C矩阵
◎利用误差最小的原理,求解
y=f(x)类型的建模问题
制中变量的选择问题。
于解决不同类型的问题。
◎PCR适合于变量数大于样本数的系
充分保留了X和Y的信息
PLS:偏最小二乘法
统的建模分析,通过提取量测矩阵中
◎在试验误差范围内,PCR 和
◎MLR 算法适合于解决X矩阵的行数大于等于列数的问
KPLS:核偏最小二乘法
的有效主成分(也就是对仪器采样波
PLS
的结果没有什么差别。
题,而且,X矩阵中的行不能线性相关。即某一行不能
段有响应的物质数),有效的降低噪
噪声比较大的体系中,PLS
的结果要
乘以某常数后得到另一行。
GA-PLS:遗传算法-偏最小二乘法
声的影响,而达到充分利用仪器提供
稍微优于PCR
的结果。
的信息,精确的解决多元校正问题。
PCA:主成分分析
KNN 适合于2类分类问题,其基本
系统聚类法基本思想是:将待分类
无监督的聚类分析 方法,属
◎化学计量学方法的基石
原理是:先得到N个已知的样本,
的n个样本各自看作一类,然后计
于多元数据分析方法的一种,
将其视为先验知识。计算时,用户
算所有的类和类间的距离,选择其
FCM:模糊C均值聚类 ◎典型的非监督的模式识别方法
针对给定的样本集合,尽量
先决定一个整数常数K。对于任何
中的距离最小的2个类合并成一个类,
◎PCA
的实现有2种方法,一种
ANN:人工神经网络
一个待分类的样本,先计算它与N
而取代原来的2个类。这样系统中的
使同类的样本分在一个类别
是特征值分解,另一种是
个已知样本的距离,从中找出距离
类别数就减少了一个类。如此循环
KNN:K-最邻近法
中,而把不同类的样本分到
NIPALS算法
最小的K个样本,然后按公式计算
进行,直到所有的类合并为一个类
其他类别里。
HMC:系统聚类法
更多算法参见网站的算法介绍
得分值,根据得分进行分类
为止。
模式识别(PatternRecognition):
◎是人类的一项基本智能
通过对已知样本数据的处理与分类,
◎模式识别是指对表征事物或现象的各种形式的(数值的、文字
判别出未知样本是否属于已知样品,
的和逻辑关系的)信息进行处理和分析,以对事物或现象进行
以及未知样品属于已知样品中的哪一类
描述、辨认、分类和解释的过程
建模
预报
◎分析对象中最常见的体系
◎不能使用白色体系方法
◎必须使用双线性VV型的数据
例如一杯有颜色的饮料,里面已知有糖分、食用色素等,
灰色体系中的干扰物对分析会造成影响
双线性VV型数据的特性可以使灰色体系使用
其他的成分未知;又或者现在环境监测中,经常知道污染
灰色体系的VV型数据不适用于白色体系的建模方法
源是什么,对造成污染的物质种类有所了解,但其他一些
减秩法、残差法等解析问题
污染源的存在可能是未知的。
判断出系统包括三个主成分
预报出的自身结果与实验预设的浓度
相对误差很小