Transcript 2常用统计方法概述
数学建模常用统计方法介绍
吕 佳
延安大学
数学与计算机科学学院
数学建模需要的随机数学知识:
概率论(probability
theory)
数理统计(mathematical statistics)
随机过程(stochastics processes)
回归分析(regression analysis)
多元统计分析(multivariate statistical analysis)
时间序列分析(time series analysis)
随机运筹学( stochastics operation research)
数学建模常用的随机数学方法:
概率基础方法(分布,数字特征等)
随机模拟法(蒙特卡洛方法,MCM)
统计基础方法(统计描述,统计推断等)
回归分析法
方差分析方法
聚类分析方法
判别分析方法
主成分分析方法
数学建模常用的随机数学方法:
马尔可夫(MARKOV)过程方法
时间序列分析方法
排队论方法
存储论方法
决策论方法
随机数学建模常用软件
Excel
SAS
MATLAB
SPSS
R
C++
Matlab :
1. Matlab 主包:数百个核心内部函数;
2. 各种可选Toolbox”工具包”.下面简介统计工具
箱(statistics toolbox):
(1) Probability distributions(概率分
布):分布,参数估计,随机数等;
(2)Descriptive statistics(描述统计):
样本的各种描述统计量;
(3)Linear models (线性模型):线性
回归分析,方差分析;
(4) Nonlinear models(非线性模型):
非线性回归,Logistic回归;
(5) Hypothesis test(假设检验):参
数非参数检验,分布检验;
(6) Multivariate statistics(多元统
计):聚类分析,判别分析,主成分分析,因
子分析等;
(7)Statistics plots(统计图):各类统
计图形;
(8) Statistical process control(统计
过程控制):
(9) Design of experiments(试验设
计):
(10) Hidden markov models(隐马尔
可夫模型):
统计方法(回归分析)
回归分析—对具有相关关系的现象,根据其关系形态,选择
一个合适的数学模型,用来近似地表示变量间的平均变化关
系的一种统计方法 (一元线性回归、多元线性回归、非线性
回归)
回归分析在一组数据的基础上研究这样几个问题:
建立因变量与自变量之间的回归模型(经验公式)
对回归模型的可信度进行检验
判断每个自变量对因变量的影响是否显著
判断回归模型是否适合这组数据
利用回归模型对进行预报或控制
[b, bint,r,rint,stats]=regress(Y,X,alpha) (线性回归)
rstool(x,y,’model’, alpha)(多元二项式回归)
[beta,r,J]=nlinfit(x,y,’model’, beta0)(非线性回归)
统计方法(逐步回归分析)
逐步回归分析—从一个自变量开始,视自变量
作用的显著程度,从大到小依次逐个引入回归
方程
当引入的自变量由于后面变量的引入而变得不显著
时,要将其剔除掉
引入一个自变量或从回归方程中剔除一个自变量,
为逐步回归的一步
对于每一步都要进行检验,以确保每次引入新的显
著性变量前回归方程中只包含作用显著的变量
这个过程反复进行,直至既无不显著的变量从回归
方程中剔除,又无显著变量可引入回归方程时为止
stepwise(x,y,inmodel,alpha)
SPSS,SAS
统计方法(聚类分析)
聚类分析—所研究的样本或者变量之间存
在程度不同的相似性,要求设法找出一些
能够度量它们之间相似程度的统计量作为
分类的依据,再利用这些量将样本或者变
量进行分类
系统聚类分析—将n个样本或者n个指标看
成n类,一类包括一个样本或者指标,然
后将性质最接近的两类合并成为一个新类,
依此类推。最终可以按照需要来决定分多
少类,每类有多少样本(指标)
统计方法(系统聚类分析步骤)
系统聚类方法步骤:
1. 计算n个样本两两之间的距离
2. 构成n个类,每类只包含一个样品
3. 合并距离最近的两类为一个新类
4. 计算新类与当前各类的距离(新类与当
前类的距离等于当前类与组合类中包含
的类的距离最小值),若类的个数等于
1,转5,否则转3
5. 画聚类图
6. 决定类的个数和类。
聚类分析
系统聚类法是聚类分析中应用最为广泛
的一种方法,它的基本原理是:首先将
一定数量的样品或指标各自看成一类,
然后根据样品(或指标)的亲疏程度,
将亲疏程度最高的两类进行合并。然后
考虑合并后的类与其他类之间的亲疏程
度,再进行合并。重复这一过程,直至
将所有的样品(或指标)合并为一类。
系统聚类分析用到的函数
函 数
pdist
squareform
功
能
计算观测量两两之间的距离
将距离矩阵从上三角形式转换为方形
形式,或从方形形式转换为上三角形
式
linkage
创建系统聚类树
dendrogram 输出冰柱图
cophenet
计算Cophenetic相关系数
cluster
根据linkage函数的输出创建分类
clusterdata 根据数据创建分类
inconsistent 计算聚类树的不连续系数
统计方法(判别分析)
判别分析—在已知研究对象分成若干类型,并已取
得各种类型的一批已知样品的观测数据,在此基础
上根据某些准则建立判别式,然后对未知类型的样
品进行判别分类。
距离判别法—首先根据已知分类的数据,分别计算
各类的重心,计算新个体到每类的距离,确定最短
的距离(欧氏距离、马氏距离)
Fisher判别法—利用已知类别个体的指标构造判别
式(同类差别较小、不同类差别较大),按照判别
式的值判断新个体的类别
Bayes判别法—计算新给样品属于各总体的条件概率,
比较概率的大小,然后将新样品判归为来自概率最
大的总体
判别分析
判别分析是利用原有的分类信息,得到体
现这种分类的函数关系式(称之为判别
函数,一般是与分类相关的若干个指标
的线性关系式),然后利用该函数去判
断未知样品属于哪一类。
对于给定的数据,用classify函数进行线性
判别分析,用mahal函数计算马氏距离。
判别分析
判别分析(Discriminatory Analysis)的任
务是根据已掌握的1批分类明确的样品,
建立较好的判别函数,使产生错判的事
例最少,进而对给定的1个新样品,判断
它来自哪个总体。
因子分析
因子分析是一种降维方法。需要用模型解释
数据内部的相关性时,使用因子分析法进行
分析。
MATLAB中,用factoran函数进行因子分析。
最近邻法
线性插值
三次插值
用interpn函数进行更高维数据的插值,同样
有最近邻插值、线性插值和三次插值三种方
法。