2常用统计方法概述

Download Report

Transcript 2常用统计方法概述

数学建模常用统计方法介绍
吕 佳
延安大学
数学与计算机科学学院
数学建模需要的随机数学知识:
 概率论(probability
theory)
 数理统计(mathematical statistics)
 随机过程(stochastics processes)
 回归分析(regression analysis)
 多元统计分析(multivariate statistical analysis)
 时间序列分析(time series analysis)
 随机运筹学( stochastics operation research)
数学建模常用的随机数学方法:
 概率基础方法(分布,数字特征等)
 随机模拟法(蒙特卡洛方法,MCM)
 统计基础方法(统计描述,统计推断等)
 回归分析法
 方差分析方法
 聚类分析方法
 判别分析方法
 主成分分析方法
数学建模常用的随机数学方法:
马尔可夫(MARKOV)过程方法
 时间序列分析方法
 排队论方法
 存储论方法
 决策论方法

随机数学建模常用软件
 Excel
 SAS
MATLAB
 SPSS
R
 C++
Matlab :
1. Matlab 主包:数百个核心内部函数;
2. 各种可选Toolbox”工具包”.下面简介统计工具
箱(statistics toolbox):
(1) Probability distributions(概率分
布):分布,参数估计,随机数等;
(2)Descriptive statistics(描述统计):
样本的各种描述统计量;
(3)Linear models (线性模型):线性
回归分析,方差分析;
(4) Nonlinear models(非线性模型):
非线性回归,Logistic回归;
(5) Hypothesis test(假设检验):参
数非参数检验,分布检验;
(6) Multivariate statistics(多元统
计):聚类分析,判别分析,主成分分析,因
子分析等;
(7)Statistics plots(统计图):各类统
计图形;
(8) Statistical process control(统计
过程控制):
(9) Design of experiments(试验设
计):
(10) Hidden markov models(隐马尔
可夫模型):
统计方法(回归分析)
回归分析—对具有相关关系的现象,根据其关系形态,选择
一个合适的数学模型,用来近似地表示变量间的平均变化关
系的一种统计方法 (一元线性回归、多元线性回归、非线性
回归)
 回归分析在一组数据的基础上研究这样几个问题:
 建立因变量与自变量之间的回归模型(经验公式)
 对回归模型的可信度进行检验
 判断每个自变量对因变量的影响是否显著
 判断回归模型是否适合这组数据
 利用回归模型对进行预报或控制
 [b, bint,r,rint,stats]=regress(Y,X,alpha) (线性回归)
 rstool(x,y,’model’, alpha)(多元二项式回归)
 [beta,r,J]=nlinfit(x,y,’model’, beta0)(非线性回归)

统计方法(逐步回归分析)

逐步回归分析—从一个自变量开始,视自变量
作用的显著程度,从大到小依次逐个引入回归
方程
 当引入的自变量由于后面变量的引入而变得不显著
时,要将其剔除掉
 引入一个自变量或从回归方程中剔除一个自变量,
为逐步回归的一步
 对于每一步都要进行检验,以确保每次引入新的显
著性变量前回归方程中只包含作用显著的变量
 这个过程反复进行,直至既无不显著的变量从回归
方程中剔除,又无显著变量可引入回归方程时为止

stepwise(x,y,inmodel,alpha)
 SPSS,SAS
统计方法(聚类分析)
 聚类分析—所研究的样本或者变量之间存
在程度不同的相似性,要求设法找出一些
能够度量它们之间相似程度的统计量作为
分类的依据,再利用这些量将样本或者变
量进行分类
 系统聚类分析—将n个样本或者n个指标看
成n类,一类包括一个样本或者指标,然
后将性质最接近的两类合并成为一个新类,
依此类推。最终可以按照需要来决定分多
少类,每类有多少样本(指标)
统计方法(系统聚类分析步骤)
系统聚类方法步骤:
1. 计算n个样本两两之间的距离
2. 构成n个类,每类只包含一个样品
3. 合并距离最近的两类为一个新类
4. 计算新类与当前各类的距离(新类与当
前类的距离等于当前类与组合类中包含
的类的距离最小值),若类的个数等于
1,转5,否则转3
5. 画聚类图
6. 决定类的个数和类。
聚类分析
系统聚类法是聚类分析中应用最为广泛
的一种方法,它的基本原理是:首先将
一定数量的样品或指标各自看成一类,
然后根据样品(或指标)的亲疏程度,
将亲疏程度最高的两类进行合并。然后
考虑合并后的类与其他类之间的亲疏程
度,再进行合并。重复这一过程,直至
将所有的样品(或指标)合并为一类。
系统聚类分析用到的函数
函 数
pdist
squareform
功
能
计算观测量两两之间的距离
将距离矩阵从上三角形式转换为方形
形式,或从方形形式转换为上三角形
式
linkage
创建系统聚类树
dendrogram 输出冰柱图
cophenet
计算Cophenetic相关系数
cluster
根据linkage函数的输出创建分类
clusterdata 根据数据创建分类
inconsistent 计算聚类树的不连续系数
统计方法(判别分析)
判别分析—在已知研究对象分成若干类型,并已取
得各种类型的一批已知样品的观测数据,在此基础
上根据某些准则建立判别式,然后对未知类型的样
品进行判别分类。
 距离判别法—首先根据已知分类的数据,分别计算
各类的重心,计算新个体到每类的距离,确定最短
的距离(欧氏距离、马氏距离)
 Fisher判别法—利用已知类别个体的指标构造判别
式(同类差别较小、不同类差别较大),按照判别
式的值判断新个体的类别
 Bayes判别法—计算新给样品属于各总体的条件概率,
比较概率的大小,然后将新样品判归为来自概率最
大的总体

判别分析
判别分析是利用原有的分类信息,得到体
现这种分类的函数关系式(称之为判别
函数,一般是与分类相关的若干个指标
的线性关系式),然后利用该函数去判
断未知样品属于哪一类。
对于给定的数据,用classify函数进行线性
判别分析,用mahal函数计算马氏距离。
判别分析

判别分析(Discriminatory Analysis)的任
务是根据已掌握的1批分类明确的样品,
建立较好的判别函数,使产生错判的事
例最少,进而对给定的1个新样品,判断
它来自哪个总体。
因子分析
因子分析是一种降维方法。需要用模型解释
数据内部的相关性时,使用因子分析法进行
分析。
MATLAB中,用factoran函数进行因子分析。
 最近邻法
线性插值
三次插值
 用interpn函数进行更高维数据的插值,同样
有最近邻插值、线性插值和三次插值三种方
法。