描述性统计学 作者 Dr. Maria Correa-Prisant (北北卡罗来纳州立大学兽医学院微生物学、病理学和 寄生虫学系) 翻译 lvruiqin(DXY) 描述性统计学 对所得数据有一个总体“感觉” 评价数据的质量 • • • • 变量的类型 概括性统计学 分布 图形描述 变量的类型 • 连续型:温度、心率等 高斯分布(Gaussian distribution),钟罩形 • 离散变量、分类变量 定序型数据(Ordinal):腹痛的程度、肿瘤大小 定类型数据(Nominal):品种、性别 二项数据(Binominal):是或否、出席或缺席.
Download
Report
Transcript 描述性统计学 作者 Dr. Maria Correa-Prisant (北北卡罗来纳州立大学兽医学院微生物学、病理学和 寄生虫学系) 翻译 lvruiqin(DXY) 描述性统计学 对所得数据有一个总体“感觉” 评价数据的质量 • • • • 变量的类型 概括性统计学 分布 图形描述 变量的类型 • 连续型:温度、心率等 高斯分布(Gaussian distribution),钟罩形 • 离散变量、分类变量 定序型数据(Ordinal):腹痛的程度、肿瘤大小 定类型数据(Nominal):品种、性别 二项数据(Binominal):是或否、出席或缺席.
描述性统计学
作者 Dr. Maria Correa-Prisant
(北北卡罗来纳州立大学兽医学院微生物学、病理学和
寄生虫学系)
翻译 lvruiqin(DXY)
描述性统计学
对所得数据有一个总体“感觉”
评价数据的质量
•
•
•
•
变量的类型
概括性统计学
分布
图形描述
变量的类型
• 连续型:温度、心率等
高斯分布(Gaussian distribution),钟罩形
• 离散变量、分类变量
定序型数据(Ordinal):腹痛的程度、肿瘤大小
定类型数据(Nominal):品种、性别
二项数据(Binominal):是或否、出席或缺席
正态和偏态分布
尾部(tail)
对称
偏向左侧
均值、众数、中位数
众数、中位数
单峰
单峰
双峰
变量或分布的类型决定了
所使用的统计方法
连续型
定序型
使用非参数
检验
使用连续型变量的
检验
定义新的变量
或者进行转变
集中趋势和离散
• 集中趋势的测度
均值(Mean)、中位数(Median)、众数
(Mode)
• 离散程度的测度
标准差(Standard deviation)、百分位数
(percentiles)
集中趋势的测度:均值(Mean)
均值(Mean):对于连续型数据而言
此处,X1,X2,…,Xn是独立
的值并且N是测量的总数。
均值、中位数、众数
• 呼吸频率
甲组=(11,12,13,14,15) ;均值=13
乙组=(11,12,13,13,14,25);均值=15
• 均值为极端值所影响
中位数是13: 分割数据成50:50的值(数据按升序
或降序排列)
众数是13:出现最多的数
集中趋势的测度
离散程度的测度
• 标准差(Standard deviation)
1sd,2sd,3sd
• 百分位数(Percentiles)
25,50,75,90,95
• 极差(Range)
最大值-最小值
标准差
方差
百分位数
四分之一分位数=25%
四分之二分位数=50%
70%下侧
30%上侧
第70个百分位数值
白细胞计数
茎叶图(Stem Leaf)
大猩猩属(Gorilla gorilla )
N:29个大猩猩
平均白细胞数:10.3 SD 5.02
中位数:8.3
大猩猩属
淋巴细胞
佛罗里达海牛(Florida Manatee)
单核细胞
总蛋白质
重量
均值的置信区间(Confidence
Interval for the Mean)
置信区间
更多样本
分类数据
• 肿瘤大小
小,中,大
1, 2, 3
甲组:1,1,2,2,2,2,2,3
乙组:1,2,2,3,3,3,3,3
均值=NO!
中位数=YES!
众数=YES!
同时,
频数
比例
直方图
交叉列联表和图表说明
比例:肿瘤大小为1,甲组中占2/3
频数表
组别
肿瘤大小
甲
乙
每个细胞观察到的数目
联系
• 联系并不意味着因果关系
• 因果关系是联系的一种特殊形式
– 标准包括力度、短暂性、生物梯度、一致性等
• 联系的检验——定义假设
– 零假设——想要拒绝的
– 备择假设