描述性统计学 作者 Dr. Maria Correa-Prisant (北北卡罗来纳州立大学兽医学院微生物学、病理学和 寄生虫学系) 翻译 lvruiqin(DXY) 描述性统计学 对所得数据有一个总体“感觉” 评价数据的质量 • • • • 变量的类型 概括性统计学 分布 图形描述 变量的类型 • 连续型:温度、心率等 高斯分布(Gaussian distribution),钟罩形 • 离散变量、分类变量 定序型数据(Ordinal):腹痛的程度、肿瘤大小 定类型数据(Nominal):品种、性别 二项数据(Binominal):是或否、出席或缺席.
Download ReportTranscript 描述性统计学 作者 Dr. Maria Correa-Prisant (北北卡罗来纳州立大学兽医学院微生物学、病理学和 寄生虫学系) 翻译 lvruiqin(DXY) 描述性统计学 对所得数据有一个总体“感觉” 评价数据的质量 • • • • 变量的类型 概括性统计学 分布 图形描述 变量的类型 • 连续型:温度、心率等 高斯分布(Gaussian distribution),钟罩形 • 离散变量、分类变量 定序型数据(Ordinal):腹痛的程度、肿瘤大小 定类型数据(Nominal):品种、性别 二项数据(Binominal):是或否、出席或缺席.
描述性统计学 作者 Dr. Maria Correa-Prisant (北北卡罗来纳州立大学兽医学院微生物学、病理学和 寄生虫学系) 翻译 lvruiqin(DXY) 描述性统计学 对所得数据有一个总体“感觉” 评价数据的质量 • • • • 变量的类型 概括性统计学 分布 图形描述 变量的类型 • 连续型:温度、心率等 高斯分布(Gaussian distribution),钟罩形 • 离散变量、分类变量 定序型数据(Ordinal):腹痛的程度、肿瘤大小 定类型数据(Nominal):品种、性别 二项数据(Binominal):是或否、出席或缺席 正态和偏态分布 尾部(tail) 对称 偏向左侧 均值、众数、中位数 众数、中位数 单峰 单峰 双峰 变量或分布的类型决定了 所使用的统计方法 连续型 定序型 使用非参数 检验 使用连续型变量的 检验 定义新的变量 或者进行转变 集中趋势和离散 • 集中趋势的测度 均值(Mean)、中位数(Median)、众数 (Mode) • 离散程度的测度 标准差(Standard deviation)、百分位数 (percentiles) 集中趋势的测度:均值(Mean) 均值(Mean):对于连续型数据而言 此处,X1,X2,…,Xn是独立 的值并且N是测量的总数。 均值、中位数、众数 • 呼吸频率 甲组=(11,12,13,14,15) ;均值=13 乙组=(11,12,13,13,14,25);均值=15 • 均值为极端值所影响 中位数是13: 分割数据成50:50的值(数据按升序 或降序排列) 众数是13:出现最多的数 集中趋势的测度 离散程度的测度 • 标准差(Standard deviation) 1sd,2sd,3sd • 百分位数(Percentiles) 25,50,75,90,95 • 极差(Range) 最大值-最小值 标准差 方差 百分位数 四分之一分位数=25% 四分之二分位数=50% 70%下侧 30%上侧 第70个百分位数值 白细胞计数 茎叶图(Stem Leaf) 大猩猩属(Gorilla gorilla ) N:29个大猩猩 平均白细胞数:10.3 SD 5.02 中位数:8.3 大猩猩属 淋巴细胞 佛罗里达海牛(Florida Manatee) 单核细胞 总蛋白质 重量 均值的置信区间(Confidence Interval for the Mean) 置信区间 更多样本 分类数据 • 肿瘤大小 小,中,大 1, 2, 3 甲组:1,1,2,2,2,2,2,3 乙组:1,2,2,3,3,3,3,3 均值=NO! 中位数=YES! 众数=YES! 同时, 频数 比例 直方图 交叉列联表和图表说明 比例:肿瘤大小为1,甲组中占2/3 频数表 组别 肿瘤大小 甲 乙 每个细胞观察到的数目 联系 • 联系并不意味着因果关系 • 因果关系是联系的一种特殊形式 – 标准包括力度、短暂性、生物梯度、一致性等 • 联系的检验——定义假设 – 零假设——想要拒绝的 – 备择假设