Transcript lecture2

数据分析与预处理
林琛
博士,副教授
数据挖掘系统处理的数据
• 效率:
• 存储效率
• 处理速度
• 效果
• 保留有用信息
数据表达
• 数据集=数据对象的集合
乳腺癌分类数据特征
1. Sample code number
2. Clump Thickness
3. Uniformity of Cell Size
4. Uniformity of Cell Shape
5. Marginal Adhesion
6. Single Epithelial Cell Size
7. Bare Nuclei
8. Bland Chromatin
9. Normal Nucleoli
10. Mitoses
– 对象=实例=样本=记录=点=样例=实体
– Object=instance=sample=record=point=case=entity
• 数据对象=特征集合
– 每一个特征刻画一个对象一方面的特性
– 特征=属性=域=变量=特性
– Feature=attribute=field=variable=characteristic
• 一般数据挖掘算法针对记录型数据和数据矩阵
记录型数据
• 关系数据库
– 表,元组,属性
复杂数据的矩阵表达
Trend
Node1
特征1
纯文本
seven
Node2
特征2
Doc1
Node1
样本1
图
Doc2
Node2
样本2
Doc3
Node3
样本3
其他
Doc4
Node4
样本4
Doc5
Node5
样本5
…
DocN
NodN
样本N
特征值的取法
二元的:出现/不出现 0/1
数值的:权重tfidf,strength…
oil
Node3
特征3
…
…
termM
NodeM
特征n
课堂小quiz:有序数据
AB
AC
AD
BC
BD
BE
Pair-wise
Action
Write
…
A
B
D
…
C
ADJMHGIKLBCD
ACDIFELMBGUHK
LogOut Click
ABCDEFGHIJKLMN
LogIN
数据挖掘的基本流程
数据
数据 挖掘
预处
数据 理
获取
模式
评估
用户
界面
为什么我们需要数据预处理
现实数据
• 不完整(incomplete)
• 有噪声(noisy)
• 多源(multi-source)
数据预处理(Data Pre-processing)
001
铅笔
10
红
文具
002
彩笔
8
黄
食品
•
•
•
•
•
重量
1.5 •
1.2 •
003
饼干
3
食品
14 货物
– 异构异质,不一致
仓库K001
(inconsistent)
货物
品名 长度 颜色 类别
• 冗余(redundant)
填补缺失值
光滑噪声
数据清理
纠正不一致
数据集成
融合多源数据
采样
数据规约
特征选择
数据变换
规范化 仓库K002
品名
长度
颜色
类别
重量
002
钢笔
11
蓝
文具
2.1
005
本子
15
红
文具
1.7
本讲要点
•
•
•
•
•
数据分析
填补缺失值
光滑噪声
抽样
特征选择(简略)
数据分析
• 数据挖掘任务开始之前探索数据
– 获得数据的总体印象
• 了解数据带来的挑战
• 指导数据预处理中的多个步骤
• 数据挖掘任务之后的评价
– 结果的真实含义
– 数据可视化
课堂小quiz1:以上4种分布,如何选择一个合适的度量描述位置
描述数据集总体某个特征的中心趋
势/位置
• 均值Mean
• 中位数Medium
• 众数Mode
– 离散 :出现最多的值
– 连续:直方图峰的中点
课堂小quiz2:以均值为基础,设计一种测度,能够综合均值和中位数的优点?
课堂小quiz:以上4种分布,如何选择一个合适的度量描述范围
描述数据集总体某个特征的范围
• 方差Variance
• 标准差standard deviation
• 极差Range
s=Ymax-Ymin
• 四分位数极差interquartile range
s=Y75%-Y25%
• 平均绝对偏差average absolute deviation
• 中位数绝对偏差median absolute deviation
描述数据集总体某个特征(其他)
• 倾斜度(Skewness)
• 峰度(Kurtosis )
特征值的种类
• 特征值的种类根据特征值是否满足以下特性来分类
–
–
–
–
相异性: = ≠
有序性: < >
可加性: + 可乘性: * /
• 标称(Nominal),满足相异性
课堂小quiz:
请指出下列特征的类别:
颜色,绩点,邮政编码,次数,温度
– 例子:身份证号
• 序数(Ordinal),满足相异性,有序性
– 例子:门牌号
• 区间(Interval),满足相异性,有序性,可加性
– 例子:日期
• 比率(Ratio),满足全部
– 例子:长度
总结
中心趋势(location)
扩散范围(scale)
• 均值
• 方差
– 区间/比率
• 中位数
– 序数
– 重尾
• 截尾均值
– 区间/比率
– 倾斜
– 重尾
• 众数
– 标称
– 单峰
– 区间/比率
• 标准差
– 区间/比率
– 正态
– 截尾
• 极差
– 区间/比率
• 平均绝对偏差
– 区间/比率
• 中位数绝对偏差
– 区间/比率
– 长尾
可视化(visualization)
数据分析+可视化
缺失值(missing data)
• 缺失值产生的原因
– 信息没有被采集到
– 特征不适用于所有样本
• 对待缺失值的方法
– 删除数据样本
– 预测缺失值
• 使用该特征的中心趋势
• 其他方法
– 忽略该缺失值
扩展讨论
时间序列分析中的插值
噪声(noise)
• 噪声产生的原因
– 对原始数据不可预测的篡改
– 集成多源数据时产生的不一致/冗余/错误记录
– 测量误差
• 应对噪声
– 分箱法
– 离群点检测
– 回归
– 其他
分箱法(binning)
• 分箱技术
–
–
–
–
固定宽度
固定深度
分位数
均值和标准差
教职工的年龄:
25,41,45,27,44,35,49,52,36
箱1
箱2
箱3
25,27
35,36,41,44
45,49,52
• 平滑技术
– 均值
– 中位数
• 其他应用
– 离散化
49,49,49
26,26
箱1
箱2
箱3
25,27,35
36,41,44
45,49,52
箱1
箱2
箱3
箱4
25,27
33,36,41,
44,45
49,52
箱1
箱2
箱3
25
27,33,36,41,44,45
49,52
冗余
列可伸缩性
维度
特征1
特征2
特征3
…
…
特征n
样本1
样本2
样本3
样本4
样本5
行可伸缩性
…
样本N
数据量
抽样(sampling)
• 原则
– 用小得多的样本集替代整个数据集
– 具有代表性的样本,能够近似表达原始数据
• 策略
– 随机抽样
• 无放回
• 有放回
– 聚类抽样
– 分层抽样
抽样策略的选择
• 癌症分类问题:50000病例->1000个样本
– 来自于广东、福建、广西、海南等地区
– 其中不到35岁有25人,35岁至49岁的有49380
人,50岁以上的有595人。
• 样本数的选择
– 渐进抽样
降维(Dimension Reduction)
• 特征选择(Feature Selection)
– 删除不相关或冗余的特征
– 针对数据挖掘任务,得到“好的”特征子集
• 我们将在后续的章节中回顾特征选择方法
• 特征抽取 (Feature Extraction)
– 特征变换,得到特征集的一个映射
相关分析检测特征冗余(1)
• 连续
– Pearson product coefficient r A , B
rA , B 

n
i 1
( a i  A )( bi  B )
( n  1) A B

– > 0:正相关
– = 0:独立
– < 0:负相关
– >0且值较高:冗余

n
i 1
( a i bi )  n A B
( n  1) A B
学号
科幻 象棋 网球
相关分析检测特征冗余(2)
00001 是
否
<科幻,象棋>={<是,是>,<是,否>,<否,是>,<否,否>}
• 离散
– 卡方检验 
 
2

2
 Expected )
( Observed
2
Expected
Play chess
Not play chess
Sum (row)
Like science fiction
250(90)
200(360)
450
Not like science fiction
50(210)
1000(840)
1050
Sum(col.)
300
1200
1500
 
2
( 250  90 )
90
2

( 50  210 )
210
2

( 200  360 )
360
2

是
00002
否
否
是
00003
是
否
否
00004
否
否
否
00005
是
是
是
…
…
…
…
Expected  P ( A ) P ( B ) / N
(1000  840 )
840
自由度1x1=1,置信度99.9%,查表,拒绝假设,即两个属性相关
2
 507 . 93