Transcript lecture1

数据挖掘与知识发现
课程主讲:
林琛(博士、副教授)
实验课:
邹权(博士、副教授)
课程信息
• 时间
– 理论课(林琛老师):周四9-10
– 实验课(邹权老师) :双周周二1-4
• 地点
– 理论课:海韵102
– 实验课:实验楼301,303
• 面向对象
– 大三、大四本科生(7/10学期)
• 教材
– 数据挖掘概念与技术(Jiawei Han)
– 其他最新进展资料
• 资源下载:l.xmu.edu.cn
高层次需求
对数据挖掘感兴趣,希望熟练掌握相关技术,
将来深造或就业从事这方面的工作
普通学生
听说过数据挖掘,希望有更多了解
“糊口型”
学分不够,听说这门课程好过等……
80%
考核方式
• 35%开卷考试+65%实验+加分
• 实验
– 共有3次实验报告(见后)
– 选择一项完成或全部完成取最高分+加分
• 加分
– 课堂互动
– 实验完善
• 缺席考试或实验的不给分(算作没有修)
课程设置
• 课程目的:
– 直观的了解什么是数据挖掘
• 少理论,重思维
– 亲身体会数据挖掘的乐趣
• 门槛低,包会
• 课程内容
– 数据挖掘的经典算法
• 频繁项集挖掘、kNN、决策树、集成分类、kmeans、层
次聚类……
– 数据挖掘和其他领域的交叉,典型应用
• 社会网络分析、生物信息学、Web挖掘
系列课程
• 数据挖掘与知识发现
– 秋季学期
– “纯”数据挖掘经典算法
• 机器学习
– 春季学期
– 统计机器学习方法
• 数据挖掘研究生课程
– 秋季学期
– 较新的算法和研究方向
实验课题
1. 蛋白质分类
– 识别一个蛋白质是不是cytokine (细胞因子)
2. 智能导购
– 帮助用户选择符合需求的电子产品
3. 微博小助手
– 跟踪新浪微博用户日常发布的微博,自动识别出
其中涉及到育儿类的问题,为这些问题推荐权威
专家的解答
选择实验课题和数据集下载必须事先登记!
数据挖掘与知识发现
• 数据挖掘是
– 从海量数据中挖掘出有价值的知识
从海量数据中挖掘出有价值的知识
• 这里的关键词是什么?
海量
• 大数据时代
– 时间每过去3分钟,全球将产生6.12亿封邮件,
6000万张照片,18.3万小时音乐被下载,76.4个视
频被上传到优酷,14万个程序在苹果App Store购买,
支付宝产生4000万资金交易
– Google处理的互联网网页:万亿
– Twitter的用户数:亿
– 大型数据库:TB、ZB级别
• 海量数据的影响
– 存储空间
– 处理时间
课堂小quiz:解决方案?
back
数据类型
•
•
•
•
•
•
数据库
Xml
网页
文本
多媒体
序列数据
数据库记录
特点:
格式规范
结构化
经过人工整理->含义明确
Xml,html
有一定的格式
有一定的结构
含义比较明确
纯文本
姓名
曹雪芹
性别
男
出生
1715
职业
小说家
字
梦阮
作品
红楼梦
居住地
北京
图像
<图.jpg>
没有格式要求
内在结构不明确
含义需要理解
其他
图像、音乐、时序、空间数据、数据流
有自己的特点
back
什么是有价值的知识
• 和应用有关
• 考虑以下的一些场景
– DNA序列分析
– 商品促销
– 信息搜索
– 动物摄影
– 微博话题
DNA序列
商品促销
• “尿布与啤酒”的故事。在美国,一些年
轻的父亲下班后经常要到超市去买婴儿尿
布,超市也因此发现了一个规律,在购买
婴儿尿布的年轻父亲们中,有30%~40%的
人同时要买一些啤酒。超市随后调整了货
架的摆放,把尿布和啤酒放在一起,明显
增加了销售额。
信息检索
图像识别
话题发现与跟踪
数据挖掘的典型任务
• 频繁模式挖掘
– 模式:项集、序列、子图等
•
•
•
•
•
关联规则挖掘
查询与检索
分类
聚类
关系密切,可以互相转换
频繁项集与关联规则挖掘
Transaction ID
2000
1000
4000
5000
Items Bought
A,B,C
A,C
A,D
B,E,F
• 对规则A  C,其支持度
• 置信度
最小支持度 50%
最小置信度 50%
Frequent Itemset Support
{A}
75%
{B}
50%
{C}
50%
{A,C}
50%
sup port ( A  C )  50%
confidence ( A  C )  P(C | A)  P( AC ) / P( A)  sup port ( AC ) / sup port ( A)  66.6%
分类与聚类(1)
分类与聚类(2)
互相转换
• 假设你构建了一个电子商务网站,有很多
的注册用户在网站上浏览商品、购买、并
评分。你如何用数据挖掘的方法向每一个
用户推荐他/她可能感兴趣并购买的商品呢?
实验课题与知识要点
1. 蛋白质分类
1. 分类
2. 智能导购
1. 检索
2. 聚类
3. 微博小助手
1.
2.
3.
4.
频繁项集,关联规则挖掘
分类
检索
聚类
数据挖掘与知识发现
• 数据挖掘是
– 从海量数据中挖掘出有价值的知识
• 目标
– 效果
– 效率
数据挖掘的基本流程
数据
数据 挖掘
预处
数据 理
获取
模式
评估
用户
界面