Slides - Sandra de Amo - Universidade Federal de Uberlândia
Download
Report
Transcript Slides - Sandra de Amo - Universidade Federal de Uberlândia
Mineração de Dados
Profa. Sandra de Amo
Pós-Graduação em Ciência da Computação
Faculdade de Computação
Universidade Federal de Uberlândia
Contexto e Motivação
Mineração de dados: Por que ? O que é ?
O processo de descoberta de
conhecimento
Tarefas de mineração: preditivas,
descritivas
13/04/2015
Mestrado em Ciencia da Computacao 2008
2
Mineração de Dados: Por que ?
Ponto de Vista Comercial
Quantidades gigantescas de dados são
coletados e armazenados em
empresas, corporações, etc
Dados de comércio eletrônico,
Dados de navegação na internet
Dados de compras de clientes em grandes
lojas de departamentos, supermercados,
Dados de transações bancárias, ou de
cartão de crédito
Computadores mais baratos e mais
potentes
Pressão da Competição
13/04/2015
Mestrado em Ciencia da Computacao 2008
3
Mineração de Dados: Por que ?
Ponto de Vista Cientifico : Medicina, Biologia, Engenharia
Dados coletados e armazenados
a velocidades enormes (GB/hora)
Sensores remotos em satélites
Telescópios
Microarrays gerando dados de
expressões de genes
Simulações científicas gerando terabytes
de dados.
Técnicas tradicionais não
apropriadas para analisar tais dados:
ruídos e grande dimensionalidade
13/04/2015
Mestrado em Ciencia da Computacao 2008
4
Mineração de Dados - Por que ?
Frequentemente existe informação “escondida” nos
dados que não é evidente de ser encontrada
utilizando linguagens de consultas tradicionais.
Analistas humanos podem levar semanas para
correlacionar e descobrir alguma informação útil
dentro de uma grande massa de dados.
Boa parte dos dados nunca é analisado: “cemitério”
de dados.
13/04/2015
Mestrado em Ciencia da Computacao 2008
5
Mineração de Dados: Por que ?
Técnicas de Mineração podem ajudar analistas:
Entender e prever as necessidades dos clientes
Descobrir fraudes
Descobrir perfis de comportamento de clientes
Técnicas de Mineração podem ajudar cientistas:
Classificar e segmentar dados
Formular hipóteses
13/04/2015
Mestrado em Ciencia da Computacao 2008
6
Mineração de Dados: O que é ?
Não
Sim
1. Fazer uma
1. Agrupar documentos
consulta no
similares retornados pelo
Google sobre
Google
de
acordo
com
“Data Mining ”
seu contexto.
2. Procurar um
nome numa lista2. Descobrir se certos
telefônica
nomes aparecem com
3. Fazer uma
consulta SQL a
um banco de
dados.
13/04/2015
mais frequência em
determinadas regiões da
cidade (periferia, centro,
bairros abastados,…)
Mestrado em Ciencia da Computacao 2008
7
Exemplos
Qual o perfil do cliente que consome mais ?
Que produtos são comprados conjuntamente ?
E em sequência ?
Meu site web tem uma boa estrutura ?
Como as chuvas, variação de temperatura,
aplicação de pesticidas afetam as colheitas ?
Existe uma relação entre o aquecimento global
e a frequência e intensidade das perturbações
no ecossistema tais como secas, furacões,
enchentes ?
13/04/2015
Mestrado em Ciencia da Computacao 2008
8
Etapas do Processo de KDD
Limpeza dos Dados
Integração dos Dados
Seleção
Transformação
Mineração
Avaliação ou Pós-Processamento
Visualização dos Resultados
13/04/2015
Mestrado em Ciencia da Computacao 2008
9
Análise do
Mineração: Etapa central
Resultado
do processo de
Descoberta de
Conhecimento
Mineração
Dados Relevantes
Data Warehouse
Seleção
Limpeza
Integração dos Dados
13/04/2015
Banco de
Dados
Mestrado em Ciencia da Computacao 2008
10
Tarefas de Mineração
Tarefa
ato de descobrir um certo tipo de
padrão
Regras de Associação
Análise de Sequências
Classificação
Agrupamento
Outliers
13/04/2015
Mestrado em Ciencia da Computacao 2008
11
Tarefas de Mineração de Dados
Tarefas Preditivas
predizer o valor de um determinado atributo
baseado nos valores de outros atributos
Classificação – Predição
Tarefas Descritivas
Derivar « padrões » : correlações,
tendências, anomalias, agrupamentos dentro
de uma grande massa de dados.
Regras de Associação – Padrões
Sequenciais – Agrupamentos - Anomalias
13/04/2015
Mestrado em Ciencia da Computacao 2008
12
Técnicas de Mineração
Técnicas Estatísticas
Técnicas de Inteligência Artificial
Técnicas de Gerenciamento Eficiente de
Grandes Volumes de Dados
O que é Mineração ?
Mineração de Dados
Descoberta de Conhecimento (KDD)
KDD = Knowledge Discovery in Databases
13/04/2015
Mestrado em Ciencia da Computacao 2008
14
Sistemas de Mineração
Intelligent Miner (IBM)
DBMiner
Enterprise Miner
Clementine
MineSet
Genamics Expressions
13/04/2015
Mestrado em Ciencia da Computacao 2008
15
Tópicos Atuais
Mineração de Preferências
Sistemas de Recomendação
Consulta
Quais os pacotes
turísticos de menos de
15 dias que você pode
me propor em 2011 ?
Resposta
Minhas Preferências ...
Prefiro estadias mais curtas (menos de duas
semanas) do que estadias longas (de duas
semanas ou mais).
Prefiro viajar durante as férias de verão.
Para estadias curtas prefiro aquelas nas grandes
cidades, pois gosto de ir a museus, bons restaurantes e
shows.
Para minhas viagens durante as férias de verão, prefiro
viajar para a praia, caso eu viaje com a família. Caso
eu viajo sozinho, je prefiro ir para uma cidade histórica.
Problemas a resolver
1. Como modelar as preferências do
usuário ? Usar regras ? Usar
scores ?
2. Como obter as preferências do usuário ?
3. Como utilizar as
preferências do usuário
para “personalizar”
as respostas ?
4. Como utilizar as
preferências do usuário
para “recomendar” produtos
(filmes, livros, notícias, pacotes
turísticos,...) aos usuários ?
1) Como modelizar preferências
Conjunto de regras
Regras
SE a viagem é durante minhas férias de verão e eu vou viajar
com minha família ENTÃO eu prefiro ir para uma praia do que
para uma cidade histórica.
SE a viagem é durante minhas férias de verão e eu vou viajar
sozinho ENTÃO eu prefiro ir para uma cidade histórica do
que para uma praia.
2) Como obter as preferências do
usuário ?
Perguntar ao usuário ?
Mostrar algumas respostas e pedir um
feedback do usuário se gostou ou não ?
Utilizar métodos automáticos ?
Mineração de Preferências
3) Como colher as amostras de
preferências do usuário
Sistema de Amostragem de NOTAS
(scores)
Sistema de Amostragem de Pares
Sistema de Amostragem de Listas
13/04/2015
Mestrado em Ciencia da Computacao 2008
22
Exemplo
Internet Movie Database
Dados Coletados
Pequena amostragem de filmes classificados por
um usuário
ID
Genero
Diretor
Ano
Ator
Nota
1
comedy
Woody Allen
80
Charlotte Rampling
8
2
comedy
Woody Allen
80
Mia Farrow
7
3
romance
Joel Coen
80
Charlote Rampling
7
4
drama
Woody Allen
70
Charlote Rampling
5
5
comedy
Woody Allen
80
Mia Farrow
3
6
romance
Joel Coen
70
Charlote Rampling
6
7
comedy
Woody Allen
80
Mia Farrow
3
ID
Genero
Directo
Ano
Ator
Nota
1
comedy
Woody Allen
80
Charlotte Rampling
7
2
comedy
Woody Allen
80
Mia Farrow
6
3
romance
Joel Coen
80
Charlote Rampling
?
4
drama
Woody Allen
70
Charlote Rampling
4
5
comedy
Woody Allen
80
Mia Farrow
?
6
romance
Joel Coen
70
Charlote Rampling
5
7
comedy
Woody Allen
80
Mia Farrow
3
Comparando dois filmes pela nota dada ...
I
Genre
Director
ANO
Actor
ID
Genre
Director'
ANO
Actor
Pref
1
comedy
W Allen
80
C.Rampling
2
comedy
W. Allen
80
Mia Farrow
1
1
comedy
W.Allen
80
C.Rampling
4
drama
W.Allen
70
C.Rampling
1
1
comedy
W. Allen
80
C.Rampling
6
romanc
Joel Coen
70
C.Rampling
1
1
comedy
W.Allen
80
C.Rampling
7
comedy
W.Allen
80
Mia Farrow
1
2
comedy
W.Allen
80
Mia Farrow
4
drama
W.Allen
70
C.Rampling
1
2
comedy
W.Allen
80
Mia Farrow
6
romanc
Joel Coen
70
C.Rampling
1
2
comedy
W. Allen
80
Mia Farrow
7
comedy
W. Allen
80
Mia Farrow
1
4
drama
W.Allen
70
C. Rampling
6
romanc
Joel Coen
70
C.Rampling
0
4
drama
W.Allen
70
C.Rampling
7
comedy
W.Allen
80
Mia Farrow
1
6
romanc
J.Coen
70
C.Rampling
7
comedy
W.Allen
80
Mia Farrow
1
I
GEN
Diretor
ANO
1
come
d
y
Woody
Allen
80
1
come
d
y
Woody
Allen
80
2
come
d
y
Woody
Allen
80
2
come
d
y
Woody
Allen
80
4
dram
a
Woody
Allen
70
4
dram
a
Woody
Allen
6
roma
n
c
e
6
roma
n
c
e
Ator
ID'
GE'
Diretor'
ANO
Charlotte
Rampling
3
romance
Joel Coen
80
Charlotte
Rampling
5
comedy
Woody
Allen
80
Mia Farrow
3
romance
Joel Coen
80
Mia Farrow
5
comedy
Woody
Allen
80
Charlote
Rampling
3
romance
Joel Coen
80
70
Charlote
Rampling
5
comedy
Woody
Allen
80
Joel Coen
70
Charlote
Rampling
3
romance
Joel Coen
80
Joel Coen
70
Charlote
Rampling
5
comedy
Woody
Allen
80
Ator'
Pref
D
Charlote
Ramplin
g
Mia Farrow
Charlote
Ramplin
g
Mia Farrow
Charlote
Ramplin
g
Mia Farrow
Charlote
Ramplin
g
Mia Farrow
?
?
?
?
?
?
?
?
Temas de Pesquisa
Como “descobrir” as preferências de um usuário
a partir de uma amostra de preferências
capturada na internet ?
Como “descobrir” as preferências comuns a um
perfil de usuários ?
Como utilizar este conhecimento para
recomendar produtos para um novo usuário ?
Mineração de Preferências
Pesquisa desenvolvidas no Grupo
CprefMiner (tese de Mestrado)
Otimização de Cprefminer (tese de Mestrado)
Uso de Cprefminer no desenvolvimento de um
Sistema de recomendação (tese de Mestrado)
FPSMining e IncFPSMining: Mineração de
Preferências em Data streams (tese de
Mestrado).
ProfMiner (em colaboração com pesquisadores
da Université de Tours (França)
Pesquisa em Desenvolvimento
Sistemas de Recomendação Sociais Dinâmicos
(Tese de Doutorado)
Sistema de Recomendação para Imagens (tese
de Mestrado)
Tarefas
Livro Introduction to Data Mining
Capitulo 2: Data
Capitulo 3: Exploring Data
Entrega de Exercicios no dia 14 de Abril
Exercicios 16, 17, 19 e 20, Capitulo 2
Exercicios 5, 16 e 17, Capitulo 3.