Transcript DataMining

Universidad Tecnológica Metropolitana
Facultad de Ingeniería
Dpto. de Ingeniería Industrial
Data Mining
Minería de Datos
Integrantes
-Rodolfo González
- Ítalo Jara
- Tamara Navarrete
- Ariel Mella
¿ Que es Data Mining ?
El Data Mining (o minería de datos) es un proceso mediante el cual se
identifican patrones que se encuentran ocultos en los datos, pero,
¿Cómo funciona?
Data mining es una herramienta que utiliza como materia prima las
bases de datos para encontrar los ya nombrados patrones y las
relaciones dentro de los datos, para de esa manera crear modelos,
representaciones abstractas de la realidad y representación de
datos obtenidos
No obstante, la minería de datos además de encontrar información,
genera información nueva que posteriormente servirá para apoyar la
toma de decisiones.
Un Poco de Historia…
•
•
•
•
Al hablar del Data Mining, no nos referimos a un concepto explícitamente
contemporáneo, realmente las primeras ideas que se tienen acerca de este
proceso se revocan ya hasta mediados los años setenta donde se buscaba
encontrar correlaciones en bases de datos, pero no fue hasta finales de los
ochenta cuando se comenzó a consolidad la idea de Data Mining y KDD
(Knowledge Discovery and Data Mining).
Ya a mediados de la década de 1990 se hizo notar el impacto de grandes
cantidades de datos acumulados y las dificultades de interpretarlos de un
modo productivo, lo que llevó al desarrollo de novedosas técnicas de Data
Mining y análisis inteligente de datos.
Ahora bien, actualmente es prioritario el uso de este tipo de herramientas en
las empresas que necesitan identificar oportunidades y retener a sus clientes
a partir del buen uso de la información, es más, hoy en día no sería exagerar
el hecho de afirmar que más de la mitad de las empresas alrededor de todo
el mundo utilizan este tipo de herramientas de análisis.
En fin, podemos observar que estamos frente a un proceso de gran
importancia a nivel informático y que sin duda alguna será aun más
relevante a medida que trascurre el tiempo.
Procesos de extracción de la
información
Este proceso cuenta de 5 pasos puntuales:
1. Integración y Recopilación.
2. Selección, Limpieza y Transformación.
3. Minería de Datos.
4. Evaluación e Interpretación.
5. Obtención del conocimiento.
Técnicas del Data Mining
•
Regresión Lineal
Método matemático, que crea un modelo entre la relación de las variables dependientes, las
variables independiente y un término aleatorio.
•
Redes Neuronales
prototipo de aprendizaje y procesamiento automático, infundido netamente en la
forma de trabajar del sistema nervioso animal
•
Árbol de Decisión
modelo de predicción, el cual construye diagramas de construcciones lógicas para
representar y categorizar una serie de condiciones que ocurren de manera sucesiva,
para la resolución de un problema.
•
Algoritmo de Agrupamiento (clustering)
Consiste en la agrupación de una serie de vectores de acuerdo a un criterio
de cercanía, la cual se determina en términos de funciones de distancia o
variables discretas.
Aplicaciones
•
•
•
•
•
•
Gobiernos
Empresas
Ciencias e Ingeniería
Universidad
Los Juegos
Chile :
-Gobierno , Empresa, Periodismo, Cuidado del medio
Ambiente.
Descubrimiento de Conocimiento en Bases de
Datos
• Conocido también como KDD
(Knowledge Discovery in Databases).
• Se caracteriza por ser:
- Válido.
- Novedoso.
- Potencialmente útil.
- Comprensible.
Descubrimiento de Conocimiento en Bases de
Datos
• Este se define como “La extracción no trivial de información
potencialmente útil a partir de un gran volumen de datos, en el cual
la información está implícita, en donde se trata de interpretar
grandes cantidades de datos y encontrar relaciones o patrones,
para conseguirlo harán falta técnicas de aprendizaje, estadística y
bases de datos”. (Molina, 2001)
• Las tareas comunes en KDD son la inducción de reglas, los
problemas de clasificación y clustering, el reconocimiento de
patrones, el modelado predictivo, la detección de dependencias,
etc.
• Este involucra un proceso iterativo e interactivo, de búsqueda de
modelos, patrones o parámetros, los cuales descubiertos deben ser
validos, novedosos para el sistema y potencialmente útiles. Todo esto
a través de algoritmos.
Relación con otras Tendencias
Desafíos para la Minería de
Datos
• El Impacto en la Sociedad.
• Acerca de lo ético y su legalidad.
-
En lo Privado.
-
Modelos, Errores y Discriminación.
• Minería de Datos Distribuida.
Proyecciones a Futuro del
Data Mining
• Actualmente…
el mejor uso del Data Mining es aquel donde el analista formula las
consultas específicas a fin de que el sistema convalide o desmienta las
hipótesis según los datos.
• Como último objetivo…
todavía lejano se intenta crear un sistema de descubrimiento de
conocimiento de propósito general que, a medida que se vuelva más
complejo, agregue sus propios aportes.
• En poco tiempo más
el Data Mining puede volverse tan común y fácil de usar como un email. Podremos utilizar estas herramientas de forma masiva para analizar
datos a gran escala y encontrar, por ejemplo, la mejor tarifa aérea a
Cancún …