Presentación DAPPER: The Data Mapper
Download
Report
Transcript Presentación DAPPER: The Data Mapper
Seminario de Extracción de
Información
DAPPER: The Data Mapper
Rubén Izquierdo Beviá
Departamento de Lenguajes y Sistemas Informáticos
[email protected]
INDICE
1.
2.
3.
4.
5.
6.
7.
Problemática
¿ Qué es DAPPER
¿ Cómo crear un Dapp?
¿ Cómo usar un Dapp?
Dos ejemplos prácticos
Características Interesantes
Algunos problemas de DAPPER
2
Problemática
En 2008, alrededor de 160 millones de webs
Estructura heterogénea y dinámica
Datos semi-estructurados
Desarrollo manual de wrappers
◦ Especializado por web
◦ Muy costoso de desarrollar
◦ Todavía más de mantener
3
¿Qué es DAPPER?
Herramienta de Extracción de
Información desde Internet
4
¿Qué es DAPPER?
Servicio web, gratuito (registro)
No es necesario programar (entorno visual)
Fases:
◦ 1 desarrollo del Dapp para una web
◦ ∞ usos del Dapp sobre diferentes webs
Nos permitirá:
◦ Extraer la información requerida de una web
◦ Utilizarla de diferentes modos
5
¿Cómo crear un DAPP?
1.
Varias muestras de webs con la misma
estructura
6
¿Cómo crear un DAPP?
7
¿Cómo crear un DAPP?
1.
2.
Varias muestras de webs con la misma
estructura
Definir información que queremos
8
¿Cómo funciona DAPPER?
9
¿Cómo crear un DAPP?
1.
2.
3.
Varias muestras de webs con la misma
estructura
Definir información que queremos
DAPPER aprende y propone
automáticamente
•
•
4.
5.
Información estática / dinámica
Estructura y etiquetas HTML (XPATH)
Refinamos el Dapp
Guardamos el Dapp
10
¿Cómo usar un DAPP?
Suscribirnos mediante un lector
◦
◦
RSS Feed (formato de redifusión de fuentes web)
Atom Feed
Ponerlo en nuestra página web
◦
◦
◦
Gadget Google
Módulo Netvibes
Widget en flash
11
¿Cómo usar un DAPP?
Usarlo desde un lenguaje de programación
◦
◦
◦
XML
JSON
YAML, XSL, CSV …
Otros
◦
◦
iCal
Google Map
12
Ejemplo Práctico I
Extraer información de noticias del diario
MARCA
◦ Titular
◦ Subtitular
◦ Cuerpo
Crear un widget para mi página web
13
Ejemplo Práctico II
Crear un buscador que use yahoo
Crear un gadget para iGoogle
14
Características Interesantes
Uso de variables de entrada
◦ Query para un buscador
Creación de alertas
◦ Email cuando en cuerpo de noticia aparezca “Rubén
Izquierdo”
Enlazar varios Dapp
◦ Dapp buscador inglés Dapp traductor
Explotación de Dapp’s
◦ API JAVA
◦ Python…
15
Algunos problemas de DAPPER
No funciona con flash
Algunas web bloquean al robot de DAPPER
Limitación hits/segundo
Se ejecuta en el servidor de Yahoo
◦ Dependencia de Yahoo
◦ Dependencia de la carga de la red
16
¿Sugerencias? ¿Preguntas?
DAPPER: The Data Mapper
Rubén Izquierdo Beviá
Departamento de Lenguajes y Sistemas Informáticos
[email protected]