Navegando en la web:
Download
Report
Transcript Navegando en la web:
Navegando en la web:
La Word Wide Web (www) empezó a finales de 1980´s(85), y nadie se imaginaba el
impacto que este iba a cuasar al mundo entero. En cuestión de manejo de
información, actualmente ya se sabe que se puede manejar no solo texto sino
también imágenes, audio, video, etc.
En la web podemos manejar todo tipo de archivos, pero para
poder realizar esto necesitamos una base de datos, a su ves
también necesitamos de otras herramientas eficaces para
manipular estos archivos, de tal manera que podamos filtrar y
extraer información de la base de datos.
Por este problema se inventaron los famosos buscadores o
motores de búsqueda, para que de esta maneara encontremos
por medio de una par se comandos lo que necesitemos para
realizar este tipo de búsquedas en la web
En general podemos decir que existen muchos problemas en la web, pero estos los
podemos clasificar de 2 maneras:
El problema con los datos mismos.
El problema con la interacción del usuario para ver y recuperar la Información.
1.- Los problemas relacionados con los datos son:
Distribución de datos.
El fuerte porcentaje de datos volátiles.
Grandes volúmenes en la web.
Datos no estructurados y redundantes.
Calidad de datos.
Datos Heterogéneos.
2.- El problema de los usuarios con la web
Como especificar el query adecuadamente.
Como interpretar la respuesta por el sistema.
Características de la web
Midiendo la web
Hoy en día existen mas de 40 millones de computadoras en mas de 200
países conectados a Internet, muchos de ellos son web servers. El numero
estimado de web servers según NetSizer es de 2.4 millones esto en
noviembre 1998. otro dato importante es de acuerdo con la entrevista de
Internet Domain en Julio del 98, 780 000 nombres de dominios empezaban
con www. Tomando en cuenta de que estamos en 2002 me atrevo a decir
que estas cifras están duplicadas o triplicadas.
El formato mas popular para la web es en código HTML,
El total de lenguas que se utilizan en la red es un
aproximado de 100 lenguas diferentes.
Modelando la web:
En cuestión de lenguaje si se puede tener una manera o modelo de distribuirlo, esto
utilizando un lenguaje correcto y con palabras, las cuales el usuario debe comprender
con claridad, pero desde mi punto de vista esto es demasiado difícil ya que,
dependiendo a quien se dirija el que construye la web.En cuestión de modelar la web
podría existir un modelo, esto depende del documento y como se acomode en la web,
dependiendo de este modelo sera el tamaño de la web.La probabilidad de encontrar
un archivo con un numero x de bytes es de esta manera dado que tengan tamaños
similares y una varian grande :
Donde el promedio ( ) y desviación estándar ( ) es de 9.357 y 1.318.
La formula para el parámetro de distribución es:
Search Engine:
El término "Search Engine" (motor de búsqueda), en el mundo
computacional, se refiere principalmente a cualquier software
usado para realizar una búsqueda en una base de datos. En
este caso, estamos hablando de que la base de datos a
explorar es la Web. El search engine son los programas que
utilizan las páginas browser, como Altavista, Yahoo, Hotbot,
Lycos, etc. Obviamente, cada una funciona de diferente
manera.
Existen dos tipos principales de search engines:
1) De arquitectura centralizada (crawlers)
2) De arquitectura distribuida (harvest)
Clasificación:
Muchos motores de búsqueda usan variaciones de los modelos booleanos y vectoriales
para hacer la clasificación de páginas. Como en la búsqueda, la clasificación tiene que
hacerse sin acceder al texto, solo al índice.
Yuwono y Lee, proponen tres algoritmos de clasificación, la extensión booleana, la
extensión vectorial y el mas- citado. Los primeros dos son los algoritmos normales de
clasificación
boleanos
y vectoriales, con la peculiaridad
de que se incluyen páginas
señaladas por una página en la respuesta, o páginas que señalan a una página de la
respuesta. El tercero, el mas- citado se basa solamente en los términos incluidos en las
páginas que tienen un acoplamiento a las páginas en la respuesta.
Algunos de los nuevos algoritmos también usan información referenciada (hyperlink), ésta
es una de las más importantes diferencias entre la red y las bases de datos. La cantidad de
información referenciada que apuntan a una página provee de una medida de popularidad y
calidad. También muchos enlaces en común entre páginas o páginas referenciadas por la
misma página a menudo indican una relación entre esas páginas.
Avanzando dentro de la Red:
La forma mas simple es empezar con un conjunto de URLs (localizador de recurso uniforme)
y de ahí extraer otras URLs recursivamente en una manera breath- first o depth first. Una
variación a esto es empezar con un conjunto de URLs populares, ya que podemos esperar
que estas tengan la información más solicitada.
Otra técnica es particionar la red usando códigos de región o nombres de Internet, y asignar
uno o más robots para cada partición, y así explorar cada partición exhaustivamente.
Mientras
que un usuario define un número de páginas para avanzar en unos días o
semanas, así también algunos motores de búsqueda atraviesan todo el sitio Web, mientras
otros seleccionan una muestra de páginas. Las páginas no definidas esperan semanas o
meses a ser detectadas. Hay algunos motores de búsqueda que aprenden de la frecuencia
de cambios de una página y la visitan consecuentemente, también pueden avanzar con mas
frecuencia en paginas populares.
En total los más rápidos avanzadores (Crawlers) de la red pueden atravesar más de 10
millones de páginas por día.
Índices:
La Mayoría de los índices usan variantes de archivos invertidos. En resumen, un archivo
invertido es una lista de palabras ordenadas, cada una con un conjunto de apuntadores a las
páginas donde ocurren. Algunos motores de búsqueda eliminan signos de puntuación y
caracteres de paro para reducir el tamaño del índice. También es importante recordar que la
manera más lógica de mirar un texto es por medio del índice.
Para darle al usuario alguna idea de cada documento recuperado, el índice esta
complementado con una descripción corta de cada Página. (Día en que fue creada, tamaño, el
título y las primeras líneas o algunos títulos son típicos).
Asumiendo que 500 bytes son requeridos para almacenar la URL y la descripción de cada
página. Nosotros necesitamos 50 GB para almacenar la descripción de 100 millones de
páginas. Como el usuario inicialmente recibe solamente un subconjunto de respuestas a cada
pregunta, el motor de búsqueda usualmente guarda el conjunto completo de respuestas en
memoria.
Browsing:
En esta sección nos dedicaremos a herramientas basadas en browsing y searching. En especial los
directorios.
El mejor ejemplo de directorio es Yahoo!, que es la herramienta más utilizada. Otras herramientas de
búsqueda como Altavista, Excite, AOL, incluyen subcategorías
Los directorios son taxonomías jerárquicas que clasifican el conocimiento humano. Esto esta hecho
basándose en categorías y subcategorías
Aunque la taxonomía se podría verse como un árbol hay referencias cruzadas así que realmente es
un grafo acíclico dirigido.
La ventaja de estas técnicas de categorización es que generalmente encontramos lo que estamos
buscando. Sin embargo la desventaja es que la clasificación no esta muy especializada y que no
todas las páginas Web están clasificadas. A esto se le suma el factor que la clasificación la hace un
número restringido de seres humanos. Debido a que el procesamiento de lenguaje natural no es
100% efectivo.
Combinando el Searching con el Browsing.
Generalmente si uno busca en estos directorios puede haber casos en que una
categoría taxonómica no incluya algo relevante por no ser parte de la misma categoría.
WebGlimpse es una herramienta que trata de resolver estos problemas combinado
browsing con searching. Esto lo hace añadiendo una pequeña cajita de búsqueda en la
parte inferior de cada página, con la cual realiza búsqueda de ligas de hipertexto
relacionadas entre si. Esto lo hace muy útil en combinación con los directorios, los
cuales dan la dirección de una página y con WebGlimpse marca los índices de
posibles páginas relacionadas.
MetaSearchers:
Los Metasearchers son servidores de Web que envían un query a
varios search engines, directorios de Web y otras bases de datos,
recolecta resultados y los unifica. Algunos ejemplos son Metacrawler y
SavvySearch.
Sus ventajas son que los Metasearchers pueden ordenar sus
respuestas por diferentes atributos como host, palabras claves, fecha
etc. Por lo tanto es una búsqueda más simple y mejor. Por otra pare los
resultados no son necesariamente todas las páginas encontradas con
el query, puesto que el número de resultados de un Metasearcher es
limitado.
Problemas con el usuario.
Ya se ha visto los problemas a los que se enfrenta el usuario cuando interactúa
con un sistema de búsqueda para la red son bastantes, dando como resultado a
las consultas respuestas no deseadas o con información no deseada.
El usuario muchas veces no entiendo o no sabes usar los conjuntos de palabras
para hacer su búsqueda. Obtener respuestas erróneas dado que no conoce
como funciona dicha "engine". Se puede dar que el usuario introduzca
mayúsculas o solo minúsculas y la "engine" no es "case sensitive".
Datos estadísticos:
25 % de los usuarios utiliza solo una palabra para hacer un "query" y
en promedio las búsquedas no tienen mas de tres palabras.
15 % restringe el "query" a un tópico especifico.
80 % no modifica su query.
85 % no pasa de la primera pagina de resultados.
64 % de los "queries" son únicos.
Algunos ejemplos
Las búsquedas a texto completo tienen una desventaja, y es que el que muchos
de los resultados son efectivos otros mas son una total decepción. El principal
problema de una búsqueda a texto completo es que no captura la semántica de
un documento, y el que hay mucha información de contexto es también un
problema, aunado se tiene perdida de tiempo en la indización (indexing).
Si quisiéramos hacer una búsqueda de Shogi (juego similar al ajedrez pero
versión China) o de Go, esto se convertiría en un problema porque los resultados
serian enormes y con mucha basura ya que "Go" es una palabra muy usada en el
inglés y que nos arrojaría una cantidad enorme de textos sin utilidad.
Enseñando al usuario.
Es algo esencial que las maquinas de búsqueda especificaran al usuario que tipo de
palabras son importantes para hacer un "query" efectivo y cuales no. Los usuarios
deberían tratar de introducir lo que desean para efectuar la búsqueda y lo que esperan
como resultado de ésta, y restringir hasta donde sea posible el "query".
El usuario debería aprender de la experiencia
y usar una maquina de búsqueda
siempre que lo crea necesario y es necesario que tome en cuenta su experiencia. Por
ejemplo si el usuario busca una institución en la Web debería tratar con el URL directo
y entonces si no lo logra tratar en un buscador.
WQL (Web Query Languages)
Los "queries" pueden incluir la liga que conecta a las paginas Web.
Veamos un ejemplo: A nosotros nos gustaría buscar todas las paginas que contengan
al menos una imagen y que sea accesible desde un sitio dado con una lejanía de no
más de tres ligas.
Para lo anterior existen muchos proyectos de estudio con respecto a este tópico y
muchos modelos han sido desarrollados, el mas aceptado es el modelo etiquetado
como modelo grafico para representar las paginas como nodos y los hyperlinks como
los bordes entre las paginas y una semiestructura de modelo de datos para representar
el contenido de las paginas. En los modelos más recientes la estructura no es
usualmente conocida ya que puede ser larga y descriptiva.
Búsqueda dinámica y agentes de software.
La búsqueda dinámica en la Web es el equivalente a hacer una búsqueda secuencial
en un texto la idea es usar una búsqueda en línea para descubrir información relevante
siguiendo las ligas, la ventaja de esto es que buscas en la actual estructura de la Web
y no en algo almacenado, aunque este método es lento.
La primera heurística ideada fue la búsqueda de pez (fish search), la cual intuye que
los documentos relevantes tienen vecinos que también deben ser relevantes.
La anterior fue mejorada por la búsqueda de tiburón (shark search), la cual hace una
relevancia mejor de los documentos.
Tendencias y tópicos de investigación:
Modeling : Modelos de IR adaptados a las necesidades de la Web. Buscaremos la
información o esta nos llegara.
Querying : Se necesita combinar estructuras y contenido en los "queries".
Distributed Architectures : Se necesitan de nuevas esquemas de computación distribuida
que estén enfocados y con un diseño propio para enfrentar los problemas que aquejan la
Web. ¿Que será el cuello de botella en el futuro?
Ranking: Idear un sistema mejor para hacer el ranking de los documentos, explotar la
estructura y el contenido.
Indenxing : ¿Qué es lo más lógico para ver un texto?, ¿Qué debe ser indexado?, ¿Cómo
explotar mejor la compresión de texto para hacer una búsqueda rápida y evitar el tráfico
pesado?
Dynamic pages : Muchas paginas son creadas a diario, no se puede con técnicas
actuales buscar en esa (hidden Web) Web dinámica.
Duplicated data : Mejores mecanismos para evitar paginas repetidas o con la
misma estructura
Multimedia : Se busca mas que texto en la red. Objetos multimedios.
User inteRfaces : Mejores y más especificas interfaces se necesitan y que
permitan ser mas objetivos en una búsqueda.
Browsing : unificar y mejorar la búsqueda con la navegación.