Anotación del corpus - Servei de Tecnologia Lingüística

Download Report

Transcript Anotación del corpus - Servei de Tecnologia Lingüística

Marcatge de textos amb XML
Servei de Tecnologia Lingüística (STeL)
Presentació
<jo>
<nom>John<nom/>
<cognom>Roberto</cognom>
<interessos>
<li>Web Semàntica</li>
<li>Enginyeria de la Web</li>
<li>Visualització de la informació</li>
<li>Gestió del coneixement i la informació</li>
</interessos>
</jo>
Contenido
 Introducción
 Objeto y objetivos
 ¿qué? y ¿para qué? ¿cómo?
 Tipos y niveles de corpus
 Procesamiento del corpus
 Adquisición de datos
 Anotación del corpus
 Revisión e inclusión
 Explotación del corpus
 Tareas de explotación
 Metodología
 Fases de procesamiento del corpus
 Transferencia de información
 Plan de desarrollo
Introducción
La gestión y creación de un corpus es un
trabajo que requiere una gran inversión de
tiempo (y recursos), por lo que los criterios
que se van a utilizar tienen que estar
claramente definidos.
Objeto y objetivos
¿Qué?
Recopilaciones de texto:
• Archivo/colección (informatizado): repertorio de textos en
soporte informático sin buscar ningún tipo de relación
entre ellos.  H
• Biblioteca de textos electrónicos: colección de textos en
soporte informático, guardados en formato estándar,
siguiendo ciertas normas de contenido, pero sin criterio
riguroso de selección.  H
• Corpus informatizado: recopilación de textos seleccionados
según criterios lingüísticos, codificados de modo estándar y
homogéneo, con la finalidad de poder ser tratados
mediante procesos informáticos y destinados a reflejar el
comportamiento de una o más lenguas.  M
Objeto y objetivos
¿Para qué? ¿cómo?
¿Para qué?
El primer paso en el diseño de un corpus es
establecer
su
objetivo:
finalidad
y
aplicaciones.
¿Cómo?
Recursos técnicos y humanos
Objeto y objetivos
Tipos y niveles de corpus
Límites
Una vez especificada la finalidad, se han de
establecer bien claramente los límites
temporales, geográficos y/o lingüísticos que el
corpus va a tener.
Objeto y objetivos
Tipos y niveles de corpus
Tipos
•De árboles: textos etiquetados sintácticamente.
•Orales: señales de voz, eventualmente con sus transcripciones
• Transcripciones: de anotación fonética.
•Textuales: lengua escrita o por lengua oral transcrita.
•Sincrónicos: textos en lengua actual.
•Diacrónicos: textos de varias etapas históricas de la lengua.
•Monolingües
•Multilingües
•Históricos: digitalizados por OCR (reconocimiento óptico de caracteres) a través
de un escáner.
•Referencia: tiene un tamaño establecido, generalmente es de libre acceso y está
estandarizado.
•Monitor: aumenta de manera constante su tamaño.
•Dialectales: disponibles normalmente sólo en forma oral porque por lo general no
tienen una norma de escritura correcta o porque no existe la tradición de una
escritura.
Objeto y objetivos
Tipos y niveles de corpus
Niveles
•Corpus: conjunto de textos que son
representativos de una lengua o variedad
(recopilación de materiales escritos y orales de
una lengua x).
•Subcorpus: divisiones que se efectúan dentro de
un corpus destinados a aumentar algún apartado
del corpus general (subcorpus de textos orales).
•Componente: colección de muestras muy
homogéneas de un corpus o de un subcorpus
(textos de una variedad de la lengua x hablada en
x zona geográfica).
Procesamiento del corpus
Transformaciones que sufren los documentos,
desde su formato y medio original, hasta
adaptarlos a las estructura electrónica que
hayamos definido para ellos.
procesamiento = preparación = generación
Procesamiento del corpus
Adquisición de datos
Fase manual (o automática) que consiste en
obtener una versión digital del documento
que se va a tratar.
–WWW: la red ofrece una cantidad inmensa de
páginas web que se pueden bajar automáticamente,
por ejemplo, con el programa BootCat.
–Escáner: Se escanean libros y otros textos y se aplica
el reconocimiento óptico de caracteres para obtener
un texto en forma electrónica.
–Compra (versión electrónica)
Procesamiento del corpus
Adquisición de datos
Derechos de autor
El Derecho de autor es un conjunto de normas y principios
que regulan los derechos morales y patrimoniales que la ley
concede a los autores por el solo hecho de la creación de
una obra literaria, artística o científica, tanto publicada o
que todavía no se haya publicado.
Una obra pasa al dominio público cuando los derechos
patrimoniales han expirado. Esto sucede habitualmente
trascurrido un plazo desde la muerte del autor (post
mortem auctoris). Por ejemplo, en el derecho europeo, 70
años desde la muerte del autor. Dicha obra entonces puede
ser utilizada en forma libre, respetando los derechos
morales.
Procesamiento del corpus
Anotación del corpus
Con ayuda de elementos llamados tags se puede
enriquecer el texto con informaciones
estructurales, semánticas o de otra índole.
Las herramientas de anotación disponibles
determinan cuánto se requiere para efectuar este
proceso.
Tag (etiqueta): marca (palabra o frase) con la cuál
identificamos un contenido.
<error correct="text">tetx</error>
Procesamiento del corpus
Anotación del corpus
Estructuración del corpus
Fase manual que consiste en estructurar los
documentos digitales que resultan de la
adquisición en un formato común que sea
fácilmente procesable.
– Organización en carpetas con ficheros de texto
siguiendo una codificación lógica y secuencial.
–No olvidemos codificarlos en un formato
adecuado: ASCII, Unicode, JIS, ISOLatin-1, UTF-8.
Procesamiento del corpus
Anotación del corpus
Principios de anotación
•Separar contenido de estructura:
•La recuperación del texto original debe ser posible sin las
anotaciones.
•La evaluación de las anotaciones debe ser posible sin el texto
original.
•Las normas de anotación deben ser accesibles.
•Los anotadores y las circunstancias de la anotación
deben ser conocidos.
•Los usuarios deben saber que las anotaciones pueden
contener errores.
•Se deben tomar en cuenta los estándares de
codificación (TEI, CES, LDC y EAGLES).
Procesamiento del corpus
Anotación del corpus
Formato de anotación
•HTML: inadecuado para la anotación porque el
conjunto de tags es limitado y no cumple con
algunos principios.
•SGML: ofrece la posibilidad de una anotación más
amplia pero más costosa; útil para grandes
proyectos.
•XML: es la opción más adecuada porque puede
contener un conjunto de tags infinito, es poderoso y
al tiempo fácil de utilizar.
Procesamiento del corpus
Anotación del corpus
Estándares de representación
Actualmente, para el desarrollo de corpus utilizando
XML, existen dos tendencias:
1. Utilizar alguno de los estándares disponibles
como TEI, CES, LDC y EAGLES o XCES (Corpus
Encoding Standard for XML).
2. Definir un XML propio para la representación de
los documentos.
3. Definir un XML propio basado en estándares.
Procesamiento del corpus
Anotación del corpus
Estándares de representación
Uso de estándares:
•Mayor compatibilidad entre corpus.
•Propiciar la movilidad del personal entre proyectos.
•Se optimiza el soporte de herramientas (de anotación y de
explotación).
XML propio:
•Etiquetas XML en una lengua diferente del inglés.
•Mayor flexibilidad a la hora de elegir y establecer una sintáxis
para nuestras etiquetas.
Procesamiento del corpus
Anotación del corpus
Conversión
Transformación de los documentos con el objetivo de
adaptarlos al formato XML establecido:
•Manual (sin herramienta)
•Asistida (semiautomática)
–Herramientas específicas de anotación:
•MMAX y NITE XML: anotación multimodal
•Annotate: anotación sintáctica
•EXMARaLDA anotación de discurso
•Transcriber y Praat: anotación fonética
•Anvil, Elan y TASX: anotación de vídeos
–Herramientas adaptadas
•Automática (conversión) - scripts
Procesamiento del corpus
Revisión e inclusión
•En la fase de revisión se tratan de corregir los
errores que se hayan podido cometer en la
anotación:
•Documentos bien formados: contienen todas las
etiquetas.
•Documentos válidos: responden a una sintaxis común.
•Poner –en la carpeta que correspondiente–
aquellos documentos que cumplen todos los
requisitos.
Explotación del corpus
El corpus por sí solo no es suficiente para
facilitar datos exhaustivos del lenguaje. Para
poder
aprovechar
al
máximo
las
informaciones que contiene es necesario
poder disponer de herramientas adecuadas
para su explotación.
Explotación del corpus
Tareas de explotación
•Frecuencias de aparición de palabras
•Índices y concordancias
•Lematización
•Análisis morfológico (tagging)
•Análisis sintáctico (parsing)
•Desambiguación semántica
•Detección
de
unidades
recurrentes
(collocations)
Metodología
Fases del procesamiento del corpus
Metodología
Transferencia de información
Definir los protocolos de actuación que incluyan
las tareas que hará el equipo de expertos
(lingüistas) e informáticos.
Los protocolos son útiles porque:
•mantienen un registro de todas las decisiones tomadas por
el equipo evitando volver a discutir sobre decisiones
tomadas en su momento,
•permiten formar a nuevos miembros del equipo,
•nos recuerdan los detalles de tareas repetitivas,
•facilitan la generación de documentos burocráticos,
•facilitan la dinámica entre los diferentes equipos y grupos
de trabajo, etc.
Metodología
Plan de desarrollo
•Cuando tiene un plan detallado, puede
trabajar de manera más eficaz.
•Cuando planifica, tiene mayor probabilidad
de cumplir sus compromisos.
•Hacer el plan es hacer el seguimiento del
progreso de su trabajo.
•Después de que ha pensado todo el trabajo,
conoce lo que ha de hacer y cuando ha de
hacerlo.
Metodología
Plan de desarrollo
Etapas
•Realizar el Diseño Conceptual (fase de estrategia).
•Desarrollar la estrategia: diferentes partes del diseño
conceptual (componentes, ciclos, productos).
•Realizar el plan del equipo:
•Lista de tareas requeridas para construir los productos
identificados en el paso 2.
•Estime el tiempo que dedicará cada persona a la realización de
cada tarea.
•Estime el tiempo que dedicará al proyecto la totalidad del equipo.
•Calcular la fecha de finalización esperada de cada tarea.