Presentazione di PowerPoint

Download Report

Transcript Presentazione di PowerPoint

Presentazione del progetto
2007-2008
Information Extraction with ELIE
PROGETTO 2008: IE con il
sistema ELIE
• OBIETTIVO: identificare in articoli scientifici
nomi di algoritmi, la classe (es greedy
algorithms) e l’obiettivo .
• Es: PageRank is a link analysis algorithm
which assigns a numerical weighting to
each element of a hyperlinked set of
documents, such as the World Wide Web,
with the purpose of "measuring" its
relative importance within the set.
Come procedere
• Vi viene messo a disposizione un zipped archive di
articoli che descrivono algoritmi
• Gli articoli vanno convertiti in txt (usate
http://www.pdfbox.org/), ed in seguito elaborati
utilizzando la toolbox di ELIE (tokenization, POS
tagging, estrazione degli attributi)
http://www.aidanf.net/software/elie-an-adaptive-informationextraction-system
• Gli articoli vanno annotati con le tag:
<name></name>, <type> </type>, e
<purpose></purpose>
• Basta annotare abstract, a volte un segmento
dell’introduzione e conclusioni.
• Potere distribuirvi il lavoro di annotazione, potete fare
il progetto in coppie.
esempi
+
…Algorithms to <purpose> determine the minimum zone straightness and
flatness </purpose > have been successfully established by a number of
researchers.
-…The algorithm insures that variables are always logically ordered from
lowest indexed to highest (or left to right) as: inactive simple variables, active
variables and active inequalities, factored equalities, equalities on bounds, and
variables to be ignored
+….We develop a <type>dynamic programming </type> algorithm for < purpose
>haplotype block partitioning</purpose > to minimize the number of
representative single nucleotide polymorphisms (SNPs) required to account for
most of the common haplotypes in each block.
+…In this paper we propose <name>Give-to-Get</name>, a <type>P2P
VoD</type> algorithm which <purpose >discourages free-riding</
purpose > by letting peers favour uploading to other peers who have
proven to be good uploaders.
+ .. This paper presents <name>Span</name>, a <type>power-saving
</type> technique for < purpose >multi-hop ad hoc networks </
purpose > that..
Altri esempi
•
•
<name/>LP 2</name> [3] < purpose >learns symbolic rules for identifying start
and end tags</ purpose >. Like BWI, it identifies the starts and ends of fields
separately. In addition to token and orthographic features
RAP I E R [2] uses inductive logic programming techniques to discover rules for
ex- tracting fields from documents. It does not try to identify start and end tags
separately, but < purpose >learns to identify relevant strings in their entirety</
purpose >. <name>RAP I E R </name>performs < purpose >specific-to- general
bottom-up search</ purpose > by starting with the most specific rule for each
positive training example and repeatedly trying to generalize these rules to cover
more positive ex- amples.
•
The <name/>EL I E</name> algorithm has two distinct phases.
•
Using SMO, a fast support vector machine implementation, our
<type>IE</type> <name/>EL I E</name> algorithm <purpose >learns a set
of classifiers for information extraction</ purpose > that are competitive
with, and in many cases outperform, current IE algorithms based on
specialized learning al- gorithms.
• Utilizzate metà degli articoli annotati per
l’apprendimento, metà per il test
• Misurate precision, recall e f-measure
• Preparate un rapporto di 8-10 pagine
con grafici ecc.
Suggerimenti (1)
• Per addestrare ELIE a riconoscere lo “stile”
delle definizioni di algoritmi, potete usare ad
esempio http://www.nist.gov/dads/, un
glossario di algoritmi e strutture dati. Tuttavia
la forma di un glossario non è proprio identica
alla definizione in un testo, es:
Dijkstra's algorithm
Definition: An algorithm to find the shortest paths from a
single source vertex to all other vertices in a
weighted, directed graph
Dovreste trasformarlo in “Dijkstra's algorithmis an
algorithm to…”
Suggerimenti (2)
• Potete arricchire i gazzeteers di ELIE (i
files .lst) con un elenco di nomi di
linguaggi di programmazione
(riconoscerli evita errori
nell’etichettatura del campo “name”)
• Ad es: http://cgibin.erols.com/ziring/cgibin/cep/cep.pl
Per riassumere
• Siete liberi di estendere e apportare
modifiche o aggiungere euristiche per
migliorare le prestazioni (ma dovete
descrivere nella relazione l’approccio usato).
• Potete lavorare in due, e potete distribuirvi fra
tutti il lavoro “noioso” (annotazione, creazione
di risorse quali elenchi di linguaggi, definizioni
da glossari..). Anche questo deve però
essere dichiarato esplicitamente.
• Il progetto “vale” fino a gennaio, per quella
data dovete registrare l’esame.