Tomaž Kuralt Avtonomen sistem za združevanje podatkovnih omrežij Motivacija Uvrstitev problema • Razločevanje entitet • Uporaba različnih metrik – Atributne metrike – Relacijske metrike Marko Novak • Težave obstoječih pristopov –

Download Report

Transcript Tomaž Kuralt Avtonomen sistem za združevanje podatkovnih omrežij Motivacija Uvrstitev problema • Razločevanje entitet • Uporaba različnih metrik – Atributne metrike – Relacijske metrike Marko Novak • Težave obstoječih pristopov –

Tomaž Kuralt
Avtonomen sistem za združevanje
podatkovnih omrežij
Motivacija
Uvrstitev problema
• Razločevanje entitet
• Uporaba različnih metrik
– Atributne metrike
– Relacijske metrike
Marko Novak
• Težave obstoječih pristopov
– Dvoumnost
– Utežitev metrik
– Nastavitev meje podobnosti
Mare Novak
Sistem
Predprocesiranje
Grupiranje
Vzpostavitev začetnega stanja
Iterativno združevanje
Predprocesiranje
• Izračun statistik iz podanega nabora podatkov
• Nastavitev potrebnih parametrov
– Ocena dvoumnosti
– Utežitev atributov
– Izbira atributa za Grupiranje
Grupiranje
• Zmanjšanje časovne zahtevnosti
• Reference razvrstimo v skupine
• Nadaljna primerjava le med pari, ki so znotraj
istih skupin
Vzpostavitev začetnega stanja
• Omrežja so nepovezana
• Vzpostavimo začetno stanje povezanega
omrežja
– Enostavna shema
– Relacijska shema
Iterativno združevanje
• Podana omrežja zlivamo v eno omrežje
• Algoritem:
– Poiščemo vse pare podobnih referenc
– Izračunamo njihovo podobnostno vrednost:
– Ponavljamo:
• Obravnamo par z največjo sim(ci,cj)
• Če presodimo, da predstavljata isto entiteto ju
združimo
• Posodobimo sim(ci,cj) ostalim parom
Izdelava napovedi
• Uporaba klasifikacije za izdelavo napovedi o
združitvi
• Vektor: [d1,d2,d3...,f1,f2,f3...,L]
• Odločitve metrik
• Kontekstualne lastnosti
- Dvoumnost
- Dolžina geodetke
- ...
Rezultati – realni podatki
• Facebook & Twitter
– F1=0,835 (s=0,139)
• CiteSeer
– F1=0,896 (s=0,011)
Rezultati – sintetični podatki
• Kakovost
združevanja v
odvisnosti od šuma
• Kakovost združevanja
v odvisnosti od
strukturne
podobnosti
Sklep
• Zadovoljni z rezultati
• Pazljivost pri interpretaciji rezultatov
• Možne izboljšave in razširitve sistema
– Izgradnja več klasifikatorjev
– Prevedba omrežij na skupno sintakso
– Predstavitev resnične entitete v rezultatu
Hvala za pozornost