Tomaž Kuralt Avtonomen sistem za združevanje podatkovnih omrežij Motivacija Uvrstitev problema • Razločevanje entitet • Uporaba različnih metrik – Atributne metrike – Relacijske metrike Marko Novak • Težave obstoječih pristopov –
Download ReportTranscript Tomaž Kuralt Avtonomen sistem za združevanje podatkovnih omrežij Motivacija Uvrstitev problema • Razločevanje entitet • Uporaba različnih metrik – Atributne metrike – Relacijske metrike Marko Novak • Težave obstoječih pristopov –
Tomaž Kuralt Avtonomen sistem za združevanje podatkovnih omrežij Motivacija Uvrstitev problema • Razločevanje entitet • Uporaba različnih metrik – Atributne metrike – Relacijske metrike Marko Novak • Težave obstoječih pristopov – Dvoumnost – Utežitev metrik – Nastavitev meje podobnosti Mare Novak Sistem Predprocesiranje Grupiranje Vzpostavitev začetnega stanja Iterativno združevanje Predprocesiranje • Izračun statistik iz podanega nabora podatkov • Nastavitev potrebnih parametrov – Ocena dvoumnosti – Utežitev atributov – Izbira atributa za Grupiranje Grupiranje • Zmanjšanje časovne zahtevnosti • Reference razvrstimo v skupine • Nadaljna primerjava le med pari, ki so znotraj istih skupin Vzpostavitev začetnega stanja • Omrežja so nepovezana • Vzpostavimo začetno stanje povezanega omrežja – Enostavna shema – Relacijska shema Iterativno združevanje • Podana omrežja zlivamo v eno omrežje • Algoritem: – Poiščemo vse pare podobnih referenc – Izračunamo njihovo podobnostno vrednost: – Ponavljamo: • Obravnamo par z največjo sim(ci,cj) • Če presodimo, da predstavljata isto entiteto ju združimo • Posodobimo sim(ci,cj) ostalim parom Izdelava napovedi • Uporaba klasifikacije za izdelavo napovedi o združitvi • Vektor: [d1,d2,d3...,f1,f2,f3...,L] • Odločitve metrik • Kontekstualne lastnosti - Dvoumnost - Dolžina geodetke - ... Rezultati – realni podatki • Facebook & Twitter – F1=0,835 (s=0,139) • CiteSeer – F1=0,896 (s=0,011) Rezultati – sintetični podatki • Kakovost združevanja v odvisnosti od šuma • Kakovost združevanja v odvisnosti od strukturne podobnosti Sklep • Zadovoljni z rezultati • Pazljivost pri interpretaciji rezultatov • Možne izboljšave in razširitve sistema – Izgradnja več klasifikatorjev – Prevedba omrežij na skupno sintakso – Predstavitev resnične entitete v rezultatu Hvala za pozornost