ECCAI Žinių atradimo vasaros mokyklos ACAI-05
Download
Report
Transcript ECCAI Žinių atradimo vasaros mokyklos ACAI-05
ECCAI Žinių atradimo
vasaros mokyklos ACAI-05
Advanced Course on Knowledge
Discovery (ACAI)
complemented with
1st SEKT Summer School on Semantic
–Web
http://www.ktschool.org/
Vieta, laikas
Ši vasaros mokykla vyko š.m. birželio
27 – liepos 8 d.
Slovėnijoje, Liublianoje
Registracijos mokestis – 700 €
(gavome 400 € stipendiją iš Europos
kompiuterinės intelektikos
koordinacinio komiteto ECCAI; parėmė
MII ir Baltic Amadeus)
Organizatoriai
Jozefo Stefano Institutas http://www.ijs.si/index.html
Tai mokslinis tiriamasis
gamtos mokslų ir
technologijų institutas.
Jame 2004 m. įsteigta
tarptautinė antros pakopos
(postgraduate) mokykla.
Magistrų studijos
tęsiamos doktorantūroje.
Skyriai: fizikos, chemijos ir
biochemijos, nanotechnologijų, atominių technologijų, elektronikos ir informacinių technologijų ir kt.
Organizatoriai
Žinių technologijų skyrius (Department of
Knowledge Technologies) http://kt.ijs.si/
Tyrimų sritys:
Duomenų gavyba (Data mining)
Kompiuterio mokymas (Machine learning)
Žinių valdymas (Knowledge management)
Kitos informacinės technologijos
Buvo stambaus Europos sąjungos programos „Framework 5“
projekto koordinatoriai, tebėra kelių projektų dalyviai.
Institutas yra šeštas pagal Europos sąjungos vykdomų
projektų skaičių.
Į patyrusių mokslininkų kolektyvą darniai įsilieja jaunieji
tyrėjai.
Vasaros mokyklos dalyviai
Paskaitas skaitė:
apie 30 mokslininkų iš įvairių Europos šalių (Italijos,
Vokietijos, Slovėnijos, Didžiosios Britanijos, Izraelio,
Portugalijos) ir JAV.
keli studentai
Paskaitų įrašus galima peržiūrėti internete
http://www.ktschool.org/lectures.htm
Dauguma klausytojų – studentai (magistrantai,
doktorantai). Viso apie 80.
ACAI-05 tematika
I dalis – Intelektuali duomenų analizė (Intelligent Data
Analysis)
Statistiniai metodai,
Bajeso metodai
Stochastiniai paieškos
metodai
Laiko eilučių analizė
Taisyklių formavimas
indukcijos metodu (Rule
Induction)
Neuroniniai tinklai
Fuzzy logika
Vizualizavimas
II dalis – Duomenų gavyba ir sprendimų priėmimas (Data
Mining & Decision Support)
Duomenų gavyba (data mining)
Teksto gavyba (Text mining)
Žiniatinklio gavyba (Web mining)
Sprendimų medžiai
Kt.
SEKT tematika
Semantically Enabled Knowledge Discovery
Knowledge Discovery
Human Language Technologies
Human Language Technologies for the Semantic
Web
Ontology Management
Knowledge Access
Pateikta medžiaga
I dalis paskaitų buvo skaitoma iš knygos: Berthold and
Hand (eds.), “Intelligent Data Analysis”, second edition,
Springer 2003.
II dalis paskaitų buvo skaitoma iš knygos: Mladenic,
Lavrac, Bohanec and Moyle (eds.) “Data Mining and
Decision Support: Integration and Collaboration “, Kluwer
2003.
Šias knygas galima buvo įsigyti už simbolinę kainą.
Kiekvienas dalyvis gavo paskaitų medžiagą (Course Notes)
(rodytas skaidres, literatūros sąrašus ir pan.)
Skaidres galima rasti internete
http://www.ktschool.org/lectures.htm
Praktinis mokymas
Be teorinių paskaitų, tris popietes buvo
organizuojami praktiniai užsiėmimai, kuriuose buvo
analizuojami, praktiškai išbandomi keturi duomenų
analizės paketai:
Text Garden
Orange
Weka
R
Kadangi reikėjo rinktis 3 iš 4, tai mes dalyvavome
pirmųjų trijų paketų (Text Garden, Orange, Weka)
mokyme.
Visi paketai yra atvirojo kodo.
Text Garden
http://kt.ijs.si/Dunja/textgarden/
Pagrindiniai kūrėjai: Mark Grobelnik, Dunja
Mladenic ir visa grupė studentų (Jozefo Stefano
institutas)
Tai teksto analizės įrankis, leidžiantis lengvai
apdoroti teksto dokumentus duomenų analizės
tikslui.
Į jį įeina:
automatinis modelių generavimas
dokumentų klasifikavimas,
dokumentų klasterizavimas,
dokumentų vizualizavimas,
žiniatinklio dokumentų analizė
ir kt.
Trūkumas: trūksta išbaigtumo, pateikimo vartotojui.
Visualization of European IST projects from 6th framework
Orange
http://www.ailab.si/orange
Pagrindinis kūrėjas: Blaz Zupan (Liublianos universitetas)
Pagrindiniai metodai:
Klasifikavimo:
• K-artimiausių kaimynų
• Naive Bayes
• Klasifikavimo medžiai
Vizualizavimo:
•
•
•
•
•
•
Pasiskirstymai
Taškiniai grafikai (matricos)
MDS
Lygiagrečios koordinatės
RadViz, PolyViz
Survey Plot
Klasterizavimo:
• K-vidurkių klasterizavimas
• Hierarchinis klasterizavimas
Orange
http://www.ailab.si/orange
Draugiška vartotojo aplinka
Patogūs įvairūs duomenų analizės
įrankiai
Kadangi tai atvirojo kodo programa,
jos kodą galima modifikuoti pagal savo
poreikius
Paruošta gana didelė aibė duomenų
analizei
Weka
http://www.cs.waikato.ac.nz/ml/weka/
Kuriama Waikato universitete Naujoje Zelandijoje.
Tai atvirojo kodo programa.
Programoje yra realizuoti duomenų paruošimo,
klasifikavimo, regresijos, klasterizavimo,
vizualizavimo, neuroninių tinklų, “association rules”
metodai.
Gana išsami dokumentacija.
Tačiau neįgudusiam vartotojui gali pasirodyti per
sudėtinga grafinė sąsaja lyginant su Orange
paketu.
Įspūdžiais dalinosi ACAI 05 dalyvės:
Jolita Bernatavičienė ([email protected])
Olga Kurasova ([email protected])