Automatisch bepalen van de similariteitsrelatie bij het

Download Report

Transcript Automatisch bepalen van de similariteitsrelatie bij het

Automatisch bepalen van de similariteitsrelatie bij het gebruik
van vaagruwverzamelingenleer in machinaal leren
Promotoren: Chris Cornelis, Yvan Saeys ({chris.cornelis,yvan.saeys}@ugent.be)
Begeleider: Sarah Vluymans ([email protected])
Doelgroep: Wiskundige Informatica, Toegepaste Wiskunde, Computerwetenschappen
Situering
Vaagruwverzamelingleer is een hybridisatie van vaagverzamelingenleer en ruwverzamelingenleer.
Vaagverzamelingen laten toe om subjectieve concepten zoals mooi, slim, . . . te modelleren door
geen strikte lidmaatschap van elementen tot een verzameling te eisen. Ruwverzamelingen gaan
om met onvolledige informatie. Dit betekent dat, op basis van de gemeten kenmerken, er geen
eenduidig onderscheid kan gevormd worden tussen elementen die behoren tot een concept en
elementen die er niet toe behoren. Om dit probleem op te vangen, wordt in de ruwverzamelingenleer een concept C benaderd door twee verzamelingen: een onder- en bovenbenadering. De
onderbenadering bevat elementen die met absolute zekerheid tot C behoren. In de eerste plaats
behoren ze zelf tot C, maar daarnaast behoren ook alle andere elementen die dezelfde waarden
hebben voor alle kenmerken ertoe. Elementen in de bovenbenadering behoren misschien tot C:
er bestaat ten minste ´e´en element in de dataset met dezelfde waarden voor alle kenmerken dat
tot C behoort. Bij de vervaging van ruwverzamelingenleer tot vaagruwverzamelingenleer wordt
een (mogelijks vaag) concept benaderd door twee vaagverzamelingen: de vaagruwe onder- en bovenbenadering. Zij worden geconstrueerd aan de hand van een ononderscheidbaarheidsrelatie,
die uitdrukt in welke mate twee elementen gerelateerd zijn.
Probleemstelling
Het onderzoek van deze thesis heeft betrekking op de ononderscheidbaarheids- of similariteitsrelatie R. Op dit moment wordt er bij de definitie van R enkel rekening gehouden met het
onderscheid tussen categorische en numerieke kenmerken. Desalniettemin kunnen verschillende
situaties verschillende similariteitsmaten vereisen, afhankelijk van de belangrijkheid van elk kenmerk, ontbrekende of ruizige data, gestructureerde data types etc. In dit project vragen we om,
op basis van de data, automatisch gepaste similariteitsmetrieken te construeren om R vorm te
geven.
Doelstellingen
We hebben twee grote doelstellingen voor ogen:
1. Integratie van state-of-the-art technieken uit similariteitsleren: de keuze van
een gepaste metriek is een voorbeeld van similariteitsleren. In de eerste plaats dient het
gebruik van state-of-the-art methoden uit dit domein voor de definitie van R te worden
ge¨evalueerd binnen bestaande vaagruwe methoden. De focus dient hierbij vooral te liggen
op dichtste-buur technieken, zoals Mahalanobis afstandsleren, en hun uitbreidingen.
2. Optimalisatie van kenmerkgewijze granulariteit: er dient te worden bepaald hoe fijn
de vergelijking tussen elementen moet te zijn. De optimale granulariteit wordt bepaald
van geparametriseerde similariteitsmaten, waarbij het doel is om per kenmerk de minimale
granulariteit te vinden zodanig dat we elementen die tot verschillende klassen behoren nog
steeds van elkaar kunnen onderscheiden. Om de zoekruimte effici¨ent te verkennen, stellen
we voor om gebruik te maken van evolutionaire technieken.
1