Slides - Complex Networks

Download Report

Transcript Slides - Complex Networks

Réseaux sociaux: une analyse centrée sur
l'individu
Alina STOICA
Orange Labs & LIAFA
Laboratoire SENSE:
Sociologie des usages

Etudes du comportement de l'utilisateur (du client):

Approche "qualitative": entretiens, enquêtes qualitatives

Approche "quantitative": études des traces d'usages
• Communications par téléphone mobile
• Utilisations des plateformes sociales en ligne (MySpace, Flickr, Twitter,
développées par Orange etc.)

Connaissance des clients:
développement de services, offres adaptés, ciblage de clients etc.
Alina Stoica
–p2
LIP6 10/06/2010
Bases de données (1)

Téléphonie mobile:
liste des communications entre les clients d'Orange en Belgique




Alina Stoica
Numéros chiffrés => identifiants
Toutes les communications (appels et SMS) impliquant un ou deux clients
Un mois de communication
Données sociodémographiques (âge et sexe)
–p3
LIP6 10/06/2010
Bases de données (2)

Plateformes en lignes:
aspirations de profils à partir de quelques profils initiaux



Alina Stoica
BFS
Toutes les informations du profil
Liens déclarés avant l'aspiration
–p4
LIP6 10/06/2010
Caractérisation des clients: analyse
des usages

Téléphonie mobile:



Plateformes en lignes:


Alina Stoica
Nombre d'appels, durée, fréquence, nombre de SMS etc.
Croiser avec les données sociodémographiques
Nombre de commentaires, quantité de contenu publié etc.
Croiser avec les autres informations du profil
–p5
LIP6 10/06/2010
Caractérisation des clients: analyse
du réseau social

On modélise les relations observées
entre des personnes par
un graphe (réseau social)


Alina Stoica
les nœuds: les individus
les liens correspondent aux relations observées
–p6
LIP6 10/06/2010
Caractérisation des clients: approche
centrée sur l'individu

Décrire comment chaque nœud (individu) est connecté dans le
réseau

Analyse de la structure locale du réseau, autour de chaque nœud

Gros volumes de données 
mesures avec petite complexité
Alina Stoica
–p7
LIP6 10/06/2010
La méthode proposée

Etape1: calcul du réseau égocentré d'un nœud (ego) 
lister les triangles contenant ego
Eg(ego)
Alina Stoica
–p8
LIP6 10/06/2010

Alina Stoica
Etape 2: énumération des patterns dans le réseau égocentré
–p9
LIP6 10/06/2010
Exemple


Alina Stoica
10 nœuds: 4 isolés
5 liens: 1 isolés

2

1

1
– p 10
LIP6 10/06/2010
Description des liens formés par ego
(positions de ses voisins)

Après étape 2: description de la façon dont ego est
connecté dans le réseau

Etape 3: calcul des positions occupées par les contacts
d'ego

Plusieurs positions dans un pattern:
Alina Stoica
– p 11
LIP6 10/06/2010

Etape 2: énumération des patterns dans le réseau égocentré
 Etape 3: calcul des positions dans les patterns
Alina Stoica
– p 12
LIP6 10/06/2010
Un autre exemple

Alina Stoica
Etape1: calcul du réseau égocentré d'un nœud (ego)
– p 13
LIP6 10/06/2010
Alina Stoica
– p 14
LIP6 10/06/2010
Avantages

Applicable à tout réseau
 Connaissance locale du réseau
 Rapide

Motifs caractéristiques
 Description de la structure locale


Alina Stoica
Ego
Les contacts d'ego (les liens d'ego)
– p 15
LIP6 10/06/2010
Application
Le réseau de téléphonie mobile Mobistar (Orange en
Belgique)
La base de données

Les communications (appels et SMS) des clients de Mobistar
pendant octobre 2006

Un enregistrement:
Les identifiants (anonymisés) des deux personnes
 L'heure
 La durée
 Le type (appel vocal ou SMS)


Pour chaque jour, 10 millions communications avec plus de 3
millions clients
Alina Stoica
– p 17
LIP6 10/06/2010
Le réseau social
Les nœuds: les clients de Mobistar
 Un lien entre deux nœuds:


au moins une communication dans chaque sens
3 millions de nœuds
 6 millions de liens

Alina Stoica
– p 18
LIP6 10/06/2010
Patterns caractéristiques (1)

Alina Stoica
Un pattern est "caractéristique" si:
Définition 1: son nombre d'occurrences dans les réseaux
égocentrés est supérieur à un seuil donné
– p 19
LIP6 10/06/2010
Patterns caractéristiques (2)

Un pattern est "caractéristique" si:
Définition 2: le nombre de réseaux égocentrés le contenant est
supérieur à un seuil donné
Alina Stoica
– p 20
LIP6 10/06/2010
Patterns caractéristiques (3)

Un pattern est "caractéristique" si :
Définition 3: son nb d'occurrences
dans les réseaux égocentrés est
supérieur au nb d'occurrences
dans des réseaux générés
aléatoirement

Pour chaque réseau égocentré, plusieurs générations en utilisant Orbis [1]
[1] P. Mahadevan, D. Krioukov, K. Fall and A. Vahdat, “Systematic topology analysis and
generation using degree correlations,” SIGCOMM, 2006
Alina Stoica
– p 21
LIP6 10/06/2010
Positions des contacts d'ego
Alina Stoica
– p 22
LIP6 10/06/2010
Positions des contacts d'ego: la fréquence
des appels

Alina Stoica
En moyenne, pour chaque motif:

Le contact qui parle le plus souvent avec ego

Les contacts suivants

Le contact qui parle peu avec ego
et
– p 23
LIP6 10/06/2010
Positions des contacts d'ego: la fréquence
des appels
Alina Stoica
– p 24
LIP6 10/06/2010
Positions des contacts d'ego: la durée des
appels

Alina Stoica
En moyenne, pour chaque motif:

Le contact qui la plus grande fréquence d'appel

Le contact qui la plus grande durée d'appel

Le contact qui parle peu avec ego
– p 25
et
LIP6 10/06/2010
Commentaires sur les résultats

Licoppe C., Smoreda Z., 2005, “Are social networks
technologically embedded? How networks are changing today
with changes in communication technology,” Social Networks, vol.
27, no. 4, pp. 317–335

Deux registres de communication:


Alina Stoica
Présence connectée
Présence intermittente
– p 26
LIP6 10/06/2010
Application
Le réseau des artistes sur MySpace: Analyse de la
popularité en ligne
L'artiste MySpace, entrepreneur de sa
notoriété
 Nb
de visites de la
page
 Nb de commentaires
 Nb d'amis
 "marketing
de soi-
même"
Alina Stoica
– p 28
LIP6 10/06/2010
Construction des données
Aspiration BFS à partir de
7 profils initiaux
Nb. total de profiles (artist ou fan)
Nb. de profiles artist
Nb. total de liens
21 153
13 936
143 831
Nb. de liens entre artistes
83 201
Réciprocité des liens
40.1%
Artists avec label “Major”
3 422
Artists avec label “Indie”
Artists sans label
7 069
3 445
Alina Stoica
– p 29
LIP6 10/06/2010
Clustering des artistes à partir de la
popularité en ligne

On caractérise chaque artiste par un vecteur:

Nb. de visites de sa page
audience






Alina Stoica
Nb. de commentaires laissés sur sa page
Nb. de gens l'avoir déclaré comme meilleur ami (autorité)
Nb. d'artistes l'avoir déclaré comme meilleur ami (autorité artistique)
Réciprocité de ses liens
Label: "Major" (=3), "Indie" (=2) ou "Other" (=1)
On groupe les individus avec Kohonen SOM
– p 30
LIP6 10/06/2010
Résultat SOM
Alina Stoica
– p 31
LIP6 10/06/2010
Clustering des cellules

Alina Stoica
k-means clustering + expectation maximization algorithm
5 clusters
– p 32
LIP6 10/06/2010
Description des clusters

Vert (3): superstars, avec le plus de notoriété, à la fois influents et
autoritaires; élites MySpace, avec une forte stratégie marketing online,
populaires dans les medias traditionnels

Bleu foncé (2): artistes influens avec une notoriété plus faible que les
superstars mais avec une stratégie marketing efficace; souvent trendy,
avant-garde music.

Orange (5): artistes dynamiques d'un point de vue social, avec
audience faible; groupes d'artistes non-professionnels bien intégrés
dans des scènes locale

Bleu (1): artistes avec une audience moyenne, faible autorité et peu de
liens réciproques; sans stratégie MySpace importante

Rouge (4): artistes anonymes avec peu d'audience et sans pratique
sociale active
Nord
Est
Ouest
Réciprocité
Audience + Autorité
Sud
Alina Stoica
– p 33
LIP6 10/06/2010
A degré égal
Alina Stoica
– p 34
LIP6 10/06/2010
A nombre de liens égal
Alina Stoica
– p 35
LIP6 10/06/2010
Caractérisation des liens
En utilisant les positions dans les patterns:

Clusters 1 et 4: liens sortants vers 3

Cluster 2: liens réciproques avec lui-même

Cluster 3:



Cluster 5:


Alina Stoica
liens réciproque avec lui-même dans les positions centrales et intermédiaires
liens entrants avec 4 dans les positions périphériques
liens réciproques avec 2 et 5 dans les positions centrales
liens sortant vers 3 dans les autres positions
– p 36
LIP6 10/06/2010
On peut envisager de

Faire des catégories de nœuds pour




Alina Stoica
grouper les nœuds qui se connectent de la même façon au réseau
 rôle
identifier les nœuds "spéciaux"
 nœuds influents, leaders sociaux
comparer à des caractéristiques exogènes au réseau
 prédiction
Mesurer l'évolution
– p 37
LIP6 10/06/2010
Merci!