Résultats pour la méthode K-mean

Download Report

Transcript Résultats pour la méthode K-mean

Jessica Monhart ([email protected])
Camille Pitteloud ([email protected])
Supervisé par Micha Hersch
1)
2)
3)
4)
Introduction
Objectifs
Intérêts
Méthodes et résultats
a. K-means
b. PCA
5) Comparaison des méthodes
6) Perspectives
7) Feedback
-> Toutes les souris de laboratoire descendent de la même espèce
ancestrale: Mus musculus
-> Le génome des souris de laboratoire a montré qu’elles
descendaient de différentes sous-espèces de Mus musculus:
• Mus musculus musculus
• Mus musculus domesticus
• Mus musculus castaneus
• Mus musculus molossinus
-> Aujourd’hui, plus de 450 souches consanguines ont été
créées en laboratoire.
-> Une souche est considérée comme consanguine lorsqu’il
y a eu croisement entre frère et sœur plus de 20 fois
consécutives.
-> Etant donné que la plupart des souches a été croisée sur
plus de 150 générations, elles sont considérées comme
homozygotes.
a) Comparaison de souris de différentes souches sur
une base de SNPs (au niveau du génome ou d’une
région)
-> Sont-elles proches ou éloignées ?
-> Le regroupement par similarité coïncide-t-il avec
leur phylogénie?
b) Comparaison des
résultats obtenus avec
ceux de la littérature
scientifique
c) Comparaison de différentes méthodes
d’analyse
-> Quels sont leurs avantages et leurs
inconvénients ?
Connaître la distance génétique entre les
différentes souches de souris permet:
-> L’obtention de meilleurs échantillonnages
lors d’expériences
-> L’élimination de variables confondantes
génétiques
Transformation de données génétiques en
données mathématiques
•
Codage des 4 bases (A-T,C-G) en valeurs -1,1
•
Conversion des SNPs en vecteurs
-> n SNPs stockés dans un vecteur = n dimensions
Principe:
Création d’un
algorithme
définissant des
groupes auxquels il
attribue les souris.
• 1ère étape:
Décider de K, c’est-à-dire faire l’hypothèse sur
le nombre de groupes à trouver.
-> Dans notre cas, nous avons 4 souches
principales donc nous aurons 4 groupes.
• 2ème étape:
Initialiser les centroïdes.
-> Dans notre cas, nous avons 4
groupes, donc nous aurons 4
centroïdes.
-> Initialisation = distribution des
centroïdes autour de la moyenne
de tous les points.
-> Ces centroïdes finiront par se
trouver au centre de chaque
groupe auquel ils appartiennent.
• 3ème étape:
Assimiler chaque point à chaque
groupe.
-> Dans notre cas, il s’agit de
répartir chaque souris à son
centroïde le plus proche.
-> La position du centroïde
correspond à la moyenne des
points.
• 4ème étape:
Recalculer la position des
centroïdes.
-> Il faut prendre tous les points
affectés à un centre et refaire la
moyenne.
-> L’étape 3 et 4 sont à répéter
jusqu’à ce que les centroïdes ne
bougent plus.
Souches:
•
•
•
•
•
•
•
•
•
•
1 129S1/SvImJ
2
A/J
3
AKR/J
4 BALB/cByJ
5 BTBRT+tf/J
6 C3H/HeJ
7 C57BL/6J
8
C58/J
9
CBA/J
10 DBA/2J
•
•
•
•
•
•
•
•
•
•
11 FVB/NJ
12
I/LnJ
13 KK/HlJ
14
LP/J
15 NOD/ShiLtJ
16 NZB/BlNJ
17
PL/J
18
SJL/J
19
SM/J
20
SWR/J
Résultats que l’on s’attendait à obtenir:
1ère analyse:
2ème analyse:
3ème analyse:
• Résultats pour les 3287 SNPs:
1ère analyse:
2ème analyse:
3ème analyse:
• Résultats pour le chromosome 1 (263 SNPs):
1ère analyse:
2ème analyse:
3ème analyse:
• Résultats pour le chromosome 10 (163 SNPs):
1ère analyse:
2ème analyse:
3ème analyse:
• Résultats pour le chromosome 19 (73 SNPs):
1ère analyse:
2ème analyse:
3ème analyse:
Conclusion:
-> Même en réduisant le nombre de SNPs, les analyses
ne donnent pas de résultats suffisamment similaires.
-> Cette méthode ne fonctionne pas pour nos données.
Principe:
Méthode permettant de réduire le nombre de
dimensions
Utile car représenter graphiquement les différentes
souches (vecteurs) contenant plusieurs SNPs
(dimensions) est impossible
-> réduction des données en 2D (voire 3D)
Marche à suivre:
1.
Sélection des SNPs et des souches à comparer
Exemple:
rsnps
X.1 X1.5 X1.7
[1,] -1 -1 1
[2,] -1 1 -1
[3,] 1 1 -1
[4,] -1 1 1
[5,] 1 1 -1
[6,] -1 1 -1
2. Calcul de la matrice de covariance C
-> évaluation de la relation entre les SNPs
Exemple:
matricecov<-cov(t(rsnps))
> matricecov
[,1]
[,2]
[,3]
[,4]
[,5]
[,6]
[1,] 1.3333333 -0.6666667 -1.3333333 0.6666667 -1.3333333 -0.6666667
[2,] -0.6666667 1.3333333 0.6666667 0.6666667 0.6666667 1.3333333
[3,] -1.3333333 0.6666667 1.3333333 -0.6666667 1.3333333 0.6666667
[4,] 0.6666667 0.6666667 -0.6666667 1.3333333 -0.6666667 0.6666667
[5,] -1.3333333 0.6666667 1.3333333 -0.6666667 1.3333333 0.6666667
[6,] -0.6666667 1.3333333 0.6666667 0.6666667 0.6666667 1.3333333
3. Diagonalisation de C
-> obtention des vecteurs et des valeurs propres
Exemple:
eigen(matricecov)
$values [1] 5.154701e+00 2.845299e+00 5.529209e-16 3.268086e-16 -6.352955e-17
[6] -2.158371e-16
-Le 1er vecteur propre est celui
qui maximise la variance.
-Plus la valeur propre est grande,
plus la variance est importante.
4. Sélection de k vecteurs propres (2 ou 3)
-> réduction du nombre de dimensions
5. Projection de tous les points (souches)
sur le plan formé par les k vecteurs propres
Comment tirer des conclusions à partir de nos plots?
1) 9 plots très semblables
2) Mise en évidence des souches externes/groupées
3) PCA sur les souches externes
4) Enlever les souches externes
5) PCA sur les souches restantes
• PCA sur les 20
souches:
• PCA sur les 5 souches extérieures au groupe central:
• PCA sur les 15
souches:
• PCA sur les 4 souches extérieures au 15:
• PCA sur les 11 souches:
• PCA sur les 9 souches:
• PCA sur les 7 souches:
• Résultats pour
les 9 souches:
• Résultat final
de la PCA:
-> les distances estimées par la
PCA correspondent aux distances
entre les groupes trouvés dans
la littérature
1) K-means:
Avantages:
-> méthode plus rapide à assimiler
-> méthode plus simple à appliquer
Inconvénient:
-> méthode qui ne fonctionne pas sur nos données
2) Analyse en composantes principales:
Avantage:
-> méthode efficace pour analyser nos données
Inconvénients:
-> méthode longue et compliquée
-> nous ne pouvions pas utiliser tous les SNPs,
seulement 1000.
-> Utilisation d’autres méthodes
-> Nous aurions pu analyser l’ADN mitochondrial
et comparer les résultats avec ceux des SNPs
-> Deviner les SNPs manquants chez certaines
souris au sein d’un certain groupe
-> Apprentissage de méthodes de
programmation
-> Réalisation du projet lui-même
-> Aperçu d’analyses mathématiques sur
des données biologiques
Nous tenons à remercier Micha Hersch pour sa
disponibilité, son soutien et sa patience!
Jessica Monhart
([email protected])
Camille Pitteloud
([email protected])