#1 Antiparasitic (Ivermectin), How Long Does Ivermectin Kill Bugs
Download
Report
Transcript #1 Antiparasitic (Ivermectin), How Long Does Ivermectin Kill Bugs
Agrocampus Ouest - Laboratoire de mathématiques
Année Universitaire 2014-2015
1ere Session : Septembre 2014
- Année d’étude : Spécialité Statistique
-
1
Enseignement (intitulé exact) : Logiciel statistique R
Durée de l’épreuve : 2 heures
Rédacteur du sujet : Julie Josse
Documents autorisés : Tous
Coefficient RV, valeur sous H0 et test de significativité
Le coefficient RV est un coefficient de corrélation linéaire entre deux matrices Xn×p and Yn×q . Il varie entre
0 et 1 et vaut 0 quand toutes les variables du premier groupe sont orthogonales aux variables du deuxième
groupe et 1 quand les positions relatives des individus sont les mêmes d’un tableau à l’autre. Quand les
groupes sont composés d’une variable (p = q = 1), le coefficient RV est égale au carré du coefficient de
corrélation simple. Comme pour le coefficient de corrélation, un coefficient RV élevé n’implique pas forcément
une liaison significative. Il est donc important d’utiliser un test pour éprouver sa significativité.
1. Importer le jeu de données de chimiometrie NIR qui se trouve sur ma page internet. Il s’agit d’un
jeu de données où 100 bières ont été analysées par une technique de spectroscopie vibrationelle :
near infrared (NIR). L’objectif de cette étude est d’identifier et de garantir l’authenticité de produits
comme la Trappist Rochefort 8 (une des sept authentiques Trappiste dans le monde).
Les bières ont été analysées deux fois par le même instrument. Nous voulons savoir si la technique
de mesure est stable, autrement dit si elle fournit la même information lors des deux mesures.
2. Les deux premières lignes du jeu de données correspondent aux deux mesures réalisées sur la première
bière, les lignes 3 et 4 correspondent à la deuxième bière, etc. A partir du jeu de données, créer deux
tableaux de données de même dimension 100 * 1050, un tableau pour chaque réplication. On enlèvera
les deux variables qualitatives. Calculer le coefficient RV entre les deux matrices à l’aide de la fonction
coeffRV du package FactoMineR. Récupérer et stocker sa valeur.
3. Générer deux matrices de même dimensions (100 * 1050) contenant uniquement des variables indépendantes.
On pourra utiliser la fonction rmvnorm du package mvtnorm. Calculer le coefficient RV entre ces
deux matrices. Répéter cette opération 100 fois et donner le quantile à 95 % des valeurs obtenues.
Comment interpréter ce résultat au regard de la valeur observée de votre coefficient RV. Quel coefficient aurait-on envie de commenter ?
Un coefficient de corrélation simple entre deux variables peut être proche de 1 car l’échantillon est
de petite taille. Ce phénomène est aussi présent pour le coefficient RV.
4. Reprendre la question 3 en faisant varier la dimension des jeux de données. Créer une fonction qui
prend comme entrée n (un nombre de lignes), p (un nombre de colonnes) et qui renvoie le quantile
correspondant. Réaliser un tableau avec comme nom de ligne n = 10, n = 20, n = 30, ..., n = 100
et comme nom de colonne p = q = 5, p = q = 10, p = q = 20, p = q = 50, p = q = 100, p = q =
200. Remplir ce tableau avec les valeurs des quantiles des coefficients RV calculés sous l’hypothèse
d’indépendance. Commenter.
On va réaliser un test de permutation pour tester la significativité du coefficient RV. Pour ce faire, on
va simuler l’hypothèse nulle (H0 : RV = 0) par permutation. On va permuter les lignes 1, 2, 3, ...., n
de X et garder Y fixé : par exemple, la première permutation consiste à ordonner les lignes de X
de la façon suivante 2, 1, 3, 4, ...n et à calculer le coefficient RV entre la version permutée de X et
Y . En réalisant cette opération pour toutes les permutations possibles des lignes de X, on obtient la
distribution du RV sous l’hypothèse nulle (on a cassé la structure de liaison entre les deux tableaux).
Réaliser toutes les permutations est très couteux en temps de calcul. On va donc utiliser seulement
un sous-ensemble de toutes les permutations.
5. Reprenez vos jeux de données initiaux avec les matrices X et Y correspondant aux 100 bières pour
chaque réplication. Générer 1000 permutations des lignes de X. On pourra utiliser la fonction sample.
Pour chaque permutation, calculer le coeffRV entre X permuté et Y . Représenter graphiquement la
distribution des coefficients RV et tracer une droite verticale en rouge à la valeur observée sur votre
jeu de données initial. Calculer la probabilité critique du test (la proportion de valeurs supérieures
ou égales à la valeur observée). Commenter.
2
Coefficient dCor pour les liaisons non-linéaires
Le coefficient de corrélation et le coefficient RV permettent de détecter des liaisons linéaires. D’autres
coefficients comme le coefficient dCor permettent de détecter des liaisons non linéaires.
1. Soit un couple (X, Y ) distribué selon une loi normale avec l’espérance des deux variables égale à 0,
leur variance égale à 1 et une covariance égale à 0.4. Générer un échantillon de taille n = 50 issu de
cette loi et représenter graphiquement les deux variables.
2. Estimer le coefficient de corrélation entre les deux variables ainsi que le coefficient dCor grâce à la
fonction dcor du package energy. Réaliser le test de significativité de ces coefficients à l’aide des
fonctions cor.test pour le coefficient de corrélation linéaire et dcov.test pour le coefficient dCor.
Récupérer les probabilités critiques associées. Le test de significativité du coefficient de corrélation est
basée sur sa distribution mais il est aussi possible de tester sa significativité en utilisant le principe
des permutations. Cela est possible en utilisant l’argument index=2 de la fonction dcov.test.
3. Réaliser la même opération (questions 1 et 2, c’est-à-dire simulation des données, calculs des coefficients et tests de significativité) 1000 fois et calculer la puissance des tests (aptitude à détecter la
liaison). Créer une matrice qui aura pour nom de ligne n=10, n=20, n=30, n=40, ..., n=100, n=200
et 3 colonnes avec pour nom ”Cor test classique”, ”Cor permutation” , ”dCov test”. On remplira
cette matrice avec les puissances des trois tests calculées pour les différentes tailles d’échantillon.
4. Représenter sur un même graphique la puissance en fonction de n pour le coefficient dCor et pour le
coefficient de corrélation. Ajouter une légende. Commenter.
On s’intéresse maintenant à une liaison non-linéaire.
5. On génère X selon une loi normale d’espérance nulle et de variance égale à 1 et Y est généré comme
une fonction non-linéaire de X : Y = exp(−(1 + 2 ∗ X)2 ) + sin(X 2 )). Représenter graphiquement les
deux variables pour un échantillon de taille n = 50. Etudier la puissance des tests, de la même façon
que précédemment. Commenter. On fera de même avec Y = 1/(3 + 6 ∗ exp(−4 ∗ X)) et Y = log(X 2 ).
Le coefficient dCov peut être utilisé et généralisé pour les matrices comme le coefficient RV.
3
Manipulations
1. Importer le jeu de données scopus (les notes sur les journaux).
2. Récupérer les notes de 2004 à 2014. Réorganiser le tableau de données de façon à réaliser une analyse
de la variance des 3 indices (SNIP, IPP, SJR) en fonction des années. On souhaite donc avoir un
tableau qu’on appellera ”Qualite” avec 4 colonnes (3 pour les 3 indices plus 1 pour la variable
année). Calculer la moyenne des indices par année sur les données observées. Donner le tableau
”Qualitecentrées” où les indices sont centrés par année pour s’affranchir de l’effet année.
3. A partir du tableau ”Qualite” réaliser trois analyses de variance pour tester l’effet année sur les
indices et créer une matrice avec autant de ligne que d’années et 3 colonnes (une pour chaque indice).
On remplira cette matrices avec les moyennes ajustées c’est à dire les valeurs estimées pour les années
obtenues par analyse de variance. Donner les deux années pour lesquelles les notes IPP ont été les
plus importantes.
4. A partir du tableau ”Qualite”, créer une matrice avec 3 colonnes, la première s’appellera ”note”, la
deuxième ”indice” et la troisième ”année”. La première colonne contient toutes les notes des 3 indices,
la deuxième est une variable qualitative à 3 modalités (SNIP, IPP, SJR) et la troisième correspond à
l’année.