#1 Antiparasitic (Ivermectin), How Long Does Ivermectin Kill Bugs

Transcript #1 Antiparasitic (Ivermectin), How Long Does Ivermectin Kill Bugs

Agrocampus Ouest - Laboratoire de mathématiques
Année Universitaire 2014-2015
1ere Session : Septembre 2014
- Année d’étude : Spécialité Statistique
-
1
Enseignement (intitulé exact) : Logiciel statistique R
Durée de l’épreuve : 2 heures
Rédacteur du sujet : Julie Josse
Documents autorisés : Tous
Coefficient RV, valeur sous H0 et test de significativité
Le coefficient RV est un coefficient de corrélation linéaire entre deux matrices Xn×p and Yn×q . Il varie entre
0 et 1 et vaut 0 quand toutes les variables du premier groupe sont orthogonales aux variables du deuxième
groupe et 1 quand les positions relatives des individus sont les mêmes d’un tableau à l’autre. Quand les
groupes sont composés d’une variable (p = q = 1), le coefficient RV est égale au carré du coefficient de
corrélation simple. Comme pour le coefficient de corrélation, un coefficient RV élevé n’implique pas forcément
une liaison significative. Il est donc important d’utiliser un test pour éprouver sa significativité.
1. Importer le jeu de données de chimiometrie NIR qui se trouve sur ma page internet. Il s’agit d’un
jeu de données où 100 bières ont été analysées par une technique de spectroscopie vibrationelle :
near infrared (NIR). L’objectif de cette étude est d’identifier et de garantir l’authenticité de produits
comme la Trappist Rochefort 8 (une des sept authentiques Trappiste dans le monde).
Les bières ont été analysées deux fois par le même instrument. Nous voulons savoir si la technique
de mesure est stable, autrement dit si elle fournit la même information lors des deux mesures.
2. Les deux premières lignes du jeu de données correspondent aux deux mesures réalisées sur la première
bière, les lignes 3 et 4 correspondent à la deuxième bière, etc. A partir du jeu de données, créer deux
tableaux de données de même dimension 100 * 1050, un tableau pour chaque réplication. On enlèvera
les deux variables qualitatives. Calculer le coefficient RV entre les deux matrices à l’aide de la fonction
coeffRV du package FactoMineR. Récupérer et stocker sa valeur.
3. Générer deux matrices de même dimensions (100 * 1050) contenant uniquement des variables indépendantes.
On pourra utiliser la fonction rmvnorm du package mvtnorm. Calculer le coefficient RV entre ces
deux matrices. Répéter cette opération 100 fois et donner le quantile à 95 % des valeurs obtenues.
Comment interpréter ce résultat au regard de la valeur observée de votre coefficient RV. Quel coefficient aurait-on envie de commenter ?
Un coefficient de corrélation simple entre deux variables peut être proche de 1 car l’échantillon est
de petite taille. Ce phénomène est aussi présent pour le coefficient RV.
4. Reprendre la question 3 en faisant varier la dimension des jeux de données. Créer une fonction qui
prend comme entrée n (un nombre de lignes), p (un nombre de colonnes) et qui renvoie le quantile
correspondant. Réaliser un tableau avec comme nom de ligne n = 10, n = 20, n = 30, ..., n = 100
et comme nom de colonne p = q = 5, p = q = 10, p = q = 20, p = q = 50, p = q = 100, p = q =
200. Remplir ce tableau avec les valeurs des quantiles des coefficients RV calculés sous l’hypothèse
d’indépendance. Commenter.
On va réaliser un test de permutation pour tester la significativité du coefficient RV. Pour ce faire, on
va simuler l’hypothèse nulle (H0 : RV = 0) par permutation. On va permuter les lignes 1, 2, 3, ...., n
de X et garder Y fixé : par exemple, la première permutation consiste à ordonner les lignes de X
de la façon suivante 2, 1, 3, 4, ...n et à calculer le coefficient RV entre la version permutée de X et
Y . En réalisant cette opération pour toutes les permutations possibles des lignes de X, on obtient la
distribution du RV sous l’hypothèse nulle (on a cassé la structure de liaison entre les deux tableaux).
Réaliser toutes les permutations est très couteux en temps de calcul. On va donc utiliser seulement
un sous-ensemble de toutes les permutations.
5. Reprenez vos jeux de données initiaux avec les matrices X et Y correspondant aux 100 bières pour
chaque réplication. Générer 1000 permutations des lignes de X. On pourra utiliser la fonction sample.
Pour chaque permutation, calculer le coeffRV entre X permuté et Y . Représenter graphiquement la
distribution des coefficients RV et tracer une droite verticale en rouge à la valeur observée sur votre
jeu de données initial. Calculer la probabilité critique du test (la proportion de valeurs supérieures
ou égales à la valeur observée). Commenter.
2
Coefficient dCor pour les liaisons non-linéaires
Le coefficient de corrélation et le coefficient RV permettent de détecter des liaisons linéaires. D’autres
coefficients comme le coefficient dCor permettent de détecter des liaisons non linéaires.
1. Soit un couple (X, Y ) distribué selon une loi normale avec l’espérance des deux variables égale à 0,
leur variance égale à 1 et une covariance égale à 0.4. Générer un échantillon de taille n = 50 issu de
cette loi et représenter graphiquement les deux variables.
2. Estimer le coefficient de corrélation entre les deux variables ainsi que le coefficient dCor grâce à la
fonction dcor du package energy. Réaliser le test de significativité de ces coefficients à l’aide des
fonctions cor.test pour le coefficient de corrélation linéaire et dcov.test pour le coefficient dCor.
Récupérer les probabilités critiques associées. Le test de significativité du coefficient de corrélation est
basée sur sa distribution mais il est aussi possible de tester sa significativité en utilisant le principe
des permutations. Cela est possible en utilisant l’argument index=2 de la fonction dcov.test.
3. Réaliser la même opération (questions 1 et 2, c’est-à-dire simulation des données, calculs des coefficients et tests de significativité) 1000 fois et calculer la puissance des tests (aptitude à détecter la
liaison). Créer une matrice qui aura pour nom de ligne n=10, n=20, n=30, n=40, ..., n=100, n=200
et 3 colonnes avec pour nom ”Cor test classique”, ”Cor permutation” , ”dCov test”. On remplira
cette matrice avec les puissances des trois tests calculées pour les différentes tailles d’échantillon.
4. Représenter sur un même graphique la puissance en fonction de n pour le coefficient dCor et pour le
coefficient de corrélation. Ajouter une légende. Commenter.
On s’intéresse maintenant à une liaison non-linéaire.
5. On génère X selon une loi normale d’espérance nulle et de variance égale à 1 et Y est généré comme
une fonction non-linéaire de X : Y = exp(−(1 + 2 ∗ X)2 ) + sin(X 2 )). Représenter graphiquement les
deux variables pour un échantillon de taille n = 50. Etudier la puissance des tests, de la même façon
que précédemment. Commenter. On fera de même avec Y = 1/(3 + 6 ∗ exp(−4 ∗ X)) et Y = log(X 2 ).
Le coefficient dCov peut être utilisé et généralisé pour les matrices comme le coefficient RV.
3
Manipulations
1. Importer le jeu de données scopus (les notes sur les journaux).
2. Récupérer les notes de 2004 à 2014. Réorganiser le tableau de données de façon à réaliser une analyse
de la variance des 3 indices (SNIP, IPP, SJR) en fonction des années. On souhaite donc avoir un
tableau qu’on appellera ”Qualite” avec 4 colonnes (3 pour les 3 indices plus 1 pour la variable
année). Calculer la moyenne des indices par année sur les données observées. Donner le tableau
”Qualitecentrées” où les indices sont centrés par année pour s’affranchir de l’effet année.
3. A partir du tableau ”Qualite” réaliser trois analyses de variance pour tester l’effet année sur les
indices et créer une matrice avec autant de ligne que d’années et 3 colonnes (une pour chaque indice).
On remplira cette matrices avec les moyennes ajustées c’est à dire les valeurs estimées pour les années
obtenues par analyse de variance. Donner les deux années pour lesquelles les notes IPP ont été les
plus importantes.
4. A partir du tableau ”Qualite”, créer une matrice avec 3 colonnes, la première s’appellera ”note”, la
deuxième ”indice” et la troisième ”année”. La première colonne contient toutes les notes des 3 indices,
la deuxième est une variable qualitative à 3 modalités (SNIP, IPP, SJR) et la troisième correspond à
l’année.

#1 Antiparasitic (Ivermectin), How Long Does Ivermectin Kill Bugs

Transcript #1 Antiparasitic (Ivermectin), How Long Does Ivermectin Kill Bugs

Directory