Esercitazioni File - e

Download Report

Transcript Esercitazioni File - e

Esercitazioni
Software

Textpad (editor di testo)

Arlequin (Pacchetto per genetica di popolazioni)

Past (analisi varie)
Esercitazioni: Contenuti

Stima parametri Intra-popolazione (MtDNA,Y Chr.)

Stima parametri demografici (MtDNA)

Stima parametri Inter-popolazione (MtDNA,Y Chr.)

Rappresentazioni grafiche (PAST) (MtDNA,Y Chr.)
Flusso genico differenziale Pigmei Bantu
PIGMEI
•Cacciatori raccoglitori
•Piccole dimensioni
•Bassa taglia effettiva
•Struttura sociale variabile
BANTU
•Agricoltori
•Grandi dimensioni
•Alta taglia effettiva
•Patrilocali
•Poliginia
Flusso genico differenziale Pigmei Bantu
<5000 BP
Areale di distribuzione delle
popolazioni Pigmee
Flusso genico elevato tra
popolazioni Pigmee
Flusso genico differenziale Pigmei Bantu
5000 – 3000 BP
Areale di distribuzione delle
popolazioni Pigmee
Origine espansione Bantu
Frammentazione dell’areale dei
Pigmei
Diminuzione del flusso genico
tra i Pigmei
Flusso genico differenziale Pigmei Bantu
Cavalli Sforza
Flusso genico differenziale Pigmei Bantu
Flusso genico differenziale Pigmei Bantu
L’ipotesi
Flusso genico differenziale Pigmei Bantu
Impedimenti di natura socioculturale
Pigmei
Bantu
La donna Pigmea va a vivere
insieme al marito Bantu.
Nel caso di decesso o divorzio la
donna Pigmea torna al suo villaggio
portando con se i figli.
Flusso genico differenziale Pigmei Bantu
Valutare la presenza di questo pattern attraverso gli effetti sulla
variabilità genetica
Variabilità interna
PIGMEI BANTU
mtDNA
Y chr
Parametri demografici
•Bantu segnali di espansione
•Pigmei segnali di stazionarietà
Variabilità inter-popolazione
•mtDNA diversità più marcata tra Bantu e Pigmei
•Y chr Diversità meno marcata tra Bantu e Pigmei
Flusso genico differenziale Pigmei Bantu
PIGMEI
Babinga
Baka
Bakola
Biaka
Mbenzele
BANTU
Bakaka
Bassa
Bateke
Ewondo
Ngoumba

DNA mitocondriale (HVR1)

Cromosoma Y (6 STR)
Arlequin
Arlequin è un pacchetto di software per analisi che
fornisce all’utente di genetica di popolazione un gran
numero di metodi di base e test statistici, al fine di estrarre
informazioni
sulle
caratteristiche
genetiche
e
demografiche di una raccolta di campioni di popolazione.
Settaggio e preparazione file Arlequin
[Profile]
NbSamples=1
DataType=STANDARD # - {DNA, RFLP, MICROSAT, STANDARD, FREQUENCY}
GenotypicData=0 # - {0, 1}
GameticPhase=1 # - {0, 1}
LocusSeparator=WHITESPACE # - {TAB, WHITESPACE, NONE}
RecessiveData=0 # - {0, 1}
MissingData='?' # A single character specifying missing data
# Some advanced settings the experienced user can uncomment
# Frequency= ABS
# - {ABS, REL}
# FrequencyThreshold= 1.0e-5 # - (Any real number, usually between 1.0e-7 and 1.e-3)
# EpsilonValue= 1.0e-7
# - (Any real number, usually between 1.0e-12 and 1.0e-5)
[Data]
[[Samples]]
SampleName="Name of Population number 1"
SampleSize= 6 #Fictive number, but must match the sume of haplotype frequencies given below
SampleData= {
#Example of a sample consisiting of haplotypic data (2 haplotypes, 2 loci):
h1
2 TC
h2
4 GT
}
Variabilità Intra-Popolazione
(MtDNA e cromosoma Y)
Arlequin: Variabilità Intra-Popolazione
(MtDNA)
S: Number of polymorphic sites (numero di siti polimorfi)
Numero di posizioni dove è presente una mutazione (SNP). Relazionando questo
numero alla lunghezza della sequenza considerata si ha un’idea della variabilità
nucleotidica (Nucleotide diversity)
H: Number of Haplotypes (numero di aplotipi diversi)
Il numero di aplotipi diversi trovati nella popolazione
HD: Haplotype diversity (Gene diversity)
La probabilità che due aplotipi (alleli) presi a caso all’interno del pool siano diversi.
n= numero di individui
K= numero diverso di aplotipi
P= frequenza dell’i-esimo aplotipo
Permette di fare confronti dal momento che tiene in considerazione la taglia del campione (N)
Arlequin: Variabilità Intra-Popolazione
(MtDNA)
MNPD: Mean number of paiwise differences (numero medio di differenze a coppie)
Numero di differenze ,al livello di sequenze, tra tutti gli individui della popolazione
confrontati a coppie.
k= il numero di differenze tra le
sequenze generiche i e j
n= numero di sequenze nel campione
n(n-1)/2=numero di confronti totale
AMOVA: Analysis of Molecular Variance
Analisi per valutare il grado di strutturazione delle popolazioni.
Un analisi gerarchica della varianza basata sulle frequenze geniche e le differenze tra aplotipi:
La varianza è poi suddivisa in componenti relative a:
•Diversità all’interno delle popolazioni
•Diversità tra popolazioni all’interno dei gruppi
•Diversità tra gruppi
Arlequin: Variabilità Intra-Popolazione
(Cromosoma Y)
h, Hd, MNPD, AMOVA
S: Number of alleles (numero di alleli)
Numero di alleli per ogni locus
R: Allelic range (range allelico)
Il range di alleli differenti per ogni locus
Garza-Williamson index (G-W)
Indice sensibile a recenti colli di bottiglia
k=numero di alleli in un dato locus
R= range allelico
Valori bassi di G-W: collo di bottiglia
Valori prossimi a 1 di G-W: popolazione stazionaria
Parametri demografici
(MtDNA)
Arlequin: Parametri demografici
(mtDNA)
Le variazioni della taglia effettiva di una popolazione nel tempo
Test di selezione basati sul confronto tra i vari stimatori del parametro =4Nµ (2Nµ
per i sistemi aploidi). MtDNA e Cromosoma Y non soggetti a selezione quindi i test
stimano gli effetti della demografia sulla struttura genetica delle popolazioni
(Hom): una stima che si ottiene dall’omozigosità osservata
(S): una stima che si ottiene dal numero osservato di siti segreganti
(k): una stima che si ottiene dal numero osservato di alleli
(π): una stima che si ottiene dal numero medio di differenze a coppie
•Non tutti i metodi sono utilizzabili con i diversi marcatori
•In definitiva tutti questi metodi dovrebbero dare lo stesso risultato
•Dal momento che ogni metodo fa delle assunzioni a priori e differenze nella stima
possono essere interpretate come una violazione di tali assunzioni
Arlequin: Parametri demografici
(mtDNA)
TAJIMA’S D
Test basato sul modello a siti infiniti senza ricombinazione quindi adatto per MtDNA
Tante mutazioni di cui poche condivise tra aplotipi diversi D>0
Selezione bilanciante o Espansione demografica
Poche mutazioni di cui molte condivise tra aplotipi diversi D<0
Neutralità selettiva o Stazionarietà
La significatività è calcolata tramite simulazioni di popolazioni in equilibrio.
Il P-Value è la probabilità di ottenere valori di D minori o uguali all’osservato.
Arlequin: Parametri demografici
(mtDNA)
Espansione
Stazionarietà
Stazionarietà
P-Value del D è calcolato attraverso un approccio di simulazione che fornisce la
probabilità di ottenere valori di D minori o uguali da una popolazione selettivamente
neutrale generata a random.
Arlequin: Parametri demografici
(mtDNA)
Fs di Fu
Test basato sul modello a siti infiniti senza ricombinazione quindi adatto per MtDNA
Valuta la differenza tra la variabilità osservata e quella attesa secondo un modello
di evoluzione neutrale.
Si calcola prima la probabilità (S’) di osservare un campione neutrale con un numero
di alleli minore o uguale al valore osservato, dato il numero di differenze a coppie
(stima di )
Fs positivo: il numero di alleli minore rispetto all’atteso
selezione positiva o bottleneck recente
Fs negativo: il numero di alleli maggiore rispetto all’atteso
selezione bilanciante o espansione demografica
Fs vicino allo zero: assunzioni modello rispettate
Neutralità selettiva o popolazione stazionaria
Anche per Fs di Fu la significatività è calcolata tramite simulazioni di popolazioni in equilibrio.
Il P-Value è la probabilità di ottenere valori di Fs minori o uguali all’osservato.
Arlequin: Parametri demografici
(mtDNA)
Mismatch distribution
La distribuzione delle differenze a coppie tra sequenze
La forma della distribuzione fornisce indizi sulla storia demografica della popolazione
I
II III IV V
I
A G T C T T A C G T A T C
I
-
II
A G T C T T G C G T A T C
II
1
-
III
A G T T T T A C G T A T C
III 1
2
-
IV
A G T C T T G C G T C T C
IV 2
1
3
-
V
A G T C T T A C G T A T C
V 0
1
1
2
-
0.6
0.5
0.4
0.3
0.2
0.1
0
1
2
3
4
p.d.
N
Freq.
0
1
0,1
1
5
0,5
2
3
0,3
3
1
0,1
Arlequin: Parametri demografici
(mtDNA)
RAGGEDNESS: indice che permette di distinguere tra i due tipi di distribuzione
Robustezza (raggedness) r, somma dei quadrati delle
differenze tra due picchi vicini.
r più basso per le distribuzioni a campana
r <0,03 per i dati di sequenza, indica un’espansione
della popolazione nel passato.
Variabilità Inter-Popolazione
(MtDNA e cromosoma Y)
Arlequin:Variabilità inter-popolazione
Una metapopolazione è una popolazione suddivisa in sottopopolazioni parzialmente
isolate; ciò determina un deficit di eterozigoti (no equilibrio Hardy Weinberg).
Il processo di suddivisione genera una struttura gerarchica della popolazione. Ogni
volta che i dati non rispecchiano il random mating possiamo pensare ad una struttura
nella popolazione e quindi possiamo misurare la distribuzione di variabilità.
Fst
Parametro di distanza genetica che misura il grado di variabilità di una metapopolazione
suddivisa in subpopolazioni.
Fst = Vp/ p (1-p)
dove p e Vp sono la media e la varianza delle frequenze geniche tra le due
subpopolazioni;
Misura la porzione di varianza totale nelle frequenze alleliche tra le subpopolazioni
0<Fst<1
Arlequin:Variabilità inter-popolazione
DISTANZA GENETICA Fst TRA DUE POPOLAZIONI AD UN LOCUS CON DUE ALLELI
Varianza =(X-Xm)2/N
Fst= Vp / P (1-P)
La devianza/N
p = frequenza allelica
Devianza = (X- Xm)2
P = frequenza allelica media
Somma degli scarti al quadrato
1 e 2 = popolazione 1 e 2
scarto: un
valore
X
sottratto
rispetto alla media aritmetica
Fst =
(p1-P)2 + (p2-P)2
2
x
1
P (1-P)
Arlequin:Variabilità inter-popolazione
ESEMPIO DI CALCOLO DELLA DISTANZA GENETICA Fst
POP 1
POP 2
POP 1
POP 2
p1=0,3
p2=0,7
p1=0,1
p2=0,9
P=0,5
(0,3-0,5)2 + (0,7-0,5)2
=
= 0,16
2 x [0,5 x (1-0,5)]
P=0,5
(0,1-0,5)2 + (0,9-0,5)2
Fst =
= 0,64
2 x [0,5 x (1-0,5)]
Arlequin:Variabilità inter-popolazione
Rst:
Misura della distanza genetica equivalente all’Fst ma adattata ai loci microsatellite.
Assume un modello stepwise ad alto tasso di mutazione.
Ax-yi = Numero di ripetizioni per il locus i
nelle popolazioni x e y
Arlequin:Variabilità inter-popolazione
Bisogna valutare se il valore ottenuto sia significativo, quindi se la suddivisione della
popolazione è maggiore di quella attesa per caso
Bisogna escludere che:
•La popolazione non sia differenziata
•Le differenze tra le frequenze alleliche siano dovute al campionamento
•L’accoppiamento sia casuale
Il test è realizzato mediante permutazioni o Monte-Carlo method (si usano numeri
casuali).
Arlequin:Variabilità inter-popolazione
MONTE-CARLO PERMUTATION TEST
I dati sono presi a caso più volte,
ogni allele è assegnato casualmente
a una subpopolazione, in modo che
la freq di ogni allele resti costante
nella metapopolazione. La misura di
interesse (Fst) viene calcolata per i
1000 datasets simulati. Perché il
valore osservato di Fst sia
significativamente diverso da 0, deve
essere più grande di una certa
porzione (X) dei valori simulati,
dove 1-X è il limite di significatività.
Per es. se il valore di Fst è più
grande in più di 950 simulazioni su
1000, il livello di significatività sarà
del 5%.
Past: rappresentazioni grafiche
ANALISI MULTIVARIATE
CLUSTER ANALISYS
Seleziona e raggruppa elementi omogenei all’interno di un set di dati.
Esistono diversi metodi (algoritmi) suddivisi principalmente in due categorie
Clustering partitivo: L’appartenenza ad un gruppo è definita dalla distanza da un
punto rappresentativo del cluster (centriode etc..) avendo determinato a priori il
numero di cluster (K-means)
Clustering gerarchico: Si costruisce una gerarchia di partizioni caratterizzata da un
numero decrescente di cluster (UPGMA, Neighbour joining etc..)
Past: rappresentazioni grafiche
Una matrice di distanza genetiche ha tante dimensioni quante sono le popolazioni
quindi è impossibile da visualizzare graficamente a meno che non si riassume
l’informazione in modo che possa essere rappresentata in due dimensioni.
MDS (Multidimensional scaling)
costrizione delle distanze genetiche in uno spazio a due dimensioni con la minor perdita
di informazione possibile (minore distorsione possibile)
La distorsione è rappresentata dal parametro stress
Flusso differenziale Pigmei Bantu
1.2
RISULTATI
1
0.8
0.6
HD mtDNA
0.4
0.2
0
1.2
1
0.8
HD Y chromosome
0.6
0.4
0.2
0
Flusso differenziale Pigmei Bantu
16
RISULTATI
14
12
10
8
MNPD mtDNA
6
4
6
2
5
0
4
3
MNPD Y chromosome
2
1
0
Flusso differenziale Pigmei Bantu
BAKOLA
0.3
0.25
0.2
0.15
0.1
0.05
0
0
2
4
6
8
BATEKE
10
0.18
0.16
0.14
0.12
0.1
0.08
0.06
0.04
0.02
0
0
2
4
6
8
10
12
14
16
Flusso differenziale Pigmei Bantu
0,12
Bateke
0,06
0
Ew ondo Ngoumba
Bassa
Bakaka
Baka
Bakola
mtDNA
Mbenzele
Among pop. p-value
Coordinate 2
-0,06
Pigmies
-0,12
Bantu
-0,18
-0,24
-0,3
-0,36
-0,5
26.85
0.00
1.91
0.00
Biaka
-0,4
-0,3
-0,2
-0,1
0
Coordinate 1
0,1
Babinga
0,2
0,3
0,4
Flusso differenziale Pigmei Bantu
Ew ondo
0,32
Y chromosome
Bassa
0,24
Among pop. p-value
Bateke
Coordinate 2
0,16
Pigmies
0,08
Bantu
Bakola
Ngoumba
0
-0,08
Bakaka
-0,16
Babinga
Mbenzele
Baka
Biaka
-0,24
-0,4
-0,3
-0,2
-0,1
0
0,1
Coordinate 1
0,2
0,3
0,4
0,5
5.36
0.00
11.36
0.00