Wykorzystanie informacji rodowodowej lub podobieństwa

Download Report

Transcript Wykorzystanie informacji rodowodowej lub podobieństwa

Wykorzystanie informacji rodowodowej
lub podobieństwa molekularnego
do określenia postaci dyspersji efektów genetycznych
w liniowym modelu mieszanym z dwoma
komponentami
Marta Molińska-Glura, Krzysztof Moliński
Wisła, grudzień 2010
I.
Tworzenie macierzy spokrewnień w oparciu o rodowód
II. Tworzenie macierzy podobieństw molekularnych w oparciu o
różne miary podobieństwa
III. Model liniowy z dwoma komponentami
IV. Estymacja komponentów metodą REML
V. Kryterium wyboru modelu
• Predykcja efektów genetycznych nazywanych wartościami hodowlanymi
roślin lub zwierząt ma istotne znaczenie w selekcji osobników.
• Efekty genetyczne w naukach medycznych najczęściej skojarzone są z
odziedziczalnością pewnych cech (chorób).
I.
Tworzenie macierzy spokrewnień w oparciu o rodowód
Konstrukcja klasycznego rodowodu w postaci tabelarycznej rozpoczyna się od
uporządkowania posiadanych obiektów oraz przypisaniu im rodziców. Możliwe
jest również umieszczenie w tabeli rodowodowej osobników o nieokreślonych
przodkach. Poniżej zamieszczono fragment przykładowej tabeli rodowodowej:
nr
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
nazwa
FID
VID
EP1
F120
MEID
S220
S65294A
S56125A
BID
S41796
S64417
S64423-2
S68911
S54555
S633223
S41324A-2
S41336
S79757
S41789
E
ojciec matka
2
1
2
1
2
1
6
1
5
2
4
3
4
3
9
16
16
10
19
2
Odmiany kukurydzy
o nieznanym pochodzeniu
Odmiany kukurydzy z pełną
informacją rodowodową
Informacje zawarte w tabelarycznej postaci rodowodu mogą posłużyć do
wyznaczenia macierzy spokrewnień.
Na podstawie prac Wright`a (1922) i późniejszych Henderson`a (1988)
możemy przedstawić wzory definiujące elementy tej macierzy:
𝑎𝑖𝑗 = 𝑎𝑗𝑖 =
1
2
𝑎𝑠𝑖 + 𝑎𝑑𝑖
1
2
𝑎𝑖𝑖 = 1 + 𝑎𝑠𝑖 𝑑𝑖
gdzie 𝑎𝑠𝑖 oraz 𝑎𝑑𝑖 oznaczają wyznaczoną informację rodowodową,
odpowiednio ojca i matki, dla i-tego osobnika,
𝑎𝑠𝑖 𝑑𝑖 oznacza stopień spokrewnienia ojca i matki i-tego osobnika.
Korzystając z tabelarycznej postaci rodowodu i wcześniejszych wzorów na określanie
współczynników pokrewieństwa rodowodowego, odpowiednia macierz
spokrewnień przyjmuje postać:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
FID
VID
EP1
F120
MEID
S220
S65294A
S56125A
BID
S41796
S64417
S64423-2
S68911
S54555
S633223
S41324A-2
S41336
S79757
S41789
E
1
2
FID VID
1
0
1
3
4
5
6
EP1 F120 MEID S220
0
0
0
0
0
0
0
0
1
0
0
0
1
0
0
1
0
1
7
S65294A
0
0
0
0
0
0
1
8
S56125A
0
0
0
0
0
0
0
1
9
BID
0
0
0
0
0
0
0
0
1
10
S41796
0
0
0
0
0
0
0
0
0
1
11
S64417
0,5
0,5
0
0
0
0
0
0
0
0
1
12
S64423-2
0,5
0,5
0
0
0
0
0
0
0
0
0,5
1
13
S68911
0,5
0,5
0
0
0
0
0
0
0
0
0,5
0,5
1
14
S54555
0,5
0
0
0
0
0,5
0
0
0
0
0,25
0,25
0,25
1
15
S633223
0
0,5
0
0
0,5
0
0
0
0
0
0,25
0,25
0,25
0
1
16
S41324A-2
0
0
0,5
0,5
0
0
0
0
0
0
0
0
0
0
0
1
17
S41336
0
0
0,5
0,5
0
0
0
0
0
0
0
0
0
0
0
0,5
1
18
S79757
0
0
0,25
0,25
0
0
0
0
0,5
0
0
0
0
0
0
0,5
0,25
1
19
S41789
0
0
0,25
0,25
0
0
0
0
0
1
0
0
0
0
0
0,5
0,25
0,25
1
20
E
0
0,5
0,125
0,125
0
0
0
0
0
0,25
0,25
0,25
0,25
0
0,25
0,25
0,125
0,125
0,5
1
II.
Tworzenie macierzy podobieństw molekularnych w
oparciu o różne miary podobieństwa
1. Przetworzenie obrazu na tablicę zawierającą odpowiednie wartości mas
molekularnych charakteryzujące strukturę każdego z obiektów.
2. Zastosowanie znanych miar podobieństwa molekularnego bazujących na
zestawie mas molekularnych .
3. Wartości podobieństw molekularnych jako składowe macierzy podobieństw
molekularnych.
Przykładowy obraz widma uzyskany dzięki elektroforezie metodą PCR
Najpopularniejszymi miarami oznaczania podobieństwa molekularnego są:
Miara Nei-Li
2𝑁𝑖𝑗
𝐺𝑖𝑗 =
𝑁𝑖 + 𝑁𝑗
Miara Kulczyńskiego
𝑁𝑖𝑗 𝑁𝑖 + 𝑁𝑗
𝐺𝑖𝑗 =
2𝑁𝑖 𝑁𝑗
Miara Jaccarda
𝑁𝑖𝑗
𝐺𝑖𝑗 =
𝑁𝑖 + 𝑁𝑗 − 𝑁𝑖𝑗
𝑁𝑖 to liczba „prążków” dla i-tego obiektu,
𝑁𝑗 to liczba „prążków” dla j-tego obiektu,
𝑁𝑖𝑗 to liczba „prążków” dla i-tego i j-tego obiektu występujących na tych
samych pozycjach.
Korzystając z wyników analiz molekularnych metodą RAPD i wzoru Nei`a-Li
określających podobieństwo molekularne odpowiednia macierz podobieństw
molekularnych przyjmuje postać:
III.
Model liniowy z dwoma komponentami
𝑦 = 𝑋𝛽 + 𝑍𝑢 + 𝑒
𝑦𝑛×1 wektor obserwowanych zmiennych losowych
𝑋𝑛×𝑝 macierz dla parametrów stałych, pełnego rzędu kolumnowego
𝛽𝑝×1 wektor parametrów stałych
𝑍𝑛×𝑞 macierz dla efektów losowych
𝑢𝑞×1 wektor losowych efektów obiektowych
𝑒𝑛×1 wektor błędów losowych
Założenia:
Dla wektora błędów losowych 𝑒 zakładamy:
𝑒~𝑁𝑛 0, 𝜎𝑒 2 𝐼𝑛 .
Dla wektora zmiennych losowych 𝑢:
𝑢~𝑁𝑞 0, 𝜎𝑢 2 𝐻 ,
gdzie 𝜎𝑢 2 𝐻 oznacza dyspersję wektora losowego 𝑢.
Ponadto, wektory losowe 𝑢 i 𝑒 są niezależne, oraz 𝜎𝑒 2 > 0 i 𝜎𝑢 2 ≥ 0
są tzw. komponentami wariancji, reprezentującymi odpowiednio wariancję
błędów eksperymentalnych oraz wariancję losowych efektów obiektowych.
Przy wcześniejszych założeniach możemy zapisać:
𝑦~𝑁𝑛 𝑋𝛽, 𝑉
𝑉 = 𝜎𝑒 2 𝜌𝑍𝐻𝑍` + 𝐼𝑛
𝜌=
𝜎𝑢 2
𝜎𝑒 2
jest ilorazem komponentów wariancji
IV.
Estymacja komponentów metodą REML
Spośród wielu metod estymacji komponentów wariancji wybrano znaną metodę
REML. Stąd uzasadnione jest przyjęcie we wstępie założenia o normalności
rozkładu zmiennej losowej 𝑦.
Zasada metody REML polega na wydzieleniu w funkcji gęstości
wielowymiarowego rozkładu normalnego dwóch czynników, z których pierwszy
wystarcza do estymacji komponentów wariancji (nie zależy od wektora
parametrów stałych), drugi zaś zależy zarówno od wektora parametrów stałych
jak i komponentów wariancji. W rozważanym modelu podział ten daje się
zapisać:
𝑔 𝑦 𝜎, 𝛽 = 𝑔1 𝑀1 𝑦 𝜎 ∙ 𝑔2 𝑀2 𝑦 𝜎, 𝛽
𝑔, 𝑔1 , 𝑔2 oznaczają odpowiednie funkcje gęstości wielowymiarowego rozkładu
normalnego oraz wymienionych wyżej czynników.
Macierz 𝑀1 jest podmacierzą pełnego rzędu wierszowego macierzy:
𝐼𝑛 − 𝑋 𝑋 ` 𝑋
−1
𝑋 ` oraz 𝑀2 = 𝑋 ` 𝑉 −1 , 𝜎 = 𝜎𝑢 2 , 𝜎𝑒 2
Dalsze postępowanie polega na niezależnej maksymalizacji funkcji
𝑔1 i 𝑔2 . Postępowanie to sprowadza się rozwiązania układu równań nieliniowych:
𝑆𝜎 = 𝑞,
w którym elementy 𝑠𝑖𝑗 macierzy 𝑆 oraz 𝑞𝑖 wektora 𝑞 𝑖, 𝑗 = 0,1, ⋯ , 𝑚 mają
następującą postać ogólną (zależną od nieznanych 𝜎𝑖 2 , 𝑖 = 0,1, ⋯ , 𝑚):
𝑠𝑖𝑗 = 𝑡𝑟 𝑃𝑉𝑖 𝑃𝑉𝑗
𝑞𝑖 = 𝑦 ` 𝑃𝑉𝑖 𝑃𝑦 ,
gdzie 𝑃 = 𝑉 −1 − 𝑉 −1 𝑋 𝑋 ` 𝑉 −1 𝑋
− ` −1
𝑋𝑉
V.
Kryterium wyboru modelu
Predyktor dla wektora efektów losowych
𝑢 = 𝜎𝑢 2 𝐻𝑍 ` 𝑉 −1 𝑦 − 𝑋𝛽 = 𝜌𝐻𝑍 ` 𝜌𝑍𝐻𝑍 ` + 𝐼𝑛
𝛽=
𝑢=
𝜌𝐻𝑍 `
𝜌𝑍𝐻𝑍 `
+ 𝐼𝑛
gdzie
𝑊=𝑉
oraz
𝝆=
𝑦 − 𝑋𝛽
−1 `
`
𝑋 𝑊𝑋 𝑋 𝑊𝑦
−1
𝑦−𝑋
= 𝜌𝐻𝑍 ` 𝑉 −1 − 𝑉 −1 𝑋 𝑋 ` 𝑉 −1 𝑋
−1
−1
𝝈𝒖 𝟐
𝝈𝒆 𝟐
−1 `
`
𝑋 𝑊𝑋 𝑋 𝑊𝑦
−1
=⋯=
𝑋 ` 𝑉 −1 𝑦 = 𝜌𝐻𝑍 ` 𝑃𝑦
1. W miejsce macierzy 𝜎𝑢 2 𝐻 przyjmujemy macierz 𝜎𝑖 2 𝐼𝑞
nieznana struktury zależności między obiektami
2. W miejsce macierzy 𝜎𝑢 2 𝐻 przyjmujemy 𝜎𝑎 2 𝐴
macierz 𝐴 zawiera wartości współczynników pokrewieństwa rodowodowego
(animal model-model zwierzęcia)
3. W miejsce macierzy 𝜎𝑢 2 𝐻 przyjmujemy 𝜎𝑔 2 𝐺
macierz 𝐺 zawiera wartości współczynników podobieństwa molekularnego