Incontro con l`autore. - Istituto Comprensivo Minturno 1

Download Report

Transcript Incontro con l`autore. - Istituto Comprensivo Minturno 1

PROCESSI STOCASTICI: INTEGRAZIONI
ALESSANDRA FAGGIONATO
Abstract. Le presenti note forniscono del materiale integrativo al corso di processi
stocastici in merito alle catene di Markov a tempo discreto e a tempo continuo. Il testo
di riferimento `e il libro “Markov chains” di J. Norris (Cambridge University Press).
1. Definizioni e risultati sparsi
Definizione 1.1. Dato un insieme I, si chiama processo stocastico con spazio degli stati
I una famiglia (Xt )t∈T di variabili aleatorie a valori in I e definite sullo stesso spazio di
probabilit`
a, dove T ⊂ R.
Un processo stocastico corrisponde ad un sistema dinamico stocastico, T pu`o essere
pensato come la famiglia di tempi in cui il sistema viene osservato e Xt corrisponde allo
stato del sistema al tempo t.
Sia P matrice stocastica su I. Sia λ una distribuzione su I e sia (Xn )n≥0 una catena
di Markov con matrice di transizione P e distribuzione iniziale λ. Abbiamo visto che,
pensato λ con vettore riga, il vettore riga λP k `e la distribuzione di Xk per ogni k ≥ 0.
Sia P matrice stocastica su I. Sia f : I → C una funzione limitata. Pensato f come
vettore colonna, vale
P k f (i) = Ei (f (Xk )) .
Infatti, per definizione di prodotto di matrici e poi per definizione di valore atteso abbiamo
X (k)
X
P k f (i) =
pi,j f (j) =
Pi (Xk = j)f (j) = Ei (f (Xk )) .
j∈I
j∈I
Proposizione 1.2. Sia (Xn )n≥0 una M C(λ, P ). Sia m ≥ 1 e i ∈ I. Sia A un evento determinato da X0 , X1 , . . . , Xm−1 , Xm e sia B un evento determinato da Xm , Xm+1 , Xm+2 , . . . .
Allora
P(B|Xm = i, A) = P(B|Xm = i) .
(1.1)
Precisazioni:
(1) Ricordiamo che A ⊂ Ω mentre X0 , X1 , . . . , Xm−1 , Xm : Ω → I. A `e determinato
da X0 , X1 , . . . , Xm−1 , Xm se, noti i valori di X0 (ω), X1 (ω),...,Xm−1 (ω), Xm (ω),
sono in grado di dire se ω ∈ A oppure ω 6∈ A (cio`e se l’evento A si `e realizzato
oppure no). Stessa precisazione per B. Un esempio di A `e ”X1 = X2 = · · · = Xm ”
(2) Quando scriviamo (1.1) sottindendiamo l’ipotesi che P(Xm = i, A) > 0 e P(Xm =
i) > 0.
1
2
ALESSANDRA FAGGIONATO
Proof. L’affermazione segue dal teorema di Markov (see Thm.1.1.2 [N]). At tal fine definiamo Q = P(·|Xm = i). Per il suddetto teorema sappiamo che A, B sono indipendenti
m =i)
rispetto a Q. Si noti che Q(A) = P(A|Xm = i) = P(A,X
P(Xm =i) > 0 per la precisazione 2. Dato
che Q(A) > 0, la Q–indipendenza di A e B puo’ essere riformulata come Q(B|A) = Q(B).
D’altro canto
Q(B|A) = P(B|Xm = i, A) = l.h.s. of (1.1) ,
Q(B) = P(B|Xm = i) = r.h.s. of (1.1) ,
da cui otteniamo (1.1).
Proposizione 1.3. Sia (Xn )n≥0 una M C(λ, P ). Dati 0 ≤ n1 < n2 < · · · < nk e
i1 , . . . , ik ∈ I vale
P (Xn1 = i1 , Xn2 = i2 , . . . , Xnk = ik ) =
(λP n1 )i1 (P n2 −n1 )i1 ,i2 · · · (P nk −nk−1 )ik−1 ,ik
Proof. Dimostrazione 1. Per semplificare la notazione prendiamo k = 3. Il metodo
comunque ´e generale. Possiamo scrivere
P (Xn1 = i1 , Xn2 = i2 , Xn3 = i3 ) =
X
X
i0 ,...,in1 −1
X
in1 +1 ,...,in2 −1
P(Xr = ir ∀r : 0 ≤ r ≤ n3 ) .
in2 +1 ,...,in3 −1
Per il criterio generale dato da Thm.1.1.1[N] e per le regole di calcolo matriciale, il secondo
membro `e dato da
X
X
X
i0 ,...,in1 −1 in1 +1 ,...,in2 −1 in2 +1 ,...,in3 −1
λ i0
nY
3 −1
pir ,ir+1 = (λP n1 )i1 (P n2 −n1 )i1 ,i2 (P n3 −n2 )i2 ,i3 .
r=0
Dimostrazione 2. Dimostriamo per induzione su k. Il caso k = 1 `e noto (vedi thm.
1.1.3 [N]). Supponiamo k ≥ 2. Abbiamo
P (Xn1 = i1 , Xn2 = i2 , . . . , Xnk = ik )
= P (Xn1 = i1 ) P (Xn2 = i2 , . . . , Xnk = ik | Xn1 = i1 , )
= P (Xn1 = i1 ) Pi1 (Xn2 −n1 = i2 , . . . , Xnk −n1 = ik )
Si noti che la prima uguaglianza segue dalla def. di probabilit`a condizionata, la seconda
dal teorema di Markov applicato al tempo n1 (see Thm.1.1.2 [N]). Per ipotesi induttiva
abbiamo
P (Xn1 = i1 ) = (λP n1 )i1
e
Pi1 (Xn2 −n1 = i2 , . . . , Xnk −n1 = ik ) = (P n2 −n1 )i1 ,i2 · · · (P nk −nk−1 )ik−1 ,ik
da cui la tesi.
Dimostrazione 3. Dimostriamo per induzione su k. Il caso k = 1 `e noto (vedi thm.
1.1.3 [N]). Supponiamo k ≥ 2. Abbiamo
P (Xn1 = i1 , Xn2 = i2 , . . . , Xnk = ik ) =
P Xn1 = i1 , Xn2 = i2 , . . . , Xnk−1 = ik−1 P Xnk = ik | Xn1 = i1 , Xn2 = i2 , . . . , Xnk−1 = ik−1
PROCESSI STOCASTICI: INTEGRAZIONI
3
Per ipotesi induttiva
P Xn1 = i1 , Xn2 = i2 , . . . , Xnk−1 = ik−1 = (λP n1 )i1 (P n2 −n1 )i1 ,i2 · · · (P nk−1 −nk−2 )ik−2 ,ik−1
Per la Prop. 1.2 e la propriet`
a di Markov abbiamo
P Xnk = ik | Xn1 = i1 , Xn2 = i2 , . . . , Xnk−1 = ik−1 =
P Xnk = ik |Xnk−1 = ik−1 = Pik−1 Xnk −nk−1 = ik = (P nk −nk−1 )ik−1 ,ik
(1.2)
2. Commenti sul teorema 1.7.6 in [N]
We concentrate on the first part of the proof of Theorem 1.7.6 in [6]. The aim is to
show that, if P is irreducible and if λ is an invariant measure for P with λk = 1, then
γ ≥ γk.
P
We fix j ∈ I. Since λ = λP we can write λj = i0 ∈I λi0 pi0 ,j . Using that λk = 1 then
we get the identity
X
λi0 pi0 ,j + pk,j .
λj =
(2.1)
i0 6=k
By the above identity it holds
X
λ i0 =
λi1 pi1 ,i0 + pk,i0 .
(2.2)
i1 6=k
As a byproduct of (2.1) and (2.2) we conclude that


X X

λj =
λi1 pi1 ,i0 + pk,i0  pi0 ,j + pk,j
i0 6=k
=
i1 6=k
X
(2.3)
λi1 pi1 ,i0 pi0 ,j +
i0 ,i1 6=k
X
pk,i0 pi0 ,j + pk,j
i0 6=k
By identity (2.1) it holds
X
λ i1 =
λi2 pi2 ,i1 + pk,i1 .
(2.4)
i2 6=k
As a byproduct of (2.3) and (2.4) we conclude that


X X
X

λj =
λi2 pi2 ,i1 + pk,i1  pi1 ,i0 pi0 ,j +
pk,i0 pi0 ,j + pk,j
i0 ,i1 6=k
=
i2 6=k
X
i0 6=k
λi2 pi2 ,i1 pi1 ,i0 pi0 ,j +
i0 ,i1 ,i2 6=k
X
(2.5)
pk,i1 pi1 ,i0 pi0 ,j +
i0 ,i1 6=k
X
pk,i0 pi0 ,j + pk,j
i0 6=k
One can continue to iterate the above substitution, getting for each integer n ≥ 1 that
X
λj =
λin pin ,in−1 pin−1 ,in−2 · · · pi1 ,i0 pi0 ,j
i0 ,...,in 6=k
+ pk,j +
X
i0 6=k
pk,i0 pi0 ,j +
X
i0 ,i1 6=k
pk,i1 pi1 ,i0 pi0 ,j + · · · +
X
pk,in−1 pin−1 ,in−2 · · · pi1 ,i0 pi0 ,j .
i0 ,...,in−1 6=k
(2.6)
4
ALESSANDRA FAGGIONATO
Note in particular that (2.6) with n = 1 corresponds to (2.3) and (2.6) with n = 2
corresponds to (2.5). We can write
pk,j = Pk (X1 = j) = Pk (X1 = j , Tk ≥ 1)
and
X
pk,i0 pi0 ,j =
i0 6=k
X
Pk (X1 = i0 , X2 = j) = Pk (X1 6= k, X2 = j) = Pk (X2 = j, Tk ≥ 2)
i0 6=k
and
X
pk,i1 pi1 ,i0 pi0 ,j =
X
Pk (X1 = i1 , X2 = i0 , X3 = j)
i0 ,i1 6=k
i0 ,i1 6=k
= Pk (X1 6= k, X2 6= k, X3 = j) = Pk (X3 = j , Tk ≥ 3)
and so on until the equation
X
pk,in−1 pin−1 ,in−2 · · · pi1 ,i0 pi0 ,j =
X
Pk (X1 = in−1 , X2 = in−2 , . . . , Xn = i0 , Xn+1 = j)
i0 ,...,in−1 6=k
i0 ,...,in−1 6=k
= Pk (X1 6= k, X2 6= k, . . . , Xn 6= k , Xn+1 = j)
= Pk (Xn+1 = j , Tk ≥ n + 1) .
Using that the first term in the r.h.s. of (2.6) is nonnegative we conclude that
λj ≥ Pk (X1 = j , Tk ≥ 1)+Pk (X2 = j, Tk ≥ 2)+Pk (X3 = j , Tk ≥ 3)+· · ·+Pk (Xn+1 = j , Tk ≥ n+1)
(2.7)
for each positive integer n. Taking the limit n → ∞ we have
λj ≥
∞
X
Pk (Xm = j , Tk ≥ m) =
m=1
"
= Ek
∞
X
Ek [1(Xm = j , Tk ≥ m)]
m=1
∞
X
#
1(Xm = j , Tk ≥ m) = Ek
m=1
"T −1
k
X
#
(2.8)
1(Xm = j) .
m=1
Note that for j 6= k it holds
"T −1
#
"T −1
#
k
k
X
X
1(X1 = j) =: γjk .
1(Xm = j) = Ek
Ek
(2.9)
m=0
m=1
As a byproduct of (2.8) and (2.9) we conclude that
λj ≥ γjk
∀j 6= k .
(2.10)
Since by hypothesis it holds λk = 1 = γkk we conclude that λ ≥ γ k .
`
3. Stazionarieta
Sia P matrice stocastica.
Definizione 3.1. Una misura λ : I → [0, ∞) si dice invariante (o stazionaria) rispetto a
P se λP = λ e λ 6≡ 0.
Definizione 3.2. Una distribuzione λ : I → [0, 1] si dice invariante (o stazionaria)
rispetto a P se λP = λ.
PROCESSI STOCASTICI: INTEGRAZIONI
5
Definizione 3.3. Una catena di Markov (Xn )n≥0 di parametri (λ, P ) si dice invariante
(o stazionaria) se per ogni ogni m ≥ 0 intero il processo stocastico (Xn+m )n≥0 `e anch’esso
una catena di Markov di parametri (λ, P ).
Proposizione 3.4. Una catena di Markov (Xn )n≥0 di parametri (λ, P ) `e stazionaria se
e solo se λ `e distribuzione stazionaria rispetto a P .
Proof. Supponiamo che (Xn )n≥0 sia stazionaria. Allora per ogni i ∈ I deve valere P (X0 =
i) = P (X1 = i). Per le note regole di calcolo questo equivale al fatto che λ(i) = (λP )(i)
per ogni i ∈ I. Quindi λ `e distribuzione stazionaria rispetto a P .
Supponiamo ora che λ sia distribuzione stazionaria rispetto a P . Fissiamo m ≥ 0 intero
e dimostriamo che (Yn )n≥0 `e catena di Markov di parametri (λ, P ), dove Yn := Xm+n .
Sappiamo che ci basta provare che
P (Y0 = i0 , Y1 = i1 , . . . , Yn = in ) = λ(i0 )pi0 ,i1 · · · pin−1 ,in
(3.1)
per ogni n ≥ 0 e ogni i0 , i1 , . . . , in ∈ I. Per definizione di Yk e poi per le note regole di
calcolo otteniamo
P (Y0 = i0 , Y1 = i1 , . . . , Yn = in ) = P (Xm = i0 , Xm+1 = i1 , . . . , Xm+n = in ) =
(λP m )i0 pi0 ,i1 · · · pin−1 ,in .
Al fine di ottenere (3.1) ci basta osservare che per la stazionariet`a di λ vale (λP m )i0 =
λ(i0 ).
`
4. Reversibilita
Sia P matrice stocastica.
Definizione 4.1. Una misura λ : I → [0, ∞) si dice reversibile (o che soddisfa l’equazione
del bilancio dettagliato) rispetto a P se λ 6≡ 0 e
λ(i)pi,j = λ(j)pj,i
∀i, j ∈ I .
(4.1)
Definizione 4.2. Una distribuzione λ : I → [0, 1] si dice reversibile (o che soddisfa
l’equazione del bilancio dettagliato) rispetto a P se
λ(i)pi,j = λ(j)pj,i
∀i, j ∈ I .
(4.2)
Definizione 4.3. Una catena di Markov (Xn )n≥0 di parametri (λ, P ) si dice reversibile
se per ogni N ≥ 0 intero il processo stocastico (Yn )0≤n≤N dove Yn = XN −n `e una catena
di Markov di parametri (λ, P ) a tempi in {0, 1, . . . , N }.
Proposizione 4.4. Una distribuzione λ reversibile rispetto a P `e anche invariante rispetto
a P.
Proof. Sia λ reversible. Per l’equazione del bilancio dettagliato e usando che P `e stocastica
abbiamo
X
X
X
λj Pj,i =
λi Pi,j = λi
Pi,j = λi .
j∈I
j∈I
j∈I
Proposizione 4.5. Una catena di Markov (Xn )n≥0 di parametri (λ, P ) `e reversibile se e
solo se λ `e distribuzione reversibile rispetto a P .
6
ALESSANDRA FAGGIONATO
Proof. Supponiamo che (Xn )n≥0 sia reversibile. Prendendo N = 1 otteniamo per ogni
i, j ∈ I che
P (Y0 = i, Y1 = j) = P (X1−0 = i, X1−1 = j) = P (X0 = j, X1 = i) .
Per le note regole di calcolo possiamo riscrivere il primo e l’ultimo membro come
λ(i)pi,j = λ(j)pj,i .
Abbiamo quindi verificato che λ soddisfa l’equazione del bilancio dettagliato.
Supponiamo ora che valga l’equazione del bilancio dettagliato. Per il Teo. 1.1.1 del
Norris, dobbiamo dimostrare che per ogni N ≥ 0, n ≥ 0, i0 , i1 , . . . , in ∈ I vale
P (Y0 = i0 , Y1 = i1 , . . . , Yn = in ) = λ(i0 )pi0 ,i1 · · · pin−1 ,in
(4.3)
dove Yk := XN −k . Per tale definizione di Yk e per le note regole di calcolo vale
P (Y0 = i0 , Y1 = i1 , . . . , Yn = in ) = P (X0 = in , Xn−1 = in−1 , . . . , Xn−1 = i1 , Xn = i0 ) =
λ(in )pin ,in−1 pin−1 ,in−2 · · · pi1 ,i0
(4.4)
Per l’equazione del bilancio dettagliato abbiamo
λ(ik )pik ,ik−1 = pik−1 ,ik λ(ik−1 ) .
(4.5)
Applicando (4.5) con k = n abbiamo
λ(in )pin ,in−1 pin−1 ,in−2 · · · pi1 ,i0 = pin−1 in λ(in−1 )pin−1 ,in−2 · · · pi1 ,i0 .
Applicando iterativamente (4.5) con k = n − 1, poi k = n − 2,..., fino a k = 1 otteniamo
λ(in )pin ,in−1 pin−1 ,in−2 · · · pi1 ,i0 = pin−1 ,in Pin−2 ,in−1 · · · pi0 ,i1 λ(i0 ) .
A tal punto la tesi (4.3) segue da (4.4) e (4.6).
(4.6)
5. Distribuzioni invarianti
Tutto si riferisce ad una data matrice di transizione (matrice stocastica) P .
5.1. Caso P irriducibile.
Lemma 5.1. Sia P irriducibile. Allora ogni misura λ invariante rispetto a P soddisfa
λ(i) > 0 per ogni i ∈ I.
Proof. Supponiamo che λ 6≡ 0. Fissiamo j ∈ I tale che λ(j) > 0. Dato che P `e irriducibile,
dato i ∈ I esiste n ≥ 0 tale che (P n )j,i > 0. Usando l’invarianza abbiamo λP n = λ e
quindi
X
λ(i) = (λP n )i =
λ(k)(P n )k,i ≥ λ(j)(P n )j,i > 0 .
k∈I
Ricordiamo i teoremi trattati in [N] e discussi in classe:
Osserviamo che dal Th. 1.7.5[N], dal Th. 1.7.6 [N] e dal Lemma 5.1 segue:
Corollario 5.2. Sia P irriducibile e ricorrente. Allora P ha un’unica misura invariante
a meno di fattori moltiplicativi positivi. Infatti, fissato un k ∈ I, le misure invarianti sono
tutte e sole del tipo c γ k con c > 0.
PROCESSI STOCASTICI: INTEGRAZIONI
7
Proof. Fisso k ∈ I. Per Theorem 1.7.5[N] γ k `e misura invariante. Fisso λ un’altra misura
˜ come λ(i)
˜ = λ(i)/λ(k). Ho che λ
˜
invariante. Per Lemma 5.1 ho λk > 0. Posso definire λ
˜
`e misura invariante in quanto multiplo positivo di misura invariante ed inoltre λ(k) = 1.
˜ = γ k . Quindi λ = λ(k)γ k .
Per Theorem 1.7.6 [N] ho λ
8
ALESSANDRA FAGGIONATO
Ricordiamo ora un altro risultato trattato in [N] e discusso a lezione:
Grazie all’equivalenza di (i) e (ii) data una matrice di transizione P irriducibile dico
che `e positiva ricorrente quando tutti gli stati sono positivi ricorrenti ovvero almeno uno
`e positivo ricorrente.
Si noti che nel caso di P irriducibile il suddetto teorema d`a una descrizione completa
per quanto concerne le distribuzione invarianti:
Se P `e positiva ricorrente allora P ammette un’unica distribuzione invariante. Altrimenti (quindi P transiente, oppure P ricorrente ma non positiva ricorrente), P non
ammette alcuna distribuzione invariante.
Ricordiamo che per il corollario 5.2, se P `e irriducibile allora P ammette sempre un’unica
misura invariante a meno di fattori moltiplicativi positivi.
Proposizione 5.3. Se P `e irriducibile e |I| < ∞, allora tutti gli stati sono positivi
ricorrenti ed esiste un’unica distribuzione invariante.
Proof. Notiamo che P `e ricorrente, infatti esiste un’unica classe comunicante (P `e irriducibile) e questa `e chiusa. Per I finito sappiamo che gli stati ricorrenti sono tutti e
soli quelli che stanno in classi comunicanti chiuse, quindi abbiamo che tutti gli stati sono
ricorrenti, quindi P `e ricorrente.
Essendo P irriducibile e ricorrente, per Thm. 1.7.5 [N], fissato k ∈ I ho che γ k `e misura
invariante. Siccome I `e finito la posso normalizzare e ottengo cos`ı una distribuzione
invariante. Per Thm. 1.7.7[N] ho quindi che tale distribuzione `e l’unica distribuzione
invariante e che tutti gli stati sono positivi ricorrenti.
5.2. Caso generale.
Definizione 5.4. Diciamo che uno stato i ∈ I `e essenziale se per ogni j ∈ I tale che
i → j deve valere j → i.
Lemma 5.5. i `e essenziale se e solo se la classe comunicante di i `e chiusa.
Proof. Sia i essenziale e sia C la sua classe comunicante. Se C non fosse chiusa avremmo
j ∈ C and z 6∈ C tale che j → z ma z 6→ j. Poich`e i → j e j → z, abbiamo i → z. Dato
che i `e essenziale vale z → i. Quindi i e z comunicano, quindi z ∈ C e abbiamo l’assurdo.
Assumiamo ora che C sia chiusa. Se i → j, per la chiusura di C abbiamo j ∈ C e quindi
j → i. Quindi i `e essenziale.
Proposizione 5.6. Sia i elemento non essenziale e sia λ una distribuzione invariante.
Allora λ(i) = 0.
Equivalentemente:
Sia λ una distribuzione invariante e sia λ(i) > 0. Allora i `e essenziale.
Si noti che combinando Lemma 5.5 e Prop. 5.6 ho che le misure invarianti danno massa
zero alle classi comunicanti non chiuse.
PROCESSI STOCASTICI: INTEGRAZIONI
9
Proof. Sia λ una distribuzione invariante e sia λ(i) > 0. Dimostriamo che i `e essenziale.
Definisco A = {j ∈ I : j → i}. OsservoPche se pk,j > 0 allora k → j. Quindi se j ∈ A e
pk,j > 0 allora k ∈ A. Dato che λ(j) = k λ(k)pk,j abbiamo
X
XX
XX
λ(j) =
λ(k)pk,j =
λ(k)pk,j .
j∈A
j∈A k
j∈A k∈A
Scambiando j e k nell’ultima espressione abbiamo:
!
X
λ(j) =
j∈A
X
j∈A
λ(j)
X
pj,k
.
k∈A
P
P
Dato che k∈A pj,k ≤ 1 per avere la suddetta uguaglianza deve essere k∈A pj,k = 1 per
ogni j ∈ A tale che λ(j) > 0. In particolare,
posso prendere j = i siccome i ∈ A (i conduce
P
ad i) e λ(i) > 0. Concludo che k∈A pi,k = 1. Ne deriva che se pi,k > 0 allora k ∈ A.
Altrimenti avrei (essendo P matrice stocastica)
X
X
X
pi,k0 ≥
pi,k0 = 1 ,
pi,k0 >
1 = pi,k +
k0 ∈I\{k}
k0 ∈I\{k}
k0 ∈A
che `e assurdo.
Per il momento ho provato che se λ e’ una distribuzione con λ(i) > 0 e se λ `e invariante
per P , allora Pi,k > 0 implica che k ∈ A(P ) := {j ∈ I : ∃m ≥ 0 con (P m )j,i > 0}.
Noto ora che essendo λ = λP concludo che λ = λP n per ogni n ≥ 1. Quindi per
la conclusione di prima (applicata con P n al posto di P ) ho che se (P n )i,k > 0 allora
k ∈ A(P n ). Siccome A(P n ) ⊂ A per ogni n ≥ 1 concludo che:
Dato k con (P n )i,k > 0 per qualche n ≥ 1, allora k ∈ A.
Possiamo finalmente provare che i `e essenziale. Sia i → k. Se i = k allora k → i. Se
i 6= k allora esiste n ≥ 1 con (P n )i,k > 0. Per l’affermazione centrata sopra ho che k ∈ A
e quindi k → i per definizione di A.
Diciamo che una distribuzione su I `e concentrata in un sottinsieme J ⊂ I (o equivalentemente che la distribuzione ha supporto in J) se λ(x) = 0 per ogni x ∈ I \ J.
Per ogni classe comunicante chiusa C denotiamo con Inv(I, C) l’insieme (eventualmente
vuoto) delle distribuzioni invarianti su I con supporto in C.
Proposizione 5.7. Sia C una classe comunicante chiusa. Allora la matrice Pˆ = {pi,j }i,j∈C
`e una matrice stocastica irriducibile con spazio degli stati C. Sia Inv(Pˆ ) l’insieme delle
distribuzioni invarianti su C per Pˆ . Allora la mappa che a λ associa la restrizione λ|C `e
una bigezione tra Inv(I, C) e Inv(Pˆ ).
Proof. Banalmente Pˆi,j ≥ 0 per ogni i, j ∈ C. Fissiamo i ∈ C. Se pi,j > 0 allora i → j, ma
dato che C `e chiusa deve essere j ∈ C. Quindi abbiamo per ogni i ∈ C che
X
X
X
Pˆi,j =
pi,j =
pi,j = 1 .
j∈C
j∈C
j∈I
L’ultima identit`
a segue dal fatto che P `e matrice stocastica. Questo conclude la dimostrazione che Pˆ `e matrice stocastica. Dimostriamo che Pˆ `e irriducibile. Siano i, j ∈ C.
Essendo C classe comunicante per P esistono stati i0 , i1 , . . . , in con i0 = i, in = j e
10
ALESSANDRA FAGGIONATO
pik ,ik+1 > 0 per ogni k ∈ {0, 1, . . . , n − 1}. Dato che i0 = i e pi0 ,i1 > 0 deve essere i → i1
e quindi i1 ∈ C poich`e C `e chiusa. Ma allora Pˆi0 ,i1 = pi0 ,i1 > 0. Iterando questo ragionamento otteniamo che tutti gli stati i0 , i1 , . . . , in stanno in C ed inoltre Pˆik ,ik+1 = pik ,ik+1 > 0
per ogni k ∈ {0, 1, . . . , n − 1}. Questo conclude la dimostrazione che Pˆ `e irriducibile (cio`e
tutti i suoi stati sono tra di loro comunicanti).
Se λ ∈ Inv(I, C), usando l’invarianza e il fatto che λ ha supporto in C otteniamo
X
X
X
λ(i) =
λ(j)pj,i =
λ(j)pj,i =
λ(j)Pˆj,i ,
∀i ∈ C .
j∈I
j∈C
j∈C
ˆ ∈ Inv(Pˆ ) definiamo λ : I → [0, 1] come
Quindi λ|C ∈ Inv(Pˆ ). Viceversa, se λ
(
ˆ
λ(i)
se i ∈ C ,
λ(i) =
0
altrimenti .
ˆ e λ ha supporto dentro C. Dico che λ `e invariante. Infatti, siccome λ
Banalmente λ|C = λ
ha supporto dentro C ho
X
X
λj Pj,i =
λj Pj,i .
(5.1)
j∈C
j∈I
Se
P i 6∈ C e j ∈ C, ho che Pj,i = 0 siccome C `e classe comunicante chiusa. Quindi
j∈I λj Pj,i = 0 = λi per (5.1). Se i ∈ C
X
X
ˆ j Pˆj,i = λ
ˆ i = λi
λj Pj,i =
λ
j∈C
j∈C
ˆ `e invariante per Pˆ e per (5.1) concludo.
dato che λ
Grazie alla precedente proposizione e al Teorema 1.7.7 [N], per ogni classe comunicante
chiusa C rispetto a P vale | Inv(I, C)| = 0, 1, inoltre | Inv(I, C)| = 1 se e solo se gli stati di
C sono ricorrenti positivi. In tal caso l’unica distribuzione λ ∈ Inv(I, C) `e data da
(
1/Ex (Tx ) se x ∈ C
λ(x) =
0
altrimenti .
Nel caso di |C| = ∞ possiamo avere | Inv(I, C)| = 0 come pure | Inv(I, C)| = 1. Ad
esempio, la passeggiata simmetrica su Z non ha distribuzioni invarianti (sapendo che e’
irriducibile e ricorrente, otteniamo allora che tutti gli stati sono ricorrenti nulli). Esempi
con | Inv(I, C)| = 1 possono essere esibiti. Nel caso |C| < ∞ invece la distribuzione invariante esiste ed `e unica: | Inv(I, C)| = 1.
Theorem 5.8. Supponiamo che vi siano N , con N ∈ N ∪ {∞}, classi comunicanti chiuse
C per cui |Inv(I, C)| = 1.
Se N = 0 allora non esistono distribuzioni invarianti.
Se N ≥ 1, denotiamo le classi comunicanti chiuse C per cui |Inv(I, C)| = 1 come C1 , C2 , . . . , CN
se N `e finito, altrimenti come
distribuzioni invarianti di P sono tutte
P C1 , C2 , . . . . Allora leP
e sole della forma λ =
α
λ
dove
α
≥
0,
e l’unico elemento di
k
k
k
k
k αk = 1 e λk `
Inv(I, Ck ). Nelle suddette formule k varia da 1 a N se N `e finito, mentre k varia in
{1, 2, . . . } se N `e infinito.
PROCESSI STOCASTICI: INTEGRAZIONI
11
Proof. Di seguito “ccc” star`
a per “classe comunicante chiusa”.
`
E banale verificare che una combinazione convessa di distribuzioni `e ancora una distribuzione, se poi le distribuzioni
sono invarianti allora anche la combinazione convessa `e
P
invariante. Quindi λ = k αk λk `e distribuzione invariante se {λk } = Inv(I, Ck ) e gli αk
sono coefficienti di una combinazione convessa.
Supponiamo ora che λ sia una distribuzione invariante. Data una classe comunicante
chiusa C con λ(C) > 0 definiamo λC : I → [0, 1] come
(
λ(x)/λ(C) se x ∈ C ,
λC (x) =
0
se x 6∈ C .
Per il Lemma 5.5 e la Prop. 5.6, abbiamo che λ(i) = 0 se i non sta in qualche classe
comunicante chiusa. Quindi abbiamo:
X
λ(C)λC .
(5.2)
λ=
C ccc:λ(C)>0
P
Si noti che 1 = λ(I) = C ccc:λ(C)>0 λ(C), quindi i λ(C) sono coefficienti convessi (ovvero
in [0,1] e la loro somma d`
a 1). Per concludere ci basta provare che λC ∈ Inv(I, C).
Claim 5.9. Vale λC P (i) ≤ λC (i) per ogni i ∈ I.
Dimostriamo il claim. Sia i ∈ C. Essendo λ invariante,
λC P (i) =
X
λC (j)Pj,i =
1 X
λ(i)
1 X
= λC (i)
λ(j)Pj,i ≤
λ(j)Pj,i =
λ(C)
λ(C)
λ(C)
j∈C
j∈I
j∈I
Si noti che l’invarianza di λ `e stata usata solo nella penultima uguaglianza, mentre il fatto
che i ∈ C `e stato usato nell’ultima uguaglianza. Se i 6∈ C ho Pj,i = 0 per j ∈ C c.c.c.
(altrimenti avrei j ∈ C, j → i e i 6∈ C).Ne deriva che
X
X
λC P (i) =
λC (j)Pj,i =
λC (j)Pj,i = 0
j∈I
j∈C
Fine proof of the claim.
˜ `e distribuzione allora
Notiamo ora che λC P `e una distribuzione. Questo `e generale: se λ
˜
˜
λP pure lo `e. Infatti banalmente λP (i) ≥ 0 mentre
X
XX
X
X
X
˜ (i) =
˜ j Pj,i =
˜j (
˜j = 1 .
λP
λ
λ
Pj,i ) =
λ
i
i
j
j
i
j
Siccome λC P (I) = 1 e λC (I) = 1, per il claim deve essere λC P (i) = λC (i) per ogni i ∈ I.
Abbiamo quindi che λC ∈ Inv(I, C).
Dai precedenti risultati e osservazioni otteniamo :
Corollario 5.10. Sia |I| < ∞. Siano C1 , C2 , ..., CN le classi comunicanti chiuse (sappiamo 1 ≤ N < ∞). Allora le distribuzioni invarianti di P sono tutte e sole della forma
P
PN
λ = N
e l’unica distribuzione invariante con
k=1 αk = 1 e λk `
k=1 αk λk dove αk ≥ 0,
supporto in Ck . In particolare, esiste sempre almeno una distribuzione invariante. Essa `e
unica se e solo se vi `e un’unica classe comunicante chiusa.
12
ALESSANDRA FAGGIONATO
5.3. Applicazione. Mostriamo ora un esempio di applicazione della teoria sviluppata
finora. Consideriamo la seguente matrice stocastica


1/4 1/4 0
0
0 1/2 0
0
 0
0
0
0
0
1
0
0 


 0
0 2/3 1/3 0
0
0
0 


 0

0
1/3
2/3
0
0
0
0

P =
 0
0
0 1/3 1/3 0 1/3 0 


 0 1/2 0
0
0
0
0 1/2 


 0
0
0
0 1/2 1/2 0
0 
1/2 1/2 0
0
0
0
0
0
sullo spazio degli stati I = {1, 2, . . . , 8}. Vogliamo determinare le distribuzioni invarianti di
P . Per fare questo dovremmo prima di tutto risolvere il sistema λP = λ, che include 8 gradi
di libert`a e quindi sarebbe piuttosto calcoloso. Per semplifare possiamo procedere come
segue. Osserviamo che le classi comunicanti sono {1, 2, 6, 8}, {3, 4}, {5, 7}. Sono chiuse
solo C1 := {1, 2, 6, 8} e C2 := {3, 4}. Consideriamo dapprima la matrice Pˆ = {pi,j }i,j∈C1 ,
cio`e


1/4 1/4 1/2 0
 0
0
1
0 

Pˆ = 
 0 1/2 0 1/2  .
1/2 1/2 0
0
Per la Prop. 5.7 questa matrice `e una matrice stocastica irriducibile su C1 . Per la Prop.
5.3 Pˆ ammette un’unica distribuzione invariante. La calcoliamo risolvendo il sistema


1/4 1/4 1/2 0
 0
0
1
0 

(a, b, c, d, ) 
 0 1/2 0 1/2  = (a, b, c, d) .
1/2 1/2 0
0
Si ottiene facilmente chel’unica soluzione (a, b, c, d, ) che `e anche distribuzione su {1, 2, 6, 8}
2 5 6 3
, 16 , 16 , 16 . Ne deriva che
`e data da 16
6
3
2 5
, , 0, 0, 0, , 0,
λ1 :=
16 16
16
16
`e l’unica distribuzione invariante per P con supporto in C1 .
Similemente la matrice {pi,j }i,j∈C2 `e stocastica con spazio degli stati C2 ed `e irriducibile.
Si ottiene facilmente come sopra che l’unica distrubizione invariante `e data da (1/2, 1/2).
Ne deriva che
1 1
λ2 := 0, 0, , , 0, 0, 0, 0
2 2
`e l’unica distribuzione invariante per P con supporto in C2 .
Grazie al Corollario 5.10 abbiamo che le distribuzioni invarianti per P sono tutte e sole
della forma
2α 5α (1 − α) (1 − α)
6α
3α αλ1 + (1 − α)λ2 =
,
,
,
, 0,
, 0,
α ∈ [0, 1] .
16 16
2
2
16
16
6. Theorem 1.8.3 [N]. Alternative step 2
Consideriamo la seguente successione (An , Bn )n≥0 di variabili aleatorie a valori in I × I:
(
(Xn , Yn ) se n < T ,
(An , Bn ) =
(Yn , Xn ) se n ≥ T .
PROCESSI STOCASTICI: INTEGRAZIONI
13
Lemma 6.1. (An , Bn )n≥0 `e CM (µ, P˜ ).
Proof. A tal fine fisso n ≥ 0 e stati (i0 , j0 ), . . . , (in , jn ) ∈ I × I. Calcolo
P((Ak , Bk ) = (ik , jk ) ∀k = 0, 1, . . . , n)
Se per ogni k : 1 ≤ k ≤ n ho (ik , jk ) 6= (b, b) allora T > n e l’evento
{(Ak , Bk ) = (ik , jk ) ∀k = 0, 1, . . . , n}
uguaglia l’evento
{Wk = (ik , jk ) ∀k = 0, 1, . . . , n} .
Quindi in tal caso, dato che W `e CM (µ, P˜ ) ho
P((Ak , Bk ) = (ik , jk ) ∀k = 0, 1, . . . , n) = P(Wk = (ik , jk ) ∀k = 0, 1, . . . , n})
= µ(i0 , j0 )P˜(i ,j ),(i ,j ) · · · P˜(i ,j
0
0
1
1
n−1
n−1 ),(in ,jn )
Supponiamo invece che ci sia un primo valore m tale che (im , jm ) = (b, b) con 1 ≤ m ≤ n.
Allora ho T = m e e l’evento
{(Ak , Bk ) = (ik , jk ) ∀k = 0, 1, . . . , n}
uguaglia l’evento
{Wk = (ik , jk ) ∀k = 0, 1, . . . , m, Wk = (jk , ik ) ∀k = m + 1, . . . , n} .
Quindi dato che W `e CM (µ, P˜ ), ho (si noti che (im , jm ) = (b, b) = (jm , im ))
P((Ak , Bk ) = (ik , jk ) ∀k = 0, 1, . . . , n) =
µ(i0 , j0 )P˜(i ,j ),(i ,j ) · · · P˜(i
,j
),(i
0
0
1
1
m−1
m−1
m ,jm )
P˜(jm ,im ),(jm+1 ,im+1 ) · · · P˜(jn−1 ,in−1 ),(jn ,in )
Ora usa che
P˜(i,j),(i0 ,j 0 ) = pi,i0 pj,j 0 = pj,j 0 pi,i0 = P(j,i),(j 0 ,i0 ) ,
quindi il membro destro lo riscrivo come
µ(i0 , j0 )P˜(i0 ,j0 ),(i1 ,j1 ) · · · P˜(im−1 ,jm−1 ),(im ,jm ) P˜(im ,jm ),(im+1 ,jm+1 ) · · · P˜(in−1 ,in−1 ),(in ,jn )
In tutti i casi ottengo quindi
P((Ak , Bk ) = (ik , jk ) ∀k = 0, 1, . . . , n) = µ(i0 , j0 )P˜(i0 ,j0 ),(i1 ,j1 ) · · · P˜(in−1 ,jn−1 ),(in ,jn ) . (6.1)
Quindi (An , Bn )n≥0 `e CM (µ, P˜ ).
Lemma 6.2. (An )n≥0 `e catena di Markov M C(λ, P )
Proof. Siccome (An , Bn )n≥0 `e CM (µ, P˜ ), per la forma di P˜ e di µ abbiamo
P((Ak , Bk ) = (ik , jk ) ∀k = 0, 1, . . . , n) = λ(i0 )Pi0 ,i1 . . . Pin ,in+1 · π(j0 )Pj0 ,j1 . . . Pjn ,jn+1
(6.2)
Sommando su j0 , j1 , . . . , jn ho
P(Ak = ik ∀k = 0, 1, . . . , n) = λ(i0 )Pi0 ,i1 . . . Pin ,in+1
quindi (An )n≥0 `e CM (λ, P ).
(6.3)
Si noti che An `
e la Zn di [N].
14
ALESSANDRA FAGGIONATO
7. Elementi di catene di Markov a tempo continuo
Fisso I spazio numerabile. Prima di dare la definizione di catena di Markov in I a tempi
continui (Xt )t≥0 , abbiamo bisogno di fissare alcune nozioni.
7.1. Cammini continui a destra e cammini continui a destra minimali. Nel seguito assumeremo I con la topologia discreta. Per chi non fosse famigliare con nozioni
topologiche, che permettono di definire la continuit`a di una funzione a valori in I, verranno
date delle formulazioni alternative senza l’uso della topologia.
Definizione 7.1. Fissato a ∈ R+ ∪ {+∞}, una funzione (xt )t∈[0,a) a valori in I `e detta
cammino continuo a destra a valori in I se ∀t ∈ [0, a) esiste ε > 0 tale che
Xs = Xt
∀s ∈ [t, t + ε) ∩ [0, a) .
Introduciamo uno elemento astratto ∂ , detto stato cimitero, non appartenente ad I.
Servir`a per trattare i cammini con esplosione. Nel libro [N] viene aggiunto lo stato astratto
∞ (preferisco ∂ per non fare confusione con +∞).
Definizione 7.2. Una funzione (xt )t≥0 `e detta cammino continuo a destra minimale a
valori in I se vale una delle seguenti situazioni:
(i) Caso senza esplosione:
– (xt )t≥0 assume valori in I (non `e mai uguale a ∂),
– (xt )t≥0 `e un cammino continuo a destra a valori in I (come nella Definizione
7.1),
– i tempi di salto di (xt )t≥0 formano un insieme senza punti di accumulazioni
(quindi in ogni intervallo [0, T ] il cammino ha un numero finito di tempi di
salto);
(ii) Caso con esplosione: esiste un valore ζ ∈ (0, +∞) (detto tempo di esplosione) tale
che
– (xt )t∈[0,ζ) assume valori in I (non `e mai uguale a ∂) e xt = ∂ per ogni t ≥ ζ,
– (xt )t∈[0,ζ) `e un cammino continuo a destra a valori in I (come nella Definizione
7.1),
– i tempi di salto di (xt )t∈[0,ζ) formano una successione crescente convergente
a ζ.
Si noti che pur usando l’espressione “cammino continuo a destra minimale a valori in I”
il cammino ha valori in I ∪{∂}, ma lo stato cimitero non viene nominato in tale espressione.
Remark 7.3. Si noti che nel caso (i) della Definizione 7.2 vi sono 2 situazioni possibili:
• Caso (i.1): il cammino (xt )t≥0 ha infiniti tempi di salto
• Caso (i.2): il cammino (xt )t≥0 ha un numero finito di tempi di salto.
Nel primo caso (i.1) i tempi di salto formano una successione crescente divergente a
+∞, nel secondo caso (i.2) il cammino resta definitivamente in uno stato dato.
Nel seguito ci riferiremo ai casi (i.1), (i.2) e (ii) descritti dalla Definizione 7.2 e dal
Remark 7.3
PROCESSI STOCASTICI: INTEGRAZIONI
15
7.2. Processi stocastici continui a destra minimali a valori in I.
Definizione 7.4. Un processo stocastico (Xt )t≥0 si dice continuo a destra minimale a
valori in I se
P (ω : (Xt (ω))t≥0 `e continuo a destra minimale a valori in I) = 1 .
Sia (Xt )t≥0 come sopra. Definiamo ora la successione (Jn )n≥0 dei tempi di salto nel
seguente modo:
J0 := 0 ,
Jn+1 := inf{t ≥ Jn : Xt 6= XJn } per n ≥ 0 .
Se il cammino aleatorio (Xt )t≥0 rientra nei casi (i.1) e (ii), allora la successione (Jn )n≥0
corrisponde effettivamente ai tempi di salto del cammino aleatorio (Xt )t≥0 e tutti i Jn
sono finiti. Nel caso (i.2) invece per definizione Jn = +∞ per n > N dove N `e il numero
di salti del cammino aleatorio (Xt )t≥0 .
Definiamo ora la successione dei tempi di permanenza (Sn )n≥1 come
(
Jn − Jn−1 se Jn−1 < ∞
Sn :=
∞
altrimenti
Se il cammino aleatorio (Xt )t≥0 rientra nei casi (i.1) e (ii), allora Sn = Jn − Jn−1 per n ≥ 1
e tutto `e finito. Se il cammino aleatorio (Xt )t≥0 rientra nel caso (i.2) e complessivamente
il cammino fa N salti, allora Sn = Jn − Jn−1 per n ≤ N e Sn = +∞ per n > N .
Si definisce il tempo di esplosione ζ come ζ := limn→∞ Jn . Se ζ < ∞ diciamo che il
cammino aleatorio (Xt )t≥0 ha esplosione.
Definizione 7.5. Definiamo il processo di salto (Yn )n≥0 come la successione degli stati
visitati dal processo (Xt )t≥0 in ordine cronologico (ponendo Y0 = X0 ) e con la convenzione
che se il cammino aleatorio (Xt )t≥0 fa solo N salti e si stabilizza nello stato i allora Yn = i
per ogni n ≥ N .
7.3. Q–matrice e matrice di salto.
Definizione 7.6. Una matrice Q = (qi,j )i,j∈I `e una Q–matrice se soddisfa le seguenti
condizioni:
(i) 0 ≤ −qi,i < +∞ ∀i ∈ I;
(ii) qi,j ≥ 0 P
per ogni i, j ∈ I con i 6= j;
(iii) −qi,i = j∈I:j6=i qi,j
P
Si noti che quando I `e infinito la somma j∈I:j6=i qi,j `e una serie a termini non negativi
(per (ii)) e deve essere sommabile dato che (cf. (iii)) il risultato deve dare −qi,i che per
(i) `e finito.
Una Q–matrice ammette una rappresentazione grafica tramite grafo orientato pesato
con vertici dati dagli elementi di I e lati orientati (frecce) pesati costruiti come segue: per
ogni coppia (i, j) con i 6= j e qi,j > 0 viene disegnata una freccia da i a j con peso qi,j
(vedi Ex. 2.6.1 in [N])
Nel seguito scriveremo
qi = q(i) := −qi,i ,
i∈I.
16
ALESSANDRA FAGGIONATO
Ad una Q matrice Q associamo la cosiddetta matrice di salto Π = (πi,j )i,j∈I , data dalla
matrice stocastica su I definita come segue:

qi,j /qi se j 6= i , qi 6= 0 ,



0
se j = i , qi 6= 0 ,
πi,j =

0
se j 6= i , qi = 0 ,



1
se j = i , qi = 0 .
Esempi di Q–matrice e matrice si salto associata:




−3
1
2
0 1/3 2/3
0 .
Q =  4/5 −4/5 0  ,
Π= 1 0
0
0
0
0 0
1




−2 1
1
0 1/2 1/2
0
0 .
Q =  1 −1 0  ,
Π= 1
2
1 −3
2/3 1/3 0
7.4. Variabile esponenziale.
Definizione 7.7. Una v.a. T : Ω → [0, ∞] si dice esponenziale di parametro c (0 ≤ c < ∞)
se
P(T > t) = e−ct per ogni t ≥ 0 .
Scriveremo in breve T ∼ Exp(c).
Si noti che abbiamo incluso anche il caso degenere c = 0, corrispondente a P(T = ∞) =
1. Quando c > 0, T `e una v.a. continua con densit`a
f (t) = ce−ct 1t≥0 .
` facile verificare che E(T ) = 1/c. Ricordiamo che, per c > 0, dato A ⊂ [0, ∞) misurabile,
E
vale
Z
P (T ∈ A) =
ce−ct dt .
A
7.5. Definizione di catena di Markov a tempo continuo con distribuzione iniziale
λ e generatore Q.
Definizione 7.8. Dato un insieme numerabile I, una distribuzione λ su I e una Q–
matrice Q su I, un processo minimale continuo a destra (Xt )t≥0 `e detto catena di Markov
a tempo continuo con spazio degli stati I, distribuzione iniziale λ e generatore Q se la sua
catena di salto (Yn )n≥0 `e una catena di Markov a tempo discreto CM(λ, Π) e se, per ogni
n ≥ 1, condizionatamente a Y0 , Y1 , . . . , Yn−1 , i tempi di permanenza S1 , S2 , . . . , Sn sono
variabili esponenziali indipendenti di parametri q(Y0 ), q(Y1 ), . . . , q(Yn−1 ) rispettivamente.
Nel seguito scriveremo che (Xt )t≥0 `e Markov(λ, Q).
La frase “ per ogni n ≥ 1, condizionatamente a Y0 , Y1 , . . . , Yn−1 , i tempi di permanenza
S1 , S2 , . . . , Sn sono variabili esponenziali indipendenti di parametri q(Y0 ), q(Y1 ), . . . , q(Yn−1 )
rispettivamente. ” `e da intendersi come segue:
per ogni n ≥ 1 e per ogni i0 , i1 , . . . , in−1 ∈ I, rispetto alla probabilit`
a condizionata
P(·|Y0 = i0 , Y1 = i1 , . . . , Yn−1 = in−1 ) (se l’evento condizionante ha P–probabilit`
a positiva)
i tempi di permanenza S1 , S2 , . . . , Sn sono variabili esponenziali indipendenti di parametri
q(i0 ), q(i1 ), . . . , q(in−1 ) rispettivamente.
PROCESSI STOCASTICI: INTEGRAZIONI
17
Esempio. Consideriamo per esempio la catena di Markov (Xt )t≥0 con spazio degli stati
I = {1, 2, 3} e Q matrice


−3
1
2
Q =  1/5 −4/5 3/5  .
0
0
0
Arrivati nello stato 1, indipendentemente dal passato, si aspetta l`ı un tempo esponenziale
di parametro 3 e poi, indipendentemente da quanto fatto fino a quel momento, si salta in
2 o 3 con probabilit`
a 1/3, 2/3 rispettivamente.
Arrivati nello stato 2, indipendentemente dal passato, si aspetta l`ı un tempo esponenziale
di parametro 3/4 e poi, indipendentemente da quanto fatto fino a quel momento, si salta
in 1 o 3 con probabilit`
a 1/4, 3/4 rispettivamente.
Arrivati nello stato 3, si resta l`ı per sempre.
Esempio: sia λ = δ1 . Abbiamo
P(J1 > t) = e−3t ,
Z
P (J1 < t , J2 > t , Y1 = 2) =
0
t
1 4
ds 3e−3s e− 5 (t−s)
3
13
P (Y1 = 2, Y3 = 3) =
34
7.6. Esplosione. Vale la seguente condizione sufficiente (ma non necessaria) a non avere
esplosione:
Proposizione 7.9. Sia (Xt )t≥0 Markov(λ, Q). Se supi∈I qi < ∞ allora
P((Xt )t≥0 non ha esplosione ) = 1 .
Ovvero con probabilit`
a 1 lo stato cimitero ∂ non viene raggiunto e quindi Xt ∈ I per
ogni t ≥ 0. In particolare, se I `e finito allora supi∈I qi < ∞ e con probabilit`
a 1 non c’`e
esplosione.
Non daremo la dimostrazione della suddetta proposizione nel caso generale. La deri–
viamo nel caso particolare in cui esiste c ≥ 0 tale che qi = c per ogni i. Se c = 0, allora
la catena resta nello stato iniziale per sempre (quindi non ho esplosione). Se c > 0 allora
i tempi di permanenza S1 , S2 , . . . sono variabili esponenziali indipendenti di parametro
c > 0. In particolare, sono finiti quasi certamente. Ricordando che Jn = S1 + · · · + Sn
abbiamo, per la legge forte dei grandi numeri, che P(limn→∞ Jn /n = 1/c) = 1 e quindi
P(limn→∞ Jn = +∞) = 1. Se Jn → ∞ allora la successione dei tempi di salto Jn non
puo’ avere punti di accumulazione e quindi non abbiamo esplosione. Cio’ completa la
dimostrazione della suddetta proposizione nel caso che i qi usano tutti costanti.
7.7. Processo di Poisson.
Definizione 7.10. La catena di Markov a tempo continuo (Xt )t≥0 a valori in N =
{0, 1, . . . } `e detta processo di Poisson di intensit`
a c > 0 se ha distribuzione iniziale λ = δ0
e il suo generatore Q `e dato dalla Q–matrice Q = (qi,j )i,j∈N definita come


−c se i = j
qi,j = c
se j = i + 1 ,


0
altrimenti .
18
ALESSANDRA FAGGIONATO
Semplicemente: il processo di Poisson (Xt )t≥0 parte nello zero e l`ı aspetta un tempo
esponenziale di parametro c, poi salta in 1 e l`ı aspetta un tempo esponenziale di parametro
c (indipendente da quanto fatto finora), poi salta in 2 e l`ı aspetta un tempo esponenziale di
parametro c (indipendente da quanto fatto finora), etc. Per la Proposizione 7.9 sappiamo
che con probabilit`
a 1 non c’`e esplosione.
Pur semplicissimo, il processo di Poisson gioca un ruolo chiave nella teoria delle catene
di Markov. I suoi tempi di salto formano un sottoinsieme aleatorio della semiretta (0, ∞)
noto come processo puntuale di Poisson di intensit`a c, anch’esso gioca un ruolo chiave
nella teoria dei processi puntuali.
Precisiamo un legame con la variabile aleatoria di Possion: per ogni intervallo [a, a+t] ⊂
[0, +∞) il numero dei tempi di salto in [a, a + t] (cio`e ]{n ≥ 1 : Jn ∈ [a, a + t]}) `e v.a. di
Poisson di parametro ct.
L’importanza del processo di Poisson `e legata molto alla seguente propriet`a di perdita
di memoria (chiamata propriet`
a di Markov):
Proposizione 7.11. Sia (Xt )t≥0 un processo di Poisson di intensit`
a c > 0. Allora,
per ogni s ≥ 0, (Xt+s − Xs )t≥0 `e anch’esso un processo di Poisson di intensit`
a c > 0
indipendente da (Xt : r ≤ s).
La suddetta propriet`
a estende la perdita di memoria della v.a. esponenziale (per v.a.
discrete tale propriet`
a `e soddisfatta dalla v.a. geometrica):
Proposizione 7.12. Sia T v.a. esponenziale di parametro c > 0. Allora per ogni t, s ≥ 0
vale
P (T ≥ t + s|T ≥ s) = P (T ≥ t) .
(7.1)
Proof. Per definizione di probabilit`
a condizionata abbiamo P (T ≥ t + s|T ≥ s) = P ({T ≥
t + s} ∩ {T ≥ s})/P (T ≥ s). Siccome {T ≥ t + s} ⊂ {T ≥ s} essendo t ≥ 0, abbiamo che
P ({T ≥ t + s} ∩ {T ≥ s})/P (T ≥ s) = P (T ≥ t + s)/P (T ≥ s) = e−c(t+s) /e−cs = e−ct .
7.8. Propriet`
a di Markov forte.
Definizione 7.13. Una v.a. T a valori in [0, +∞] `e detta un tempo d’arresto per il
processo (Xt )t≥0 se per ogni t ∈ [0, +∞) l’evento {T ≤ t} dipende solo da (Xs : s ≤ t)
nel senso che possiamo dire se l’evento {T ≤ t} si `e vericato o meno quando conosciamo
(Xs : s ≤ t) .
Esempio 1 . Si noti che il caso deterministico T ≡ a, per qualche a ≥ 0, `e un esempio
di tempo d’arresto.
Esempio 2: Sia (Xt )t≥0 Markov(λ, Q). Dato A ⊂ I, T := inf{t ≥ 0 : Xt ∈ A} `e tempo
di arresto. Dim: Consideriamo l’evento {T ≤ t}. Lo scriviamo come {T < t} ∪ {T = t}.
L’evento {T < t} uguaglia l’evento {∃s ∈ [0, t) : Xs ∈ A} e tale evento `e banalmente
noto se conosco (Xs )0≤s≤t . L’evento {T = t} implica che esiste successione decrescente
tn ↓ t con Xtn ∈ A. Siccome Xtn = Xt per n grande, deve essere Xt ∈ A. Quindi l’evento
{T = t} implica che Xt ∈ A, e poi anche Xs 6∈ A per s ∈ [0, t). Banalmente l’evento
{Xt ∈ A, Xs 6∈ A per s ∈ [0, t)} implica che {T = t} . Concludiamo che
{XT = t} = {Xt ∈ A, Xs 6∈ A per s ∈ [0, t)} ,
L’evento a destra `e noto se conosco (Xs )0≤s≤t . Abbiamo quindi provato che {T ≤ t} `e
noto se conosco (Xs )0≤s≤t .
PROCESSI STOCASTICI: INTEGRAZIONI
19
Ripetere l’esercizio con T := inf{t > 0 : Xt ∈ A}.
Enunciamo di seguito la propriet`a di Markov forte per catene di Markov a tempi continui. Quando si applica al caso T deterministico, la propriet`a di Markov non viene di
solito chiamata forte (e la dimostrazione `e pi`
u semplice).
Theorem 7.14. Sia (Xt )t≥0 Markov(λ, Q) e sia T un tempo di arresto per (Xt )t≥0 . Allora, condizionatamente all’evento T < +∞ e XT = i (cio`e rispetto a P(·|T < ∞, XT =
i)), il processo (XT +t )t≥0 `e Markov(δi , Q) ed `e indipendente da (Xs : s ≤ T ).
7.9. Definizioni equivalenti di catena di Markov. Nel seguito sia I finito. Sia per
il momento Q una generica matrice su I. Dato t ≥ 0 ricordiamo che etQ `e definito come
P∞ (tQ)n
tQ `
e facile verificare che la famiglia (Pt )t≥0 soddisfa il Thm.
n=0 n! . Posto P (t) = e
2.1.1 [N] (enunciato da sapere, di solito si vede nei corsi di analisi). Nel caso in Q `e una
matrice Q–matrice abbiamo anche che Pt `e matrice stocastica per ogni t ≥ 0.
Concludiamo con un teorema che per I finito fornisce della caratterizzazioni equivalenti
di catena di Markov:
Theorem 7.15. Sia (Xt )t≥0 un processo continuo a destra (minimale) a valori in un
insieme finito I e sia λ la distribuzione di X0 . Sia Q una Q–matrice su I. Allora i
seguenti fatti sono equivalente:
(i) (Xt )t≥0 `e Markov(λ, Q);
(ii) (caratterizzazione infinitesimale) per ogni t, h ≥ 0, condizionatamente a Xt = i
(cio`e rispetto a P(·|Xt = i)) Xt+h `e indipendente da (Xs : s ≤ t). Inoltre, per ogni
i, j ∈ I, per h ↓ 0 uniformante in t vale
P(Xt+h = j|Xt = i) = δi,j + qi,j h + o(h) ;
(7.2)
(iii) (definizione con le probabilit`
a di transizione) per ogni n ≥ 0, e per ogni famiglia di
tempi 0 ≤ t0 ≤ t1 ≤ · · · ≤ tn+1 e per ogni famiglia di stati i0 , i1 , . . . , in+1 ∈ I vale
P(Xtn+1 = in+1 | Xt0 = i0 , · · · , Xtn = in ) = pin ,in+1 (tn+1 − tn ) ,
(7.3)
dove per t ≥ 0 abbiamo (pi,j (t))i,j∈I = P (t) = etQ .
Nel punto (ii) “uniformante in t” significa che
lim sup
h↓0 t≥0
|P(Xt+h = j|Xt = i) − [δi,j + qi,j h]|
= 0.
h
(7.4)
Proposizione 7.16. Sia (Xt )t≥0 Markov(λ, Q). Allora per ogni n ≥ 1, per ogni famiglia
di tempi 0 ≤ t1 ≤ · · · ≤ tn e per ogni famiglia di stati i1 , . . . , in ∈ I, vale
P(Xt1 = i1 , · · · , Xtn = in ) = (λP (t1 ))i1 P (t2 − t1 )i1 ,i2 P (t3 − t2 )i2 ,i3 · · · P (tn − tn−1 )in−1 ,in
dove P (t) = etQ .
Proof. Dimostriamo la tesi per induzione su n. Partiamo da n = 1. Condizionando sullo
stato iniziale abbiamo e poi usando (7.3) abbiamo
X
X
P(Xt1 = i1 ) =
λi0 P(Xt1 = i1 | X0 = i0 ) =
λi0 pi0 ,i1 (t1 ) = (λP (t1 ))i0 ,i1 .
i0
i0
20
ALESSANDRA FAGGIONATO
Supponiamo ora la tesi vera fino a n − 1 ≥ 1 e proviamola per n. Possiamo scrivere
P(Xt1 = i1 , · · · , Xtn = in ) =
P(Xtn = in | Xt1 = i1 , · · · , Xtn−1 = in−1 )P (Xt1 = i1 , · · · , Xtn−1 = in−1 )
Applicando (7.3) con indici opportuni abbiamo
P(Xtn = in | Xt1 = i1 , · · · , Xtn−1 = in−1 ) = P (tn − tn−1 )tn−1 ,in ,
mentre per ipotesi induttiva abbiamo
P (Xt1 = i1 , · · · , Xtn−1 = in−1 ) = (λP (t1 ))i1 P (t2 −t1 )i1 ,i2 P (t3 −t2 )i2 ,i3 · · · P (tn−1 −tn−2 )in−2 ,in−1 .
Mettendo insieme le suddette identit`a arriviamo alla tesi.
8. Teoria del moto Browniano
8.1. Funzione generatrice dei momenti.
Definizione 8.1. Data una v.a. reale X, la funzione generatrice dei momenti di X
(denotata con MX (t)) `e definita come MX (t) := E(etX ) ∈ [0, +∞] per t ∈ R.
La suddetta definizione si estende a pi`
u variabili aleatorie reali:
Definizione 8.2. Date variabili aleatorie reali X1 , X2 , . . . , Xm , la loro funzione generatrice dei momenti congiunta `e la funzione
MX1 ,X2 ,...,Xm : Rm 3 (t1 , t2 , . . . , tm ) 7→ E(et1 X1 +t2 X2 +···+tm Xm ) ∈ [0, +∞] .
Ricordiamo che la funzione generatrice dei momenti determina univocamente la distribuzione:
Proposizione 8.3. Se MX1 ,X2 ,...,Xm (t1 , t2 , . . . , tm ) = MY1 ,Y2 ,...,Ym (t1 , t2 , . . . , tm ) per ogni
(t1 , t2 , . . . , tm ) ∈ Rm , allora i vettori aleatori (X1 , X2 , . . . , Xm ) e (Y1 , Y2 , . . . , Ym ) hanno
la stessa distribuzione. In particolare se MX (t) = MY (t) per ogni t ∈ R, allora X e Y
hanno la stessa distribuzione.
8.2. Variabili aleatorie gaussiane.
Definizione 8.4. Una v.a. X si dice gaussiana (o normale) di media µ ∈ R e varianza
σ 2 > 0 se X `e v.a. continua con funzione di densit`
a
f (x) = √
1
2πσ 2
e−
(x−µ)2
2σ 2
.
In tal caso scriveremo X ∼ N (µ, σ 2 ).
Ricordiamo che, se X ∼ N (0, 1), X si dice v.a. gaussiana (normale) standard.
Conviene nel seguito includere il caso degenere di v.a. gaussiana di media µ e varianza
0 definita come la v.a. deterministica costantemente uguale a µ.
Ricordiamo alcuni fatti fondamentali sulle v.a. gaussiane (vedasi per esempio il libro
Calcolo delle probabilit`
a, S.M. Ross, Casa Ed. Apogeo, nel seguito abbreviato come [R])
• Se X ∼ N (µ, σ 2 ) e Y := αX + β, allora Y ∼ N (αµ + β, α2 σ 2 ). In particolare, se
X `e gaussiana standard, allora Y := σX + µ `e N (µ, σ 2 ). Vedasi Cap. 5 in [R]
• Se X ∼ N (0, 1) allora la funzione MX (t) generatrice dei momenti di X, definita
t2
come MX (t) := E(etX ) per t ∈ R, `e data da MX (t) = e 2 (vedasi cap. 7 in [R]).
PROCESSI STOCASTICI: INTEGRAZIONI
21
Come conseguenza delle suddette propriet`a abbiamo:
Proposizione 8.5. Se Y ∼ N (µ, σ 2 ) allora
MY (t) = etµ+
t2 σ 2
2
.
Infatti possiamo realizzare Y come Y := σX + µ con X normale standard, e quindi
MY (t) = E(et(σX+µ) ) = etµ E(etσX ) = etµ+
t2 σ 2
2
.
Altra conseguenza:
Proposizione 8.6. Se X1 , X2 siano v.a. gaussiane indipendenti con Xi ∼ N (µi , σi2 ).
Allora, dati α1 , α2 ∈ R, Y := α1 X1 + α2 X2 `e ancora v.a. gaussiana e si ha
Y ∼ N (α1 µ1 + α2 µ2 , α12 σ12 + α22 σ22 ) .
Proof. α1 X1 e α2 X2 sono ancora indipendenti. La funzione generatrice dei momenti di
una somma v.a. aleatorie indipendenti `e il prodotto delle singolo funzioni generatrici,
quindi
EY (t) = E(etα1 X1 +tα2 X2 ) = E(etα1 X1 )E(etα2 X2 )
Siccome αi Xi ∼ N (αi µi , αi2 σi2 ), concludiamo che
2 2
2 α 1 σ1
2
E(etα1 X1 )E(etα2 X2 ) = etα1 µ1 et
2 2
2 α2 σ 2
2
etα2 µ2 et
2 2
2 2
2 α1 σ1 +α2 σ2
2
= et(α1 µ1 +α2 µ2 )+t
Combinando le suddette formule otteniamo
2 2
2 2
2 α1 σ1 +α2 σ2
2
EY (t) = et(α1 µ1 +α2 µ2 )+t
.
(8.1)
Siccome v.a. con la stessa funzione generatrice dei momenti hanno la stessa distribuzione
(legge), e siccome il membro destro di (8.1) `e la funzione generatrice di una gaussiana
N (α1 µ1 + α2 µ2 , α12 σ12 + α22 σ22 ), concludiamo che Y ∼ N (α1 µ1 + α2 µ2 , α12 σ12 + α22 σ22 ). Combinando la suddetta identit`
a con le le proposizioni 8.3 e 8.5 otteniamo la tesi.
Corollario 8.7. Se X1 , X2 , . . . , Xn sono v.a. gaussiane indipendenti con Xi ∼ N (µi , σi2 )
e a1 , a2 , . . . , an sono in R, allora
a1 X1 + a2 X2 + · · · + an Xn
Pn
P
`e v.a. gaussiana di tipo N ( i=1 ai µi , ni=1 a2i σi2 ).
Proof. Dimostriamo il fatto per induzione su n. Per n = 1, 2 segue dalla Prop. 8.6.
Supponiamo la tesi sia vera fino a n1 . Allora a1 X1 + a2 X2 + · · · + an−1 Xn−1 `e v.a.
gaussiana per ipotesi induttiva, inoltre `e indipendente da Xn siccome X1 , X2 , . . . , Xn sono
v.a. indipendenti. Applicando Prop. 8.6 alle due v.a. gaussiane indipendenti (a1 X1 +
a2 X2 + · · · + an−1 Xn−1 ) e Xn otteniamo che a1 X1 + a2 X2 + · · · + an Xn `e v.a. gaussiana.
Il calcolo della relativa media e varianza segue dalla linearit`a del valore atteso e dalle
propriet`a della varianza nel caso di somma di v.a. indipendenti.
8.3. Moto Browniano. La parte sul moto Browniano continua prendendo del materiale
dalle lezioni in rete di Peter M¨
orters [M]:
http://people.bath.ac.uk/maspm/prob.ps
con le seguenti parti scelte:
(1) Va saputa sez. 3.2 [M] fino all’enunciato del teorema 3.3 (enunciato incluso, dimostrazione esclusa).
22
ALESSANDRA FAGGIONATO
(2) Abbiamo enunciato e derivato l’upper bound nel Lemma 3.4
(3) Va saputo il Corollario 3.6 in [M]. Diamo di seguito una dimostrazione alternativa.
Dobbiamo provare che se X1 , X2 sono gaussiane N (0, σ 2 ) indipendenti allora X1 +
X2 e X1 − X2 sono gaussiane N (0, 2σ 2 ) indipendenti. A tal fine notiamo che
la funzione generatrice dei momenti di due gaussiane Y1 , Y2 di tipo N (0, 2σ 2 ) ed
indipendenti `e data da
2 2 +t2 σ 2
2
MY1 ,Y2 (t1 , t2 ) = E(et1 Y1 et2 Y2 ) = E(et1 Y1 )E(et2 Y2 ) = et1 σ
.
Si noti che la seconda identit`a segue dall’indipendenza e la terza identit`a segue
dalla Prop. 8.5. Per la prop. 8.3 ci basta quindi provare che
2 2 +t2 σ 2
2
MX1 +X2 ,X1 −X2 (t1 , t2 ) = et1 σ
.
(8.2)
Possiamo scrivere
MX1 +X2 ,X1 −X2 (t1 , t2 ) = E(e(X1 +X2 )t1 +(X1 −X2 )t2 ) = E(e(t1 +t2 )X1 e(t1 −t2 )X2 )
Essendo X1 , X2 indipendenti e anche grazie alla prop. 8.5 abbiamo
E(e(t1 +t2 )X1 e(t1 −t2 )X2 ) = E(e(t1 +t2 )X1 )E(e(t1 −t2 )X2 ) =
e
(t −t )2 σ 2
(t1 +t2 )2 σ 2
+ 1 22
2
2 2 +t2 σ 2
2
= et1 σ
.
(4) Va saputa la sez. 3.4 apportando le seguenti correzioni a pagina 28: (i) nella
Zd
Zd
con 2(n+1)/2
, (ii) rimpiazdef. di B(d) (quarta riga a pag. 28) rimpiazzare 2(n−1)/2
(n−1)/2
zare la frase “Since Fn (d) = 1/2
Zd , this gives (3.5)” con “Since Fn (d) =
(n+1)/2
Zd /2
, this gives (3.5)”. Inoltre, non serve invocare il Cor. 3.8. Infatti come
viene provato che B(t2 ) − B(t1 ) e B(t3 ) − B(t2 ) sono indipendenti, cos`ı si prova
l’indipendenza di pi`
u incrementi.
(5) Va saputo Lemma 3.10
Per una dimostrazione del teorema di Wiener (costruzione di Levy) direttamente corretta
e con maggiori dettagli si veda il libro di Y. Peres, P. M¨orters:
http://research.microsoft.com/en-us/um/people/peres/brbook.pdf