aula4-parte2.ppt

Download Report

Transcript aula4-parte2.ppt

Distribuições Comuns de Variáveis Aleatórias Discretas 1. Constante 2. Uniforme 3. Bernoulli 4. Binomial 5. Geometrica 6. Poisson

• pmf Variável Aleatória Constante 1.0

c • CDF 1.0

c

Distribuição Discreta Uniforme • • A v.a. discreta

X

que assume

n

valores discretos com probabilidade p X (i) =

1/n, 1

i

n pmf p X

(

x i

)    1 0 , /

n

,

se caso x i

X contrário

• CDF:

F

(

t

) 

i t

  1

p X

(

i

) 

n t

Variável de Bernoulli

– V.A gerada por um experimento único de Bernoulli tem um resultado binário {1, 0} ou {sucesso, falha} – A v.a. binária

X

é chamada variável de Bernoulli tal que: –Função de massa de probabilidade :

p

P

(

X

 1 )

q

 1 

p

P

(

X

 0 )

• CDF Distribuição de Bernoulli p+q=1 q 0.0

1.0

x

• • • • •

Binomial

A v.a. X representa o numero de sucessos em uma sequencia de experimentos de Bernoulli.

Todos experimentos são independentes.

Cada resultado é um “sucesso” ou “falha”.

A probabilidade de sucesso de um experimento é dado por

p

. A probabilidade de uma falha é

1- p

.

Uso do modelo: número de processadores “down” num cluster; número de pacotes que chegam ao destino sem erro.

Distribuição Binomial

A distribuição

binomial

com parâmetros    n x   p x ( 1  p ) Qual a média e variância????

Distribuição Binomial

A distribuição

binomial

 com parametros    n x   p x ( 1  p ) A média e variância da binomial são:   np  2  np ( 1  p )

p k

V.A. Binomial: pmf

1.2

1 0.8

0.6

0.4

0.2

0 0 1 2

V.A. Binomial: CDF

3 4 5

x

6 7 8 9 10

Distribuição Geométrica • Número de experimentos até incluir o 1 o sucesso.

• Em geral ,

S

pode ter um tamanho infinitamente contável • Definir a v.a

Z (

 S): amostra: 0 i-1 1 = i • Por causa da independência:

Geométrica • A distribuição geometrica é a

discreta única

que exibe a propriedade distribuição

MEMORYLESS

.

• Resultados futuros são independentes de eventos passados.

• Exemplo: Z: numero de experimentos ate sucesso. Ja observamos n experimentos: todos com falhas.

Y:

numero de experimentos adicionais necessarios ate que um sucesso ocorra, i.e.

Z = n+Y

ou

Y=Z-n

Geométrica: ausência de memória

Y=Z-n

P

(

Y

 

P P

( (

Z Z

i

n

 |

Z

n

i i

n

) |

Z

|

Z

n

) 

n

)  

P

(

Z

n

i P

(

Z P

(

Z P

(

Z

n

 

n

)

i

)

and

n

)

Z

P

( 1

Z

  

n

)

n

F Z

(

n

)

i

) 

pq n

i

 1 1  ( 1 

q n

) 

pq i

 1 

p Z

(

i

)  1

p Z

 (

n F Z

 (

i n

) )

V.A. Geometrica

• Exercício: Mostre que

x

   1

X

1

p

VA Poisson

• Número de eventos independentes que ocorrem em um intervalo de tempo (veja discussão em Ross, 4.8) • Número de chegadas em um servidor em 1 hora • Número de erros de impressão em uma página de um livro •  = # médio de eventos que ocorrem no período • Aproximação para VA Binomial com n grande e p pequeno (Ross) • Se X = Binomial(n,p), X  Poisson(  = np)

Poisson: propriedades

• Considere que um servidor espera receber 100 transações em um minuto: –  = 100 (constante) • Espera-se que: – O início de cada transação é independente dos outros; – Para cada pequeno intervalo de tempo  t, a probabilidade de uma nova transação chegar é  t – A probabilidade de chegar duas transações ao mesmo tempo é zero!

• O processo de Poisson tem as propriedades acima • A VA X~Poisson representa o numero de transacoes que chegam durante um periodo t.

VA Poisson: Aplicacao

• A v.a. de Poisson é boa para modelar vários fenômenos, como o número de transações que chega num servidor em uma hora, ou o número de pacotes que chega num roteador em 1 segundo.

• Muito comumente usado para modelar chegada de sessões de usuários – servidores Web, multimídia, banco de dados, ftp, e-mail • Sessões são iniciadas por usuários – Chegada de duas sessões tendem a ser independentes: Poisson é uma boa aproximação • Contra-exemplo: – Chegada de requisições em um servidor Web – Premissa de independência não é válida: existe dependência entre requisições para o arquivo HTML e as imagens embutidas nele

Distribuição de Poisson

• Função de massa de probabilidade (pmf):

p k

P

N

(

t

) 

k

 

e

 

t

( 

t

) k k!

CDF:

F

k

 

0

e

 

t

(

t

) k k!

p k

Poisson pmf

t=1.0

Poisson CDF

CDF 1

t=1.0

0.5

0.1

1 2 3 4 5 6 7 8 9 10

t

p k

Poisson pmf

 

t=4.0

Poisson CDF

CDF 1

t=4.0

0.5

0.1

1 2 3 4 5 6 7 8 9 10 t

Poisson

• Uma v.a. de Poisson X tem sua pmf:: 

x

)  

x

!

x e

 

x

 0,1, 2,...

Onde 

E(X)= Var(X) =

Search Algorithms: Is the Web Graph a Random graph? No!

• Random graph G n,p : – n nodes – Every directed edge occurs with probability p • Is the Web-graph a random graph G n,p ?

• The probability of high degrees decrease exponentially • In a random graph degrees are distributed according to a Poisson distribution • Therefore: The degree of a random graph does not obey a power law (observed for web graphs)

1.

Exercícios

– – Considere que o número de mails que chegam a um servidor de mails no intervalo

t

segundos é distribuído como Poisson com parâmetro

0.3t

Calcule a seguintes probabilidades: Exatamente tres mensagens chegarão num intervalo de 10 seg.

No máximo 20 msgs chegarão num período de 20seg.

– O número de msgs num intervalo de 5 seg está entre 3 e 7 mails.

2.

A probabilidade de um

query

falhar (não ser bem sucedido) é 10 (-4) . Qual a probabilidade de falharem mais de 3 queries numa sequência de 1000

queries

?

1)

P

(

Xt

k

) 

Solução

( 0 .

3

t

)

k e

 0 .

3

t k

!

2) P(X 10 = 3) = 0.224

3) 4) P(X 20  20) = 0.973

P

( 3 

X

5  7 ) 

k

7   3 ( 1 .

5 )

k e

(  1 .

5 )

k

!

 0 .

1909

Solução

• 2)

P

(#

erros

 3 )  1000  4  

i

1000   ( 10  4 )

i

( 1  10  4 ) 1000 

i P

(#

erros

 3 )  1  3  0  

i

1000   ( 10  4 )

i

( 1  10  4 ) 1000 

i

 3 .

825 * 10  6

Distribuições Discretas

• Zipf(  ) – Comumente usada quando a distribuição é altamente concentrada em poucos valores • Popularidade de arquivos em servidores Web/multimídia – 90% dos acessos são para 10% dos arquivos • Popularidade de palavras na língua inglesa – Seja i, o elemento que ocupa a i-esima posição no ranking de concentração

P

(

X

i

) 

C i

i

 C é a constante de normalização Zipf: lei das Potências 1 , 2 ,...

Distribuição Zipf

• Modela popularidade dos remetentes de e-mails para a UFMG

Distribuições de Variáveis Aleatórias Contínuas

• Normal • Exponencial • Weibull • Lognormal • Pareto • ....

Distribuições de Variáveis Aleatórias Contínuas

• Variáveis aleatórias contínuas – Assumem um intervalo infinito de diferentes valores – W=% percentual de crescimento do PIB em 2005 – V=tempo para retornar a resposta de um “query” – Valores específicos-particulares de uma v.a. contínua – tem probabilidade 0

Intervalos de valores tem probabilidade

0

Função Densidade de Probabilidade Para

f

(

x

) ser uma pdf 1.

f

(

x

) > 0 

x

.

2.A area da região entre o grafico de eixo do

x

é igual a 1.

f

e o Area = 1

y

Distribuição de Probabilidade Seja X uma va contínua. Então a

a função de probabilidade (pdf)

de

X

é uma função

f

(

x

) tal que para dois números quaisquer

a

and

b

, 

X

b

  

a b

O gráfico de

f

é a

curva de densidade

.

PDF

X

b

) é dada pela área da função sombreada.

y

a b

Distribuição Normal (Gaussiana)

• Distribuição mais comum na análise de dados • pdf is:   •

-



x

 +  • Média é  , desvio padrão 1 2  

e

( 2  2  ) 2

Notação para Distribuições Gaussianas

• Geralmente denotada

N

(  ,  ) • Normal unitária é • Se

x

tem

N

(  ,  ),

N

(0,1)

x

   tem

N

(0,1) • O  -quantil de uma normal unitária

z

~

N

(0,1) é denotado por

z

 tal que

P

(

x

   

z

 )  

P

(

x

)   

z

    

Parâmetros

• A distribuição de v.a. contínua contém toda a informação que a estatística pode descobrir sobre ela – Distribuição pode ser expressa pela pdf ou CDF

Parâmetros

• Geralmente a informação existente numa distribuição pode ser excessiva para ser processada • Quando isso é verdade, nós queremos sumarizar as métricas de informção: – Média – Variancia – Mediana – Percentis • São também chamados de parâmetros de uma distribuição

Distribuição Normal

• Função de densidade – Dois parâmetros,  e  – Assim se X é distribuído com uma normal:

X

~

N

  ,  2 

V E

        2

Normal

• Função de densidade para  =0,  =1 0.45

0.4

0.35

0.3

0.25

0.2

0.15

0.1

0.05

0 -5 -4 -3 -2 -1 -6E-14

x

1 2 3 4 5

Normal

• Função de densidade para  =1  =2 0.45

0.4

0.35

0.3

0.25

0.2

0.15

0.1

0.05

0 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7  =5

Normal

• Funções de densidade para  =1 0.45

 =1 0.4

0.35

0.3

0.25

0.2

0.15

0.1

0.05

0 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7  =2

Distribuicao Exponencial

• Quantidade de tempo até que determinado evento ocorra

f X

 

e

-

λx

for x

0

F X

1

e

λx

for x

0

 = taxa de chegadas 1/  = tempo médio entre chegadas

Exemplo: v.a. exponencial

• pdf: • CDF:

f

(

x

)

F

(

x

)  

e

 1  

e

x

 

x

,

x

 0

f(x) pdf

• v.a. muito frequentemente usada em computacao • Modelos: – Tempo entre duas submissões de queries a uma maquina de busca – Tempo de execução de processos – Tempo entre chegadas de pacotes em um roteador – Tempo entre chegadas de sessões em um servidor

x

Exponential distribution

• Density 1.2

1 0.8

0.6

0.4

0.2

0 0 1 2 3 4 5

Distribuicao Exponencial

P(X  1/  ) = 1 – e  1/  = 1 – 1/e E(X) = 1/  Var(X) = 1/  2  SD(X) = 1/   CV(X) = 1 CV = 1  exponencial

Distribuições Exponencial e Poisson

• Seja uma distribuição Poisson que denote o número de eventos N(t) em um intervalo de tempo t • Seja T 1 • Seja T n o momento do 1o evento o tempo entre o (n-1)-esimo e o n-esimo eventos • Sequência {T n , n=1, 2, ...}: tempos entre chegadas P(T 1 P(T 2   t) = P(N(t) = 0) = e  t  t | T 1 T1  exponencial(  ) = s) = Prob (0 eventos em (s, s+t) | T1 = s) = Prob (0 eventos em (s, s+t)) (eventos Poisson são independentes)  T 1 = e  t  T 2  exponencial(  ) , T 2 , ..., T n são independentes e têm mesma distribuição exponencial(  )

Distribuições Exponencial e Poisson

Processo de Chegadas Poisson Tempo entre Chegadas Exponencial Independência entre eventos

Distribuição Exponencial

• Exponencial (  ) :

P

(

X

t

x

|

X

Propriedade sem memória (memoryless) 

t

)   

P

([

X

t

P

(

X x

]  [

X

t

)

P

(

t

1  

X P

(

X

t

 

t

)

x

)

P

(

X

t

1  

x

)

P

(

X

 

P

(

X t

) 

t

]) 

t

)  1 

e

  1 (

t

x

)  ( 1   ( 1

e

 

t

 )

e

 

t

)   1 

e

 

t e

 

x

 1 

e

 

t e

 

t e

 

t

( 1 

e

 

t e

 

x

)  1 

e

 

x

P

(

X

x

)

Propriedade Memoryless

• Tempo de residência R de um cliente depende do # de clientes na fila quando ele chega ao centro, nos tempos de serviços destes clientes e no tempo que o cliente que está sendo servido no momento de chegada ainda permanecerá em serviço. – Seja X i a VA para o tempo de serviço de cliente i na CPU – Seja X i : exponencial(  ) para todos os clientes – Seja Y a VA que denota o tempo residual que o cliente que está em serviço no momento de chegada ainda permanecerá em serviço • Y também tem distribuição exponencial com parâmetro  • Tempo que ainda falta independe do tempo que já esteve em serviço • Estado futuro não depende do estado passado

Propriedade Memoryless

• Distribuição exponencial propriedade memoryless é a única distribuição contínua que tem a • Por sua vez, distribuição geométrica é a única discreta que tem a propriedade memoryless

Outras Distribuições Contínuas

• Weibull • Lognormal • Pareto

Distribuição de Weibull

A va contínua

T

tem uma distribuição de

Weibull

se a pdf é

f

(

t

)

 

t

  1

e

 

t

F

(

t

)

1

e

 

t

 Onde os parâmetros satisfazem t  0  > 0  > 0

Distribuição Lognormal

Uma va

X

tem uma

distribuição lognormal

se a va

Y

= ln(

X

)

X

e Y

uma distribuição normal com a pdf resultante com parâmetros  e  tem

f

(

x

;  ,  )    1 0 2  

x e

  ln (

x

)    2 ( 2  2 )

x

 0

x

 0 Muito utilizada para modelar duracao de sessao de usuarios em servicos web

Média e Variância

A média e variância de uma va

X

que tem uma distribuição lognormal são: 

e

2 / 2 

e

2 2 

e

 2   1

=1

Distribuição Lognormal

Distribuição de Pareto

• Uma das distribuições

heavy tailed. f

(

x

) 

ab a x

(

a

 1 ) 

ab a x

 (

a

 1 )

x

 1

High Variability Phenomena

Walter Willinger AT&T Labs-Research [email protected]

Motivation

• Internet is full of “high variability” – Link bandwidth: Kbps – Gbps – File sizes: a few bytes – Mega/Gigabytes – Flows: a few packets – 100,000+ packets – In/out-degree (Web graph): 1 – 100,000+ – Delay: Milliseconds – seconds and beyond • How to deal with “high variability” – High variability = large, but finite variance – High variability = infinite variance

A Working Definition

• A distribution function F(x) or random variable X is called heavy-tailed if for some 0

P

[

X

x

]  1 

F

(

x

) 

cx

  ,

x

  where c>0 and finite • F is also called a power law or scaling distribution • The parameter  is called the tail index • 1<  • 0 <  < 2, F has infinite variance, but finite mean < 1, the variance and mean of F are infinite

Some Illustrative Examples

• Some commonly-used plotting techniques – Probability density functions (pdf) – Cumulative distribution functions (CDF) – Complementary CDF (CCDF = 1- CDF) • Different plots emphasize different features – Main body of the distribution vs. tail – Variability vs. concentration – Uni- vs. multi-modal

P

robability

d

ensity

f

unctions

C

umulative

D

istribution

F

unction

1 0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0 0 2 4 6 8 10 x Lognormal(0,1) Gamma(.53,3) Exponential(1.6) Weibull(.7,.9) Pareto(1,1.5) 12 14 16 18 20

10 0

C

omplementary

CDF

s

10 -1 10 -2 10 -3 10 -4 Lognormal(0,1) Gamma(.53,3) Exponential(1.6) Weibull(.7,.9) ParetoII(1,1.5) ParetoI(0.1,1.5) 10 -1 10 0 10 1 log(x) 10 2

Why “Heavy Tails” Matter …

• Risk modeling (insurance) • Load balancing (CPU, network) • Job scheduling (Web server design) • Towards a theory for the Internet …

20 th Century’s 100 largest disasters worldwide 10 2

Technological ($10B) Log(rank) Natural ($100B) Most

10 1

events are small

US Power outages (10M of customers) 10 0 10 -2 10 -1

But the large events are huge Log(size)

10 0

Distribuição de Erlang

• Uma variável aleatória

X que iguala o comprimento do intervalo até que r contagens ocorram num processo de Poisson

com média  parâmetros  e

r

> 0 tem uma v.a. de Erlang com . As pdf e CDF de X são :

f

(

x

)  

r x r

 1

e

 

x

(

r

 1 )!

for x > 0 and r = 1, 2 , …

F

(

x

)  1   1

k r

  0 ( 

x

)

k k

!

e

 

x

Erlang: Soma de Exponenciais

• Genericamente: X 1 , X 2 , ... X r , todas independentes e exponencial(  ): Z = X 1 + X 2 + ... X r  Erlang de n estágios

F

(

Z

z

) 

r

 1  ( 

z

)

k e

 

z z

 0

k

 0

k

!

• Ex: tempo de processamento dividido em várias (r) etapas. A duração de cada etapa é exponencialmente distribuída com mesmo  Exp(  ) Exp(  ) Exp(  ) Exp(  ) 1 2 3 r Erlang(r,  ) • Se X i  exponencial (  i ), onde  i Z = X 1 + X 2 + ... X r  são diferentes Hipoexponencial

Exercícios

• O tempo de CPU de um

query

típico medida em ms segue uma distribuição de Erlang de três estágios com  = 0.5. Determine qual a probabilidade que a demanda de CPU da

query

excederá 1 milisegundo.

• O tempo de vida em dias de um componente de software é modelado por uma distribuição de Weibull com  = 2. A partir de um grande número de componentes, foi observado que 15% dos componentes que duraram mais de 90 dias falharam antes de 100 dias. Determine o parâmetro 

Solução #1

• O tempo de CPU de um

query

típico medida em ms segue uma distribuição de Erlang de três estágios com  = ½. Determine qual a probabilidade que a demanda de CPU da

query

excederá 1 milisegundo.

F X P

(

X

(

x

)  1  ( 2   0

i

 1 )  1  ( 

x

)

i i

!

P

(

X

)

e

 

x

 1 )  1 

F X

( 1 )  ( 1  1 2  1 8 )

e

(  1 2 )  0 .

9856

Solução #2 • O tempo de vida em dias de um componente de software é modelado por uma distribuição de Weibull com  = 2. A partir de um grande número de componentes, foi observado que 15% dos componentes que duraram mais de 90 dias falharam antes de 100 dias. Determine o parâmetro 

F X

(

x

)  1 

e

 

x

2

P

(

X

 100 |

X

 90 )  0 .

15 

P

( 90 

P

(

X X

  100 90 ) ) 

F X

( 100 )  1 

F X F X

( 90 ) ( 90 )  

e

  ( 90 ) 2 

e

  ( 100 ) 2

e

  ( 90 ) 2  0 .

00008554  0 .

15

Distribuição dos Mínimos

• Sistema composto de n componentes. Sistema funciona se todos componentes estão operando corretamente • Tempo de falha : X 1 , X 2 , ...., X n exponencial (  ) • Tempo de de vida do sistema Z = min (X 1 , X 2 , ...., X n ) P(Z  z) = P (pelo menos um X i  z) = ?

P (exatamente um X i  z) = ?

Distribuição dos Mínimos

• Sistema composto de n componentes. Sistema funciona se todos componentes estão operando corretamente • Tempo de falha : X 1 , X 2 , ...., X n exponencial (  ) • Tempo de de vida do sistema Z = min (X 1 , X 2 , ...., X n ) P(Z  z) = P (pelo menos um X i  z) = ?

P (exatamente um X i  z) = ?

P

(

exatamente

1

X i

z

)   

n

1  

F X

(

z

)  1 

F X

(

z

) 

n

 1   

n

1    1 

e

 

z

 1  ( 1 

e

 

z

) 

n

 1

Distribuição dos Mínimos

• P(Z  z) = P (pelo menos um X i  z)

Distribuição dos Mínimos

• P(Z  z) = P (pelo menos um X i  z)

P

(

pelo menos

1

X i

z

) 

j n

  1  

n j

  

F X

(

z

) Z tem distribuição exponencial com parâmetro  n 1 

F X

(

z

) 

n

j

j n

  1  

j n

   1 

e

 

z j

  

n

j

j n

  1  

n j

 

p j

 1 

p

n

j

p = (1-e  z )  

j n

  0  

n j

  1  ( 1 

p j p

)

n

 1   1

p

n

   1

j

   

n

0    1 

p

0

e

 

z

 1  

n

 

p

n

1 

e

 

nz

Distribuição dos Máximos

• n tarefas independentes : X 1 , X 2 , ...., X n : exponencial (  ) • Tempo de resposta = tempo de execução da tarefa mais longa Z = max (X 1 , X 2 , ...., X n ) – Ex: tempo de resposta de máquina de busca composta de n processadores executando em paralelo. Cada máquina processa consulta em uma partição do dicionário Front-end: atraso desprezível

Distribuição dos Máximos

• n tarefas independentes : X 1 , X 2 , ...., X n : exponencial (  ) • Tempo de resposta = tempo de execução da tarefa mais longa Z = max (X 1 , X 2 , ...., X n )

P

(

Z

z

)     (

P P P

( ( (max(

X X

1

n

 

X i z

)  

X

2

z z

)

P

(

X

2 )  

z

 ...

z

)...

P

(

X X n

n

z

)

z

) 1 

e

 

z

)( 1 

e

 

z

)...( 1 

e

 

z

)  ( 1 

e

 

z

)

n

Gerando Distribuições

• Como gerar amostras de uma distribuição a partir de um gerador de números aleatórios uniformemente distribuídos (Unix: random(), drand48())?

Gerando Distribuições

Ex: geração de amostras de uma distribuição exponencial F(X) = 1 – e  x Y = F -1 (X) = - 1/  ln(1 – Z), onde Z  uniforme(0,1) F(Z  z) = z F(Y) = P(Y  y) = P(- 1/  ln(1 – Z)  y ) = P (ln(1 – Z)   y) = P( 1 – Z  e  y ) = P(Z  1 - e  y ) = 1 - e  y  Y é exponencial O mesmo procedimento pode ser utilizado para gerar amostras de diferentes distribuições, partindo da inversa da CDF da distribuição desejada

Gerando Distribuições

Gerador de números aleatórios retorna valor entre 0 e 1. Ex: 0.52

1 0.8

0.6

0.4

0.2

X: distribuição que você quer gerar 0 0 20 40

x

60 80 100 Aplicando o número aleatório na função inversa de F(X), consegue-se gerar um ponto amostral

Para-Casa (próxima aula!)

• Converse com seu orientador, e traga um exemplo exepcionalmente bom ou ruim (de preferência) de apresentação e sumarização de dados de proceedings de conferências importantes de sua área. Prepare um texto de no máximo 1 folha com suas críticas e ou elogios ao métodos usados.