aula4-parte2.ppt

Transcript aula4-parte2.ppt

Distribuições Comuns de Variáveis Aleatórias Discretas 1. Constante 2. Uniforme 3. Bernoulli 4. Binomial 5. Geometrica 6. Poisson

• pmf Variável Aleatória Constante 1.0

c • CDF 1.0

Distribuição Discreta Uniforme • • A v.a. discreta

que assume

valores discretos com probabilidade p X (i) =

1/n, 1



n pmf p X

(

x i

)    1 0 , /

se caso x i



X contrário

• CDF:

(

) 

i t

  1

p X

(

) 

n t

Variável de Bernoulli

– V.A gerada por um experimento único de Bernoulli tem um resultado binário {1, 0} ou {sucesso, falha} – A v.a. binária

é chamada variável de Bernoulli tal que: –Função de massa de probabilidade :



(

 1 )

 1 



(

 0 )

• CDF Distribuição de Bernoulli p+q=1 q 0.0

1.0

• • • • •

Binomial

A v.a. X representa o numero de sucessos em uma sequencia de experimentos de Bernoulli.

Todos experimentos são independentes.

Cada resultado é um “sucesso” ou “falha”.

A probabilidade de sucesso de um experimento é dado por

. A probabilidade de uma falha é

1- p

Uso do modelo: número de processadores “down” num cluster; número de pacotes que chegam ao destino sem erro.

Distribuição Binomial

A distribuição

binomial

com parâmetros    n x   p x ( 1  p ) Qual a média e variância????

Distribuição Binomial

A distribuição

binomial

 com parametros    n x   p x ( 1  p ) A média e variância da binomial são:   np  2  np ( 1  p )

p k

V.A. Binomial: pmf

1.2

1 0.8

0.6

0.4

0.2

0 0 1 2

V.A. Binomial: CDF

3 4 5

6 7 8 9 10

Distribuição Geométrica • Número de experimentos até incluir o 1 o sucesso.

• Em geral ,

pode ter um tamanho infinitamente contável • Definir a v.a

Z (

 S): amostra: 0 i-1 1 = i • Por causa da independência:

Geométrica • A distribuição geometrica é a

discreta única

que exibe a propriedade distribuição

MEMORYLESS

• Resultados futuros são independentes de eventos passados.

• Exemplo: Z: numero de experimentos ate sucesso. Ja observamos n experimentos: todos com falhas.

numero de experimentos adicionais necessarios ate que um sucesso ocorra, i.e.

Z = n+Y

Y=Z-n

Geométrica: ausência de memória

•

Y=Z-n



(

 

P P

( (

Z Z





 |





i i



) |



) 

)  

(





i P

(

Z P

(

Z P

(



 

)

and



)



( 1

  

)



F Z

(

)

) 

pq n



 1 1  ( 1 

q n

) 

pq i

 1 

p Z

(

)  1

p Z

 (

n F Z

 (

i n

) )

V.A. Geometrica

• Exercício: Mostre que

   1



1 VA Poisson

• Número de eventos independentes que ocorrem em um intervalo de tempo (veja discussão em Ross, 4.8) • Número de chegadas em um servidor em 1 hora • Número de erros de impressão em uma página de um livro •  = # médio de eventos que ocorrem no período • Aproximação para VA Binomial com n grande e p pequeno (Ross) • Se X = Binomial(n,p), X  Poisson(  = np)

Poisson: propriedades

• Considere que um servidor espera receber 100 transações em um minuto: –  = 100 (constante) • Espera-se que: – O início de cada transação é independente dos outros; – Para cada pequeno intervalo de tempo  t, a probabilidade de uma nova transação chegar é  t – A probabilidade de chegar duas transações ao mesmo tempo é zero!

• O processo de Poisson tem as propriedades acima • A VA X~Poisson representa o numero de transacoes que chegam durante um periodo t.

VA Poisson: Aplicacao

• A v.a. de Poisson é boa para modelar vários fenômenos, como o número de transações que chega num servidor em uma hora, ou o número de pacotes que chega num roteador em 1 segundo.

• Muito comumente usado para modelar chegada de sessões de usuários – servidores Web, multimídia, banco de dados, ftp, e-mail • Sessões são iniciadas por usuários – Chegada de duas sessões tendem a ser independentes: Poisson é uma boa aproximação • Contra-exemplo: – Chegada de requisições em um servidor Web – Premissa de independência não é válida: existe dependência entre requisições para o arquivo HTML e as imagens embutidas nele

•

Distribuição de Poisson

• Função de massa de probabilidade (pmf):

p k





(

) 

 

 

( 

) k k!

CDF:



 

 

(



) k k!

p k

Poisson pmf



t=1.0

Poisson CDF

CDF 1



t=1.0

0.5

0.1

1 2 3 4 5 6 7 8 9 10

p k

Poisson pmf

 

t=4.0

Poisson CDF

CDF 1



t=4.0

0.5

0.1

1 2 3 4 5 6 7 8 9 10 t

Poisson

• Uma v.a. de Poisson X tem sua pmf:: 

)  

x e

 

 0,1, 2,...

Onde 

E(X)= Var(X) =



Search Algorithms: Is the Web Graph a Random graph? No!

• Random graph G n,p : – n nodes – Every directed edge occurs with probability p • Is the Web-graph a random graph G n,p ?

• The probability of high degrees decrease exponentially • In a random graph degrees are distributed according to a Poisson distribution • Therefore: The degree of a random graph does not obey a power law (observed for web graphs)

Exercícios

– – Considere que o número de mails que chegam a um servidor de mails no intervalo

segundos é distribuído como Poisson com parâmetro

0.3t

Calcule a seguintes probabilidades: Exatamente tres mensagens chegarão num intervalo de 10 seg.

No máximo 20 msgs chegarão num período de 20seg.

– O número de msgs num intervalo de 5 seg está entre 3 e 7 mails.

A probabilidade de um

query

falhar (não ser bem sucedido) é 10 (-4) . Qual a probabilidade de falharem mais de 3 queries numa sequência de 1000

queries

(



) 

Solução

( 0 .

)

k e

 0 .

t k

2) P(X 10 = 3) = 0.224

3) 4) P(X 20  20) = 0.973

( 3 

5  7 ) 

7   3 ( 1 .

5 )

k e

(  1 .

5 )

 0 .

1909

Solução

• 2)

erros

 3 )  1000  4  

1000   ( 10  4 )

( 1  10  4 ) 1000 

i P

erros

 3 )  1  3  0  

1000   ( 10  4 )

( 1  10  4 ) 1000 

 3 .

825 * 10  6

Distribuições Discretas

• Zipf(  ) – Comumente usada quando a distribuição é altamente concentrada em poucos valores • Popularidade de arquivos em servidores Web/multimídia – 90% dos acessos são para 10% dos arquivos • Popularidade de palavras na língua inglesa – Seja i, o elemento que ocupa a i-esima posição no ranking de concentração

(



) 

C i



 C é a constante de normalização Zipf: lei das Potências 1 , 2 ,...

Distribuição Zipf

• Modela popularidade dos remetentes de e-mails para a UFMG

Distribuições de Variáveis Aleatórias Contínuas

• Normal • Exponencial • Weibull • Lognormal • Pareto • ....

Distribuições de Variáveis Aleatórias Contínuas

• Variáveis aleatórias contínuas – Assumem um intervalo infinito de diferentes valores – W=% percentual de crescimento do PIB em 2005 – V=tempo para retornar a resposta de um “query” – Valores específicos-particulares de uma v.a. contínua – tem probabilidade 0

Intervalos de valores tem probabilidade



Função Densidade de Probabilidade Para

(

) ser uma pdf 1.

(

) > 0 

2.A area da região entre o grafico de eixo do

é igual a 1.

e o Area = 1



Distribuição de Probabilidade Seja X uma va contínua. Então a

a função de probabilidade (pdf)

é uma função

(

) tal que para dois números quaisquer

and

, 

X



b

  

a b

O gráfico de

é a

curva de densidade

PDF



) é dada pela área da função sombreada.



a b

Distribuição Normal (Gaussiana)

• Distribuição mais comum na análise de dados • pdf is:   •



 +  • Média é  , desvio padrão 1 2  

( 2  2  ) 2

Notação para Distribuições Gaussianas

• Geralmente denotada

(  ,  ) • Normal unitária é • Se

tem

(  ,  ),

(0,1)

   tem

(0,1) • O  -quantil de uma normal unitária

(0,1) é denotado por

 tal que

(

   

 )  

(

)   

    

Parâmetros

• A distribuição de v.a. contínua contém toda a informação que a estatística pode descobrir sobre ela – Distribuição pode ser expressa pela pdf ou CDF

Parâmetros

• Geralmente a informação existente numa distribuição pode ser excessiva para ser processada • Quando isso é verdade, nós queremos sumarizar as métricas de informção: – Média – Variancia – Mediana – Percentis • São também chamados de parâmetros de uma distribuição

Distribuição Normal

• Função de densidade – Dois parâmetros,  e  – Assim se X é distribuído com uma normal:

  ,  2 

V E

        2

Normal

• Função de densidade para  =0,  =1 0.45

0.4

0.35

0.3

0.25

0.2

0.15

0.1

0.05

0 -5 -4 -3 -2 -1 -6E-14

1 2 3 4 5

Normal

• Função de densidade para  =1  =2 0.45

0.4

0.35

0.3

0.25

0.2

0.15

0.1

0.05

0 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7  =5

Normal

• Funções de densidade para  =1 0.45

 =1 0.4

0.35

0.3

0.25

0.2

0.15

0.1

0.05

0 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7  =2

Distribuicao Exponencial

• Quantidade de tempo até que determinado evento ocorra

f X

 

λx

for x



0

F X



1



λx

for x



0

 = taxa de chegadas 1/  = tempo médio entre chegadas

Exemplo: v.a. exponencial

• pdf: • CDF:

(

)

(

)  

 1  



 

 0

f(x) pdf

• v.a. muito frequentemente usada em computacao • Modelos: – Tempo entre duas submissões de queries a uma maquina de busca – Tempo de execução de processos – Tempo entre chegadas de pacotes em um roteador – Tempo entre chegadas de sessões em um servidor

Exponential distribution

• Density 1.2

1 0.8

0.6

0.4

0.2

0 0 1 2 3 4 5

Distribuicao Exponencial

P(X  1/  ) = 1 – e  1/  = 1 – 1/e E(X) = 1/  Var(X) = 1/  2  SD(X) = 1/   CV(X) = 1 CV = 1  exponencial

Distribuições Exponencial e Poisson

• Seja uma distribuição Poisson que denote o número de eventos N(t) em um intervalo de tempo t • Seja T 1 • Seja T n o momento do 1o evento o tempo entre o (n-1)-esimo e o n-esimo eventos • Sequência {T n , n=1, 2, ...}: tempos entre chegadas P(T 1 P(T 2   t) = P(N(t) = 0) = e  t  t | T 1 T1  exponencial(  ) = s) = Prob (0 eventos em (s, s+t) | T1 = s) = Prob (0 eventos em (s, s+t)) (eventos Poisson são independentes)  T 1 = e  t  T 2  exponencial(  ) , T 2 , ..., T n são independentes e têm mesma distribuição exponencial(  )

Distribuições Exponencial e Poisson

Processo de Chegadas Poisson Tempo entre Chegadas Exponencial Independência entre eventos

Distribuição Exponencial

• Exponencial (  ) :

(





Propriedade sem memória (memoryless) 

)   

([





(

X x

]  [



)

(

1  

X P

(



 

)

(



1  

)

(

 

(

X t

) 

]) 

)  1 

  1 (



)  ( 1   ( 1

 

 )

 

)   1 

 

t e

 

 1 

 

t e

 

t e

 

( 1 

 

t e

 

)  1 

 



(



)

Propriedade Memoryless

• Tempo de residência R de um cliente depende do # de clientes na fila quando ele chega ao centro, nos tempos de serviços destes clientes e no tempo que o cliente que está sendo servido no momento de chegada ainda permanecerá em serviço. – Seja X i a VA para o tempo de serviço de cliente i na CPU – Seja X i : exponencial(  ) para todos os clientes – Seja Y a VA que denota o tempo residual que o cliente que está em serviço no momento de chegada ainda permanecerá em serviço • Y também tem distribuição exponencial com parâmetro  • Tempo que ainda falta independe do tempo que já esteve em serviço • Estado futuro não depende do estado passado

Propriedade Memoryless

• Distribuição exponencial propriedade memoryless é a única distribuição contínua que tem a • Por sua vez, distribuição geométrica é a única discreta que tem a propriedade memoryless

Outras Distribuições Contínuas

• Weibull • Lognormal • Pareto

Distribuição de Weibull

A va contínua

tem uma distribuição de

Weibull

se a pdf é

(

)

 

  1

 



(

)



1



 

 Onde os parâmetros satisfazem t  0  > 0  > 0

Distribuição Lognormal

Uma va

tem uma

distribuição lognormal

se a va

= ln(

)



e Y

uma distribuição normal com a pdf resultante com parâmetros  e  tem

(

;  ,  )    1 0 2  

x e

  ln (

)    2 ( 2  2 )

 0

 0 Muito utilizada para modelar duracao de sessao de usuarios em servicos web

Média e Variância

A média e variância de uma va

que tem uma distribuição lognormal são: 

2 / 2 

2 2 

 2   1



Distribuição Lognormal

Distribuição de Pareto

• Uma das distribuições

heavy tailed. f

(

) 

ab a x

(

 1 ) 

ab a x

 (

 1 )

 1

High Variability Phenomena

Walter Willinger AT&T Labs-Research [email protected]

Motivation

• Internet is full of “high variability” – Link bandwidth: Kbps – Gbps – File sizes: a few bytes – Mega/Gigabytes – Flows: a few packets – 100,000+ packets – In/out-degree (Web graph): 1 – 100,000+ – Delay: Milliseconds – seconds and beyond • How to deal with “high variability” – High variability = large, but finite variance – High variability = infinite variance

A Working Definition

• A distribution function F(x) or random variable X is called heavy-tailed if for some 0

[



]  1 

(

) 

  ,

  where c>0 and finite • F is also called a power law or scaling distribution • The parameter  is called the tail index • 1<  • 0 <  < 2, F has infinite variance, but finite mean < 1, the variance and mean of F are infinite

Some Illustrative Examples

• Some commonly-used plotting techniques – Probability density functions (pdf) – Cumulative distribution functions (CDF) – Complementary CDF (CCDF = 1- CDF) • Different plots emphasize different features – Main body of the distribution vs. tail – Variability vs. concentration – Uni- vs. multi-modal

P

robability

d

ensity

f

unctions

C

umulative

D

istribution

F

unction

1 0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0 0 2 4 6 8 10 x Lognormal(0,1) Gamma(.53,3) Exponential(1.6) Weibull(.7,.9) Pareto(1,1.5) 12 14 16 18 20

10 0

C

omplementary

CDF

s

10 -1 10 -2 10 -3 10 -4 Lognormal(0,1) Gamma(.53,3) Exponential(1.6) Weibull(.7,.9) ParetoII(1,1.5) ParetoI(0.1,1.5) 10 -1 10 0 10 1 log(x) 10 2

Why “Heavy Tails” Matter …

• Risk modeling (insurance) • Load balancing (CPU, network) • Job scheduling (Web server design) • Towards a theory for the Internet …

20 th Century’s 100 largest disasters worldwide 10 2

Technological ($10B) Log(rank) Natural ($100B) Most

10 1

events are small

US Power outages (10M of customers) 10 0 10 -2 10 -1

But the large events are huge Log(size)

10 0

Distribuição de Erlang

• Uma variável aleatória

X que iguala o comprimento do intervalo até que r contagens ocorram num processo de Poisson

com média  parâmetros  e

> 0 tem uma v.a. de Erlang com . As pdf e CDF de X são :

(

)  

r x r

 1

 

(

 1 )!

for x > 0 and r = 1, 2 , …

(

)  1   1

k r

  0 ( 

)

k k

 

Erlang: Soma de Exponenciais

• Genericamente: X 1 , X 2 , ... X r , todas independentes e exponencial(  ): Z = X 1 + X 2 + ... X r  Erlang de n estágios

(



) 

 1  ( 

)

k e

 

z z

 0

 0

• Ex: tempo de processamento dividido em várias (r) etapas. A duração de cada etapa é exponencialmente distribuída com mesmo  Exp(  ) Exp(  ) Exp(  ) Exp(  ) 1 2 3 r Erlang(r,  ) • Se X i  exponencial (  i ), onde  i Z = X 1 + X 2 + ... X r  são diferentes Hipoexponencial

Exercícios

• O tempo de CPU de um

query

típico medida em ms segue uma distribuição de Erlang de três estágios com  = 0.5. Determine qual a probabilidade que a demanda de CPU da

query

excederá 1 milisegundo.

• O tempo de vida em dias de um componente de software é modelado por uma distribuição de Weibull com  = 2. A partir de um grande número de componentes, foi observado que 15% dos componentes que duraram mais de 90 dias falharam antes de 100 dias. Determine o parâmetro 

Solução #1

• O tempo de CPU de um

query

típico medida em ms segue uma distribuição de Erlang de três estágios com  = ½. Determine qual a probabilidade que a demanda de CPU da

query

excederá 1 milisegundo.

F X P

(

)  1  ( 2   0

 1 )  1  ( 

)

i i

(

)

 

 1 )  1 

F X

( 1 )  ( 1  1 2  1 8 )

(  1 2 )  0 .

9856

Solução #2 • O tempo de vida em dias de um componente de software é modelado por uma distribuição de Weibull com  = 2. A partir de um grande número de componentes, foi observado que 15% dos componentes que duraram mais de 90 dias falharam antes de 100 dias. Determine o parâmetro 

F X

(

)  1 

 

(

 100 |

 90 )  0 .

15 

( 90 

(

X X

  100 90 ) ) 

F X

( 100 )  1 

F X F X

( 90 ) ( 90 )  

  ( 90 ) 2 

  ( 100 ) 2

  ( 90 ) 2  0 .

00008554  0 .

Distribuição dos Mínimos

• Sistema composto de n componentes. Sistema funciona se todos componentes estão operando corretamente • Tempo de falha : X 1 , X 2 , ...., X n exponencial (  ) • Tempo de de vida do sistema Z = min (X 1 , X 2 , ...., X n ) P(Z  z) = P (pelo menos um X i  z) = ?

P (exatamente um X i  z) = ?

Distribuição dos Mínimos

P (exatamente um X i  z) = ?

(

exatamente

X i



)   

1  

F X

(

)  1 

F X

(

) 

 1   

1    1 

 

 1  ( 1 

 

) 

 1

Distribuição dos Mínimos

• P(Z  z) = P (pelo menos um X i  z)

Distribuição dos Mínimos

• P(Z  z) = P (pelo menos um X i  z)

(

pelo menos

X i



) 

j n

  1  

n j

  

F X

(

) Z tem distribuição exponencial com parâmetro  n 1 

F X

(

) 





j n

  1  

j n

   1 

 

z j

  





j n

  1  

n j

 

p j

 1 





p = (1-e  z )  

j n

  0  

n j

  1  ( 1 

p j p

)

 1   1



   1

   

0    1 

 

 1  

 



1 

 

Distribuição dos Máximos

• n tarefas independentes : X 1 , X 2 , ...., X n : exponencial (  ) • Tempo de resposta = tempo de execução da tarefa mais longa Z = max (X 1 , X 2 , ...., X n ) – Ex: tempo de resposta de máquina de busca composta de n processadores executando em paralelo. Cada máquina processa consulta em uma partição do dicionário Front-end: atraso desprezível

Distribuição dos Máximos

• n tarefas independentes : X 1 , X 2 , ...., X n : exponencial (  ) • Tempo de resposta = tempo de execução da tarefa mais longa Z = max (X 1 , X 2 , ...., X n )

(



)     (

P P P

( ( (max(

X X

 

X i z

)  

z z

)

(

2 )  

 ...



)...

(

X X n



)

) 1 

 

)( 1 

 

)...( 1 

 

)  ( 1 

 

)

Gerando Distribuições

• Como gerar amostras de uma distribuição a partir de um gerador de números aleatórios uniformemente distribuídos (Unix: random(), drand48())?

Gerando Distribuições

Ex: geração de amostras de uma distribuição exponencial F(X) = 1 – e  x Y = F -1 (X) = - 1/  ln(1 – Z), onde Z  uniforme(0,1) F(Z  z) = z F(Y) = P(Y  y) = P(- 1/  ln(1 – Z)  y ) = P (ln(1 – Z)   y) = P( 1 – Z  e  y ) = P(Z  1 - e  y ) = 1 - e  y  Y é exponencial O mesmo procedimento pode ser utilizado para gerar amostras de diferentes distribuições, partindo da inversa da CDF da distribuição desejada

Gerando Distribuições

Gerador de números aleatórios retorna valor entre 0 e 1. Ex: 0.52

1 0.8

0.6

0.4

0.2

X: distribuição que você quer gerar 0 0 20 40

60 80 100 Aplicando o número aleatório na função inversa de F(X), consegue-se gerar um ponto amostral

Para-Casa (próxima aula!)

• Converse com seu orientador, e traga um exemplo exepcionalmente bom ou ruim (de preferência) de apresentação e sumarização de dados de proceedings de conferências importantes de sua área. Prepare um texto de no máximo 1 folha com suas críticas e ou elogios ao métodos usados.