Transcript aula4-parte2.ppt
Distribuições Comuns de Variáveis Aleatórias Discretas 1. Constante 2. Uniforme 3. Bernoulli 4. Binomial 5. Geometrica 6. Poisson
• pmf Variável Aleatória Constante 1.0
c • CDF 1.0
c
Distribuição Discreta Uniforme • • A v.a. discreta
X
que assume
n
valores discretos com probabilidade p X (i) =
1/n, 1
i
n pmf p X
(
x i
) 1 0 , /
n
,
se caso x i
X contrário
• CDF:
F
(
t
)
i t
1
p X
(
i
)
n t
Variável de Bernoulli
– V.A gerada por um experimento único de Bernoulli tem um resultado binário {1, 0} ou {sucesso, falha} – A v.a. binária
X
é chamada variável de Bernoulli tal que: –Função de massa de probabilidade :
p
P
(
X
1 )
q
1
p
P
(
X
0 )
• CDF Distribuição de Bernoulli p+q=1 q 0.0
1.0
x
• • • • •
Binomial
A v.a. X representa o numero de sucessos em uma sequencia de experimentos de Bernoulli.
Todos experimentos são independentes.
Cada resultado é um “sucesso” ou “falha”.
A probabilidade de sucesso de um experimento é dado por
p
. A probabilidade de uma falha é
1- p
.
Uso do modelo: número de processadores “down” num cluster; número de pacotes que chegam ao destino sem erro.
Distribuição Binomial
A distribuição
binomial
com parâmetros n x p x ( 1 p ) Qual a média e variância????
Distribuição Binomial
A distribuição
binomial
com parametros n x p x ( 1 p ) A média e variância da binomial são: np 2 np ( 1 p )
p k
V.A. Binomial: pmf
1.2
1 0.8
0.6
0.4
0.2
0 0 1 2
V.A. Binomial: CDF
3 4 5
x
6 7 8 9 10
Distribuição Geométrica • Número de experimentos até incluir o 1 o sucesso.
• Em geral ,
S
pode ter um tamanho infinitamente contável • Definir a v.a
Z (
S): amostra: 0 i-1 1 = i • Por causa da independência:
Geométrica • A distribuição geometrica é a
discreta única
que exibe a propriedade distribuição
MEMORYLESS
.
• Resultados futuros são independentes de eventos passados.
• Exemplo: Z: numero de experimentos ate sucesso. Ja observamos n experimentos: todos com falhas.
Y:
numero de experimentos adicionais necessarios ate que um sucesso ocorra, i.e.
Z = n+Y
ou
Y=Z-n
Geométrica: ausência de memória
•
Y=Z-n
P
(
Y
P P
( (
Z Z
i
n
|
Z
n
i i
n
) |
Z
|
Z
n
)
n
)
P
(
Z
n
i P
(
Z P
(
Z P
(
Z
n
n
)
i
)
and
n
)
Z
P
( 1
Z
n
)
n
F Z
(
n
)
i
)
pq n
i
1 1 ( 1
q n
)
pq i
1
p Z
(
i
) 1
p Z
(
n F Z
(
i n
) )
V.A. Geometrica
• Exercício: Mostre que
x
1
X
1
p
VA Poisson
• Número de eventos independentes que ocorrem em um intervalo de tempo (veja discussão em Ross, 4.8) • Número de chegadas em um servidor em 1 hora • Número de erros de impressão em uma página de um livro • = # médio de eventos que ocorrem no período • Aproximação para VA Binomial com n grande e p pequeno (Ross) • Se X = Binomial(n,p), X Poisson( = np)
Poisson: propriedades
• Considere que um servidor espera receber 100 transações em um minuto: – = 100 (constante) • Espera-se que: – O início de cada transação é independente dos outros; – Para cada pequeno intervalo de tempo t, a probabilidade de uma nova transação chegar é t – A probabilidade de chegar duas transações ao mesmo tempo é zero!
• O processo de Poisson tem as propriedades acima • A VA X~Poisson representa o numero de transacoes que chegam durante um periodo t.
VA Poisson: Aplicacao
• A v.a. de Poisson é boa para modelar vários fenômenos, como o número de transações que chega num servidor em uma hora, ou o número de pacotes que chega num roteador em 1 segundo.
• Muito comumente usado para modelar chegada de sessões de usuários – servidores Web, multimídia, banco de dados, ftp, e-mail • Sessões são iniciadas por usuários – Chegada de duas sessões tendem a ser independentes: Poisson é uma boa aproximação • Contra-exemplo: – Chegada de requisições em um servidor Web – Premissa de independência não é válida: existe dependência entre requisições para o arquivo HTML e as imagens embutidas nele
•
Distribuição de Poisson
• Função de massa de probabilidade (pmf):
p k
P
N
(
t
)
k
e
t
(
t
) k k!
CDF:
F
k
0
e
t
(
t
) k k!
p k
Poisson pmf
t=1.0
Poisson CDF
CDF 1
t=1.0
0.5
0.1
1 2 3 4 5 6 7 8 9 10
t
p k
Poisson pmf
t=4.0
Poisson CDF
CDF 1
t=4.0
0.5
0.1
1 2 3 4 5 6 7 8 9 10 t
Poisson
• Uma v.a. de Poisson X tem sua pmf::
x
)
x
!
x e
x
0,1, 2,...
Onde
E(X)= Var(X) =
Search Algorithms: Is the Web Graph a Random graph? No!
• Random graph G n,p : – n nodes – Every directed edge occurs with probability p • Is the Web-graph a random graph G n,p ?
• The probability of high degrees decrease exponentially • In a random graph degrees are distributed according to a Poisson distribution • Therefore: The degree of a random graph does not obey a power law (observed for web graphs)
1.
Exercícios
– – Considere que o número de mails que chegam a um servidor de mails no intervalo
t
segundos é distribuído como Poisson com parâmetro
0.3t
Calcule a seguintes probabilidades: Exatamente tres mensagens chegarão num intervalo de 10 seg.
No máximo 20 msgs chegarão num período de 20seg.
– O número de msgs num intervalo de 5 seg está entre 3 e 7 mails.
2.
A probabilidade de um
query
falhar (não ser bem sucedido) é 10 (-4) . Qual a probabilidade de falharem mais de 3 queries numa sequência de 1000
queries
?
1)
P
(
Xt
k
)
Solução
( 0 .
3
t
)
k e
0 .
3
t k
!
2) P(X 10 = 3) = 0.224
3) 4) P(X 20 20) = 0.973
P
( 3
X
5 7 )
k
7 3 ( 1 .
5 )
k e
( 1 .
5 )
k
!
0 .
1909
Solução
• 2)
P
(#
erros
3 ) 1000 4
i
1000 ( 10 4 )
i
( 1 10 4 ) 1000
i P
(#
erros
3 ) 1 3 0
i
1000 ( 10 4 )
i
( 1 10 4 ) 1000
i
3 .
825 * 10 6
Distribuições Discretas
• Zipf( ) – Comumente usada quando a distribuição é altamente concentrada em poucos valores • Popularidade de arquivos em servidores Web/multimídia – 90% dos acessos são para 10% dos arquivos • Popularidade de palavras na língua inglesa – Seja i, o elemento que ocupa a i-esima posição no ranking de concentração
P
(
X
i
)
C i
i
C é a constante de normalização Zipf: lei das Potências 1 , 2 ,...
Distribuição Zipf
• Modela popularidade dos remetentes de e-mails para a UFMG
Distribuições de Variáveis Aleatórias Contínuas
• Normal • Exponencial • Weibull • Lognormal • Pareto • ....
Distribuições de Variáveis Aleatórias Contínuas
• Variáveis aleatórias contínuas – Assumem um intervalo infinito de diferentes valores – W=% percentual de crescimento do PIB em 2005 – V=tempo para retornar a resposta de um “query” – Valores específicos-particulares de uma v.a. contínua – tem probabilidade 0
Intervalos de valores tem probabilidade
0
Função Densidade de Probabilidade Para
f
(
x
) ser uma pdf 1.
f
(
x
) > 0
x
.
2.A area da região entre o grafico de eixo do
x
é igual a 1.
f
e o Area = 1
y
Distribuição de Probabilidade Seja X uma va contínua. Então a
a função de probabilidade (pdf)
de
X
é uma função
f
(
x
) tal que para dois números quaisquer
a
and
b
,
X
b
a b
O gráfico de
f
é a
curva de densidade
.
X
b
) é dada pela área da função sombreada.
y
a b
Distribuição Normal (Gaussiana)
• Distribuição mais comum na análise de dados • pdf is: •
-
x
+ • Média é , desvio padrão 1 2
e
( 2 2 ) 2
Notação para Distribuições Gaussianas
• Geralmente denotada
N
( , ) • Normal unitária é • Se
x
tem
N
( , ),
N
(0,1)
x
tem
N
(0,1) • O -quantil de uma normal unitária
z
~
N
(0,1) é denotado por
z
tal que
P
(
x
z
)
P
(
x
)
z
Parâmetros
• A distribuição de v.a. contínua contém toda a informação que a estatística pode descobrir sobre ela – Distribuição pode ser expressa pela pdf ou CDF
Parâmetros
• Geralmente a informação existente numa distribuição pode ser excessiva para ser processada • Quando isso é verdade, nós queremos sumarizar as métricas de informção: – Média – Variancia – Mediana – Percentis • São também chamados de parâmetros de uma distribuição
Distribuição Normal
• Função de densidade – Dois parâmetros, e – Assim se X é distribuído com uma normal:
X
~
N
, 2
V E
2
Normal
• Função de densidade para =0, =1 0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0 -5 -4 -3 -2 -1 -6E-14
x
1 2 3 4 5
Normal
• Função de densidade para =1 =2 0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 =5
Normal
• Funções de densidade para =1 0.45
=1 0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 =2
Distribuicao Exponencial
• Quantidade de tempo até que determinado evento ocorra
f X
e
-
λx
for x
0
F X
1
e
λx
for x
0
= taxa de chegadas 1/ = tempo médio entre chegadas
Exemplo: v.a. exponencial
• pdf: • CDF:
f
(
x
)
F
(
x
)
e
1
e
x
x
,
x
0
f(x) pdf
• v.a. muito frequentemente usada em computacao • Modelos: – Tempo entre duas submissões de queries a uma maquina de busca – Tempo de execução de processos – Tempo entre chegadas de pacotes em um roteador – Tempo entre chegadas de sessões em um servidor
x
Exponential distribution
• Density 1.2
1 0.8
0.6
0.4
0.2
0 0 1 2 3 4 5
Distribuicao Exponencial
P(X 1/ ) = 1 – e 1/ = 1 – 1/e E(X) = 1/ Var(X) = 1/ 2 SD(X) = 1/ CV(X) = 1 CV = 1 exponencial
Distribuições Exponencial e Poisson
• Seja uma distribuição Poisson que denote o número de eventos N(t) em um intervalo de tempo t • Seja T 1 • Seja T n o momento do 1o evento o tempo entre o (n-1)-esimo e o n-esimo eventos • Sequência {T n , n=1, 2, ...}: tempos entre chegadas P(T 1 P(T 2 t) = P(N(t) = 0) = e t t | T 1 T1 exponencial( ) = s) = Prob (0 eventos em (s, s+t) | T1 = s) = Prob (0 eventos em (s, s+t)) (eventos Poisson são independentes) T 1 = e t T 2 exponencial( ) , T 2 , ..., T n são independentes e têm mesma distribuição exponencial( )
Distribuições Exponencial e Poisson
Processo de Chegadas Poisson Tempo entre Chegadas Exponencial Independência entre eventos
Distribuição Exponencial
• Exponencial ( ) :
P
(
X
t
x
|
X
Propriedade sem memória (memoryless)
t
)
P
([
X
t
P
(
X x
] [
X
t
)
P
(
t
1
X P
(
X
t
t
)
x
)
P
(
X
t
1
x
)
P
(
X
P
(
X t
)
t
])
t
) 1
e
1 (
t
x
) ( 1 ( 1
e
t
)
e
t
) 1
e
t e
x
1
e
t e
t e
t
( 1
e
t e
x
) 1
e
x
P
(
X
x
)
Propriedade Memoryless
• Tempo de residência R de um cliente depende do # de clientes na fila quando ele chega ao centro, nos tempos de serviços destes clientes e no tempo que o cliente que está sendo servido no momento de chegada ainda permanecerá em serviço. – Seja X i a VA para o tempo de serviço de cliente i na CPU – Seja X i : exponencial( ) para todos os clientes – Seja Y a VA que denota o tempo residual que o cliente que está em serviço no momento de chegada ainda permanecerá em serviço • Y também tem distribuição exponencial com parâmetro • Tempo que ainda falta independe do tempo que já esteve em serviço • Estado futuro não depende do estado passado
Propriedade Memoryless
• Distribuição exponencial propriedade memoryless é a única distribuição contínua que tem a • Por sua vez, distribuição geométrica é a única discreta que tem a propriedade memoryless
Outras Distribuições Contínuas
• Weibull • Lognormal • Pareto
Distribuição de Weibull
A va contínua
T
tem uma distribuição de
Weibull
se a pdf é
f
(
t
)
t
1
e
t
F
(
t
)
1
e
t
Onde os parâmetros satisfazem t 0 > 0 > 0
Distribuição Lognormal
Uma va
X
tem uma
distribuição lognormal
se a va
Y
= ln(
X
)
X
e Y
uma distribuição normal com a pdf resultante com parâmetros e tem
f
(
x
; , ) 1 0 2
x e
ln (
x
) 2 ( 2 2 )
x
0
x
0 Muito utilizada para modelar duracao de sessao de usuarios em servicos web
Média e Variância
A média e variância de uma va
X
que tem uma distribuição lognormal são:
e
2 / 2
e
2 2
e
2 1
=1
Distribuição Lognormal
Distribuição de Pareto
• Uma das distribuições
heavy tailed. f
(
x
)
ab a x
(
a
1 )
ab a x
(
a
1 )
x
1
High Variability Phenomena
Walter Willinger AT&T Labs-Research [email protected]
Motivation
• Internet is full of “high variability” – Link bandwidth: Kbps – Gbps – File sizes: a few bytes – Mega/Gigabytes – Flows: a few packets – 100,000+ packets – In/out-degree (Web graph): 1 – 100,000+ – Delay: Milliseconds – seconds and beyond • How to deal with “high variability” – High variability = large, but finite variance – High variability = infinite variance
A Working Definition
• A distribution function F(x) or random variable X is called heavy-tailed if for some 0
P
[
X
x
] 1
F
(
x
)
cx
,
x
where c>0 and finite • F is also called a power law or scaling distribution • The parameter is called the tail index • 1< • 0 < < 2, F has infinite variance, but finite mean < 1, the variance and mean of F are infinite
Some Illustrative Examples
• Some commonly-used plotting techniques – Probability density functions (pdf) – Cumulative distribution functions (CDF) – Complementary CDF (CCDF = 1- CDF) • Different plots emphasize different features – Main body of the distribution vs. tail – Variability vs. concentration – Uni- vs. multi-modal
P
robability
d
ensity
f
unctions
C
umulative
D
istribution
F
unction
1 0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0 0 2 4 6 8 10 x Lognormal(0,1) Gamma(.53,3) Exponential(1.6) Weibull(.7,.9) Pareto(1,1.5) 12 14 16 18 20
10 0
C
omplementary
CDF
s
10 -1 10 -2 10 -3 10 -4 Lognormal(0,1) Gamma(.53,3) Exponential(1.6) Weibull(.7,.9) ParetoII(1,1.5) ParetoI(0.1,1.5) 10 -1 10 0 10 1 log(x) 10 2
Why “Heavy Tails” Matter …
• Risk modeling (insurance) • Load balancing (CPU, network) • Job scheduling (Web server design) • Towards a theory for the Internet …
20 th Century’s 100 largest disasters worldwide 10 2
Technological ($10B) Log(rank) Natural ($100B) Most
10 1
events are small
US Power outages (10M of customers) 10 0 10 -2 10 -1
But the large events are huge Log(size)
10 0
Distribuição de Erlang
• Uma variável aleatória
X que iguala o comprimento do intervalo até que r contagens ocorram num processo de Poisson
com média parâmetros e
r
> 0 tem uma v.a. de Erlang com . As pdf e CDF de X são :
f
(
x
)
r x r
1
e
x
(
r
1 )!
for x > 0 and r = 1, 2 , …
F
(
x
) 1 1
k r
0 (
x
)
k k
!
e
x
Erlang: Soma de Exponenciais
• Genericamente: X 1 , X 2 , ... X r , todas independentes e exponencial( ): Z = X 1 + X 2 + ... X r Erlang de n estágios
F
(
Z
z
)
r
1 (
z
)
k e
z z
0
k
0
k
!
• Ex: tempo de processamento dividido em várias (r) etapas. A duração de cada etapa é exponencialmente distribuída com mesmo Exp( ) Exp( ) Exp( ) Exp( ) 1 2 3 r Erlang(r, ) • Se X i exponencial ( i ), onde i Z = X 1 + X 2 + ... X r são diferentes Hipoexponencial
Exercícios
• O tempo de CPU de um
query
típico medida em ms segue uma distribuição de Erlang de três estágios com = 0.5. Determine qual a probabilidade que a demanda de CPU da
query
excederá 1 milisegundo.
• O tempo de vida em dias de um componente de software é modelado por uma distribuição de Weibull com = 2. A partir de um grande número de componentes, foi observado que 15% dos componentes que duraram mais de 90 dias falharam antes de 100 dias. Determine o parâmetro
Solução #1
• O tempo de CPU de um
query
típico medida em ms segue uma distribuição de Erlang de três estágios com = ½. Determine qual a probabilidade que a demanda de CPU da
query
excederá 1 milisegundo.
F X P
(
X
(
x
) 1 ( 2 0
i
1 ) 1 (
x
)
i i
!
P
(
X
)
e
x
1 ) 1
F X
( 1 ) ( 1 1 2 1 8 )
e
( 1 2 ) 0 .
9856
Solução #2 • O tempo de vida em dias de um componente de software é modelado por uma distribuição de Weibull com = 2. A partir de um grande número de componentes, foi observado que 15% dos componentes que duraram mais de 90 dias falharam antes de 100 dias. Determine o parâmetro
F X
(
x
) 1
e
x
2
P
(
X
100 |
X
90 ) 0 .
15
P
( 90
P
(
X X
100 90 ) )
F X
( 100 ) 1
F X F X
( 90 ) ( 90 )
e
( 90 ) 2
e
( 100 ) 2
e
( 90 ) 2 0 .
00008554 0 .
15
Distribuição dos Mínimos
• Sistema composto de n componentes. Sistema funciona se todos componentes estão operando corretamente • Tempo de falha : X 1 , X 2 , ...., X n exponencial ( ) • Tempo de de vida do sistema Z = min (X 1 , X 2 , ...., X n ) P(Z z) = P (pelo menos um X i z) = ?
P (exatamente um X i z) = ?
Distribuição dos Mínimos
• Sistema composto de n componentes. Sistema funciona se todos componentes estão operando corretamente • Tempo de falha : X 1 , X 2 , ...., X n exponencial ( ) • Tempo de de vida do sistema Z = min (X 1 , X 2 , ...., X n ) P(Z z) = P (pelo menos um X i z) = ?
P (exatamente um X i z) = ?
P
(
exatamente
1
X i
z
)
n
1
F X
(
z
) 1
F X
(
z
)
n
1
n
1 1
e
z
1 ( 1
e
z
)
n
1
Distribuição dos Mínimos
• P(Z z) = P (pelo menos um X i z)
Distribuição dos Mínimos
• P(Z z) = P (pelo menos um X i z)
P
(
pelo menos
1
X i
z
)
j n
1
n j
F X
(
z
) Z tem distribuição exponencial com parâmetro n 1
F X
(
z
)
n
j
j n
1
j n
1
e
z j
n
j
j n
1
n j
p j
1
p
n
j
p = (1-e z )
j n
0
n j
1 ( 1
p j p
)
n
1 1
p
n
1
j
n
0 1
p
0
e
z
1
n
p
n
1
e
nz
Distribuição dos Máximos
• n tarefas independentes : X 1 , X 2 , ...., X n : exponencial ( ) • Tempo de resposta = tempo de execução da tarefa mais longa Z = max (X 1 , X 2 , ...., X n ) – Ex: tempo de resposta de máquina de busca composta de n processadores executando em paralelo. Cada máquina processa consulta em uma partição do dicionário Front-end: atraso desprezível
Distribuição dos Máximos
• n tarefas independentes : X 1 , X 2 , ...., X n : exponencial ( ) • Tempo de resposta = tempo de execução da tarefa mais longa Z = max (X 1 , X 2 , ...., X n )
P
(
Z
z
) (
P P P
( ( (max(
X X
1
n
X i z
)
X
2
z z
)
P
(
X
2 )
z
...
z
)...
P
(
X X n
n
z
)
z
) 1
e
z
)( 1
e
z
)...( 1
e
z
) ( 1
e
z
)
n
Gerando Distribuições
• Como gerar amostras de uma distribuição a partir de um gerador de números aleatórios uniformemente distribuídos (Unix: random(), drand48())?
Gerando Distribuições
Ex: geração de amostras de uma distribuição exponencial F(X) = 1 – e x Y = F -1 (X) = - 1/ ln(1 – Z), onde Z uniforme(0,1) F(Z z) = z F(Y) = P(Y y) = P(- 1/ ln(1 – Z) y ) = P (ln(1 – Z) y) = P( 1 – Z e y ) = P(Z 1 - e y ) = 1 - e y Y é exponencial O mesmo procedimento pode ser utilizado para gerar amostras de diferentes distribuições, partindo da inversa da CDF da distribuição desejada
Gerando Distribuições
Gerador de números aleatórios retorna valor entre 0 e 1. Ex: 0.52
1 0.8
0.6
0.4
0.2
X: distribuição que você quer gerar 0 0 20 40
x
60 80 100 Aplicando o número aleatório na função inversa de F(X), consegue-se gerar um ponto amostral
Para-Casa (próxima aula!)
• Converse com seu orientador, e traga um exemplo exepcionalmente bom ou ruim (de preferência) de apresentação e sumarização de dados de proceedings de conferências importantes de sua área. Prepare um texto de no máximo 1 folha com suas críticas e ou elogios ao métodos usados.