Leyes de potencia

Download Report

Transcript Leyes de potencia

Leyes de potencia
Hemos visto que las leyes de potencia (power laws)
suelen aparecer en redes complejas.
•Típicamente, en la distribución de grados
•Cuando hay modularidad jerárquica, en la
distribución de clustering en función del grado
•A veces en la distribución de betweenness.
•También aparecen en tamaños de cascadas de
fallas, tamaños de componentes conexas,
distribución de pesos, etc etc etc.
Leyes de potencia
Ergo: es importante saber distinguirlas, estimar su
exponente, y (por si sirve) conocer algunos
mecanismos que las generan.
Lo básico: x e y están relacionadas por una ley de
potencia, si se cumple
yx
α
Una variable aleatoria [continua] sigue una ley de
potencia si su densidad de probabilidad es
f(x) Cx
α
Leyes de potencia
f(x) Cx
α
y por lo tanto tenemos la recta en log-log:
log f(x)  log C  a log x
y la invarianza de escala:
f(x)  C( λ x)a  λaCx a  λa f ( x)  f ( x)
La función acumulada será
C (α 1)
PX  x  
x
α 1
Leyes de potencia
Problema: la densidad explota cuando x0.
Solución: por lo general se asume un valor mínimo
xmin. En tal caso,
a1
C  α  1x min
y la función de densidad pasa a ser
(α - 1)  x

f(x) 
x min  x min



α
Leyes de potencia
Cuando la variable es discreta:
•La densidad es nuevamente proporcional a x-a.
•La distribución acumulada ahora es simplemente
la suma.
•El xmin suele ser 1 (ojo: no puede ser 0).
•Con frecuencia sirve, pero no es riguroso:
tratar la variable como si fuera una muestra de
una v.a. continua (y usar la fórmula para la
acumulada, etc.)
Leyes de potencia “célebres”
Ley de Zipf
•Georges Zipf, lingüista, intentó determinar el
“tamaño” (en realidad, frecuencia) de la 3ª, 8ª o
100ª palabra más común del inglés.
•Lo que encontró (su “ley”) indica que la frecuencia
es inversamente proporcional al ranking:
f(r)  r

con el exponente muy cerca de 1.
Luego se confirmó en otros idiomas.
Leyes de potencia “célebres”
Ley de Pareto
•Vilfredo Pareto, economista, estudió la distribución
del ingreso.
•La ley de Pareto se expresa en términos de la
distribución acumulada (probabilidad de que alguien
gane x o más):
P(X  x)  x
k
en la notación de leyes de potencia, ese k es k = a-1,
donde a es el exponente de la ldp.
Leyes de potencia “célebres”
Relación entre ambas:
•Si despreciamos los “empates”, decir “el r-ésimo
tiene x” es equivalente a decir “r tienen x o más”.
•Ergo, Zipf y Pareto describen la misma cosa, pero
con los ejes invertidos.
Zipf hubiese dicho:
“el ingreso de la r-ésima persona con mayor
ingreso es x~r-”
mientras que Pareto dice
“la fracción de gente que gana x o más es r~x-1/ ”
Leyes de potencia “célebres”
Para distribuciones de Pareto suele mencionarse el
“principio de Pareto” o “regla de 80 y 20”.
•Pareto observó que el 80% de la tierra en Italia
pertenecía al 20% de la gente.
•No hay nada mágico en el nº 80; es simplemente una
regla mnemotécnica. Se aplica en negocios: el 80% de
las ventas viene del 20% de los clientes.
•A nivel mundial, hoy, se cumple en la distribución de
ingreso.
Leyes de potencia “célebres”
•Microsoft: eliminando el 20% de bugs más frecuentes,
se evita el 80% de las BSD.
•El 80% de los
crímenes los comete el
20% de los criminales.
•Etc, etc.
Leyes de
potencia por
todos lados
Leyes de potencia por todos lados
Ejemplos de algunos mecanismos que producen LDP:
Si Y tiene distribución exponencial,
fY(y)~ eay
y otra variable X depende exponencialmente de Y,
X ~ ebY
entonces X sigue una LDP,
fX(x) ~ x-(1+a/b)
Leyes de potencia por todos lados
Monos tipeando al azar (Miller, 1957).
•Supongamos que aprietan el espacio con
probabilidad q.
•El resto de las teclas son equiprobables, (1-q)/m.
La frecuencia de las palabras generadas sigue una
LDP.
No es aplicable al lenguaje, pero sirve como modelo nulo.
Leyes de potencia por todos lados
Minimización de esfuerzo.
•El costo de enviar la palabra j-ésima en ranking de
frecuencia es (bajo una codificación razonable)
C j ~ logm j
•El costo medio de la comunicación será
C   j1 p jC j
n
•El contenido promedio de información en un mensaje es
H   j1 p jlog2p j
n
•Al minimizar el costo por unidad de información, C/H,
pj ~ j-α
Leyes de potencia por todos lados
Fenómenos críticos:
•En las cercanías de un punto crítico (donde se produce
un cambio de fase), las cantidades por lo general
escalan como leyes de potencia.
Probabilidad p de
que una celda este
ocupada. ¿Cuál es el
tamaño medio de los
clusters?
Leyes de potencia por todos lados
pc = 0.5927462…
•Si p < pc, el tamaño medio es independiente del tamaño de la grilla.
•Si p > pc, el tamaño medio diverge (es del tamaño de la grilla).
•Para p=pc, hay LDP de tamaños de clusters.
Leyes de potencia por todos lados
Criticalidad auto-organizada:
•Supongamos que en cada instante t=0,1,..., puede
aparecer un árbol en cada celda con probabilidad p.
•Supongamos además que con probabilidad q, aparecen
incendios (y queman todo el cluster).
 El sistema se estabiliza en un punto crítico, así que la
distribución de tamaño de los incendios sigue una LDP.
Leyes de potencia por todos lados
Otro mecanismo, que es el que ya vimos (via BarabasiAlbert): rich get richer.
Sugerido por primera vez por Yule para la distribución
de la cantidad de especies, dentro de los géneros
biológicos.
•Supone que un genero adquiere especies nuevas con
probabilidad proporcional a su tamaño.
•Cada m especies nuevas, la m+1-ésima crea un nuevo
género.
•El resultado es que el tamaño de los géneros sigue
pk ~ k
21 m
Leyes de potencia por todos lados
Price, en 1965, sugiere algo equivalente para citaciones
de papers:
•Cada paper nuevo cita (en promedio) m papers.
•La probabilidad de citar un paper es proporcional a la
cantidad de citas que tiene, k.
•En realidad es proporcional a k+1: se agrega una “cita
por defecto” para que los recién llegados puedan
competir.
•El resultado también es pk ~ k
21 m
Leyes de potencia por todos lados
El modelo de Barabasi-Albert aplica básicamente la
misma idea, al hacer preferential attachment (“enlace
preferencial”).
Aprovechemos de ver un modelo que también genera un
grafo tipo BA: modelo LCD (linearized chord diagram)
de Bollobas-Riordan.
Consideremos 2n nodos puestos en orden lineal:
Modelo LCD
Generamos un matching al azar entre los nodos
Modelo LCD
De izquierda a derecha, identificamos todos los
extremos izquierdos hasta que topemos el primer
extremo derecho; ahí cortamos. Luego aplicamos lo
mismo sobre lo que sigue.
Modelo LCD
•El resultado son grafos equivalentes a los del modelo
de enlace prefencial.
•Agregar un nuevo nodo: sería agregar un nuevo match.
Estimación
¿Cómo estimar el exponente de una LDP?
Caso ideal:
Estimación
Caso real:
Hay muchas
observaciones con
valores pequeños…
pero no tantas como
podría haber
6
10
5
10
4
frequency
10
3
10
Ruido en la cola
En un sistema finito, tenemos
muy pocas observaciones con
valores de verdad grandes
2
10
1
10
0
10
0
10
1
10
2
10
integer value
3
10
4
10
Estimación
6
10
fitted 
true 
5
10
4
frequency
10
3
10
2
10
1
10
0
10
0
10
1
10
2
10
integer value
3
10
4
10
Estimación
Primera idea: juntar los valores en intervalos (binning).
Estimación
Refinamiento del binning: usar bins de tamaño
exponencial. Los intervalos serán de tamaños (p.ej.) 2, 4,
8, 16, 32...
•Se obtienen
puntos
equiespaciados
en el log-log.
6
10
data
 = 2.41 fit
4
10
2
10
•Problema: se
pierde
información.
Menos
ruido en
la cola
0
10
-2
10
-4
10
0
10
1
10
2
10
3
10
4
10
Estimación
Segundo truco: pasar a la acumulada, usando el hecho de
que PX  x  x (α1)
6
10
data
 -1 = 1.43 fit
5
frequency sample > x
10
4
10
3
10
2
10
1
10
0
10
0
10
1
10
2
10
3
10
4
10
Estimación
Cantidad de visitantes a sitios de AOL, 1997
Datos en bruto:
Estimación
Binning lineal, escala log log
Recta de exponente 1.17. Claramente mala.
Estimación
Binning exponencial
Estimación
Pasando a acumulada
•Puede que sean dos LDP de exponente distinto,
según rango.
•La cola cae con exponente más bien cercano a 2.4.
Estimación
Pero además: ¿desde dónde rige la ley de potencia?
xmin
Moby Dick
bestsellers 1895-1965
scientific papers 1981-1997 AOL users visiting sites ‘97
AT&T customers on 1 day
California 1910-1992
Moon
richest individuals 2003
Solar flares
US family names 1990
wars (1816-1980)
US cities 2003
Estimación
¿Cómo calcular el exponente?
Naïve: mínimos cuadrados (después de aplicar log/log).
 NO ES bueno.
Mucho mejor: máxima verosimilitud

xi 
α  1  n ln

 i1 x min 
n
1
Estimación
¿Cómo elegir el punto de corte (el xmin)?
Para efectos prácticos, suele ser “a ojo”, o bien
probando con varios y viendo cuál da el mejor ajuste.
¿El mejor ajuste?
Es necesario comparar qué tan bueno es el ajuste
con distintos xmin.
La forma de hacerlo es también la que se necesita
para comparar la LDP con otras posibles distribuciones
(exponencial, lognormal, etc.)
Estimación
Para evaluar si una muestra viene o no de una cierta
distribución, se usa Kolmogorov-Smirnov.
•Se compara la función de distribución de la supuesta
ley, con la empírica.
•Se evalúa la máxima diferencia (en módulo).
D  max( FX ( x )  FY ( x ))
x
D  max( FY ( x )  FX ( x ))
x
donde FX es la del modelo, FY es la de los datos.
Se calcula D = max(D+,D-).
Estimación
Kolmogorov-Smirnov
Estimación
Si de verdad uno quiere ser serio para estimar una
LDP, leer
“Power-law distributions in empirical data”
A. Clauset, C. Shalizi y M. Newman
http://arxiv.org/abs/0706.1062
Preview en
http://cscs.umich.edu/~crshalizi/weblog/491.html
“So You Think You Have a Power Law — Well Isn't
That Special?”
y usar el software disponible en
http://www.santafe.edu/~aaronc/powerlaws/