Transcript Generación

Teoría de la Información
•
•
•
•
PLN entropía
Teoría de la Información
Entropía
Información mutua
Entropía y PLN
1
Valor esperado
• Dada una variable aleatoria X que toma valores x1,
x2, ..., xn en un dominio de acuerdo con una
distribución de probabilidad, podemos definir el
valor esperado de X como la suma de los valores
ponderados con su probabilidad
• E(X) = p(x1)X(x1) + p(x2)X(x2) + ... p(xn)X(xn)
PLN entropía
2
Teoría de la Información 1
• Nos interesa asociar a cada evento la cantidad de
información que contiene
• Shannon en los 40s
• Maximizar la cantidad de información que puede
transmitirse por un canal de comunicación imperfecto.
• Nivel de compresión de los datos (entropía)
• Cantidad de información que se transmite (capacidad del
canal)
PLN entropía
3
Teoría de la Información 2
• Dos requisitos de tipo estadístico:
• Significancia: cuanto más improbable es un evento más
información lleva
• P(x1) > P(x2) ==> I(x2) < I(x1)
• Aditividad: si x1 y x2 son eventos independentientes:
• I(x1x2) = I(x1) + I(x2)
PLN entropía
4
Teoría de la Información 3
• I(m) = 1/p(m) no los satisface
• I(x) = - log p(x) si los satisface
• Cantidad de información:
• I(X) = - log p(X)
PLN entropía
5
Entropía 1
• variable aleatoria X, descrita por p(X), cantidad de información I
• Entropía: Valor esperado de la cantidad de información
H(p)  H(X)    p(x)log2p(x)
xX
• La Entropía mide la cantidad de información de una variable
aleatoria. Podemos considerarla como la longitud media del
mensaje necesario para transmitir un valor de dicha variable
usando una codificación óptima.
• La entropía mide el grado de desorden de la variable aleatoria.
PLN entropía
6
Entropía 2
• Distribución uniforme de una variable X.
• Cada valor xi  X con |X| = M tiene la misma probabilidad pi = 1/M
• Si codificamos el valor xi en binario necesitaremos log2 M bits de información
• Distribución no uniforme.
•
•
•
•
por analogía
Supongamos ahora que cada valor xi tiene la probabilidad pi
Supongamos que las pi son independientes
Haciendo Mpi = 1/ pi necesitaremos log2 Mpi = log2 (1/ pi ) = - log2 pi bits de
información.
PLN entropía
7
ejemplo de Entropía 1
Consideremos el caso X ={a, b, c, d} tal que pa = 1/2; pb = 1/4; pc = 1/8; pd = 1/8
entropía(X) = valor esperado de la cantidad de información necesaria para representarlo=
-1/2 log2 (1/2) -1/4 log2 (1/4) -1/8 log2 (1/8) -1/8 log2 (1/8) = 7/4 = 1.75 bits
determinación del valor de X con el mínimo número de preguntas binarias
¿X = a?
no
si
a
si
b
¿X = b?
no
¿X = c?
si
no
c
a
Número medio de preguntas: 1.75
PLN entropía
8
ejemplo de Entropía 2
Supongamos ahora una distribución binomial de X
X = 0 con probabilidad p
X = 1 con probabilidad (1-p)
H(Xp)
H(X) = -p log2 (p) -(1-p) log2 (1-p)
p = 0 => 1 - p = 1
p = 1 => 1 - p = 0
p = 1/2 => 1 - p = 1/2
H(X) = 0
H(X) = 0
H(X) = 1
1
0
0
PLN entropía
1/2
1
p
9
Entropía 3
H(X)    p(x)log2p(x)
xX
1
  p(x)log2
p(x)
xX

1 

 E log2

p(x)


H(X)  0
H(X)  0  p(X)  1
PLN entropía
10
Entropía 4
• La entropía conjunta (joint entropy) de 2 variables
aleatorias, X, e Y, es la cantidad media de
información necesaria en media para especificar
los dos valores
H(X, Y)  p(x,y)logp(X,Y)
xX yY
PLN entropía
11
Entropía 5
• La entropía condicional (conditional entropy) de una
variable aleatoria Y dada otra X, expresa cuánta
información extra se necesita comunicar Y en media
cuando se supone que el receptor ya conoce X.
H(Y | X)   p(x)H(Y| X  x)
xX
   p(x) p(y | x)logp(y| x)
xX
yY
   p(x,y)logp(y| x)   Elogp(Y| X)
xX yY
PLN entropía
12
Entropía 6
Regla de la cadena para probabilidades
P(A,B) = P(A|B)P(B) = P(B|A)P(A)
P(A,B,C,D…) = P(A)P(B|A)P(C|A,B)P(D|A,B,C..)
PLN entropía
13
Entropía 7
Regla de la cadena para entropía
H(X, Y)  H(X)  H(Y| X)
H(X1, ...,Xn )  H(X1 )  H(X2 | X1 )  .... H(Xn | X1,...Xn1 )
PLN entropía
14
Información mutua 1
H(X, Y)  H(X)  H(Y| X)  H(Y)  H(X | Y)
H(X) - H(X| Y)  H(Y) - H(Y| X)  I(X, Y)
• I(X,Y) es la información mutua entre X e Y.
• Mide la reducción de incertidumbre de una variable aleatoria
X al conocer el valor de otra
• También mide la cantidad de información que una variable
posee de la otra
PLN entropía
15
Información mutua 2
I(X, Y)  H(X) - H(X| Y)  H(Y) - H(Y| X)
• I vale 0 sólo cuando X e Y son independientes:
• H(X|Y)=H(X)
• H(X)=H(X)-H(X|X)=I(X,X)
• La Entropía es la autoinformación (información mutua de
X y X)
PLN entropía
16
Entropía y PLN 1
• La Entropía es una medida de incertidumbre.
Cuanto más sabemos de un evento menor es su
entropía.
• Si un LM captura más de la estructura de un
lenguaje menor será su entropía.
• Podemos usar la entropía como una medida de la
calidad de nuestros modelos.
PLN entropía
17
Entropía y PLN 2
H(p)  H(X)    p(x)log2p(x)
xX
•
•
•
•
PLN entropía
H: entropía de un languaje L
Desconocemos p(X)
Supongamos que nuestro LM es q(X)
¿ Cómo de bueno es q(X) como estimación
de p(X) ?
18
Entropía y PLN 3
Cross Entropy
Media de la "sorpresa" de un modelo q cuando
describe eventos sujetos a una distribución p

1 
CH(p;q)  Ep  log

q(X) 

PLN entropía
1
  p(x)log
q(x)
xX
19
Entropía y PLN 3
Entropía Relativa o divergencia de Kullback-Leibler (KL)

p(X)
p(x)
D(p || q)  E p  log
   p(x)log
q(X)  xX
q(x)

D(p || q)  CH(p;q)  H(p)
PLN entropía
20
Entropía y PLN 4
Entropía Relativa o divergencia de Kullback-Leibler (KL)
• Mide la diferencia entre dos distribuciones de
probabilidad
• Número medio de bits que se desperdician
codificando un evento que tiene una distribución p
con un código basado en una distribución q
aproximada.
• Objetivo: minimizar la entropía relativa D(p||q) para
tener un modelo lo más preciso posible
PLN entropía
21