Transcript Entropía

EQUIPO Nº 2
YURI LUNA
 KARINA DIMAS
 NYDIA CONEJO
 MERCEDES MURILLO
 PERLA ESCOBEDO
 JULIO DIAZ
 MARTIN ALFARO M
 DANIEL TINOCO

ELEMENTOS DE LA TEORIA
DE LA INFORMACION
ELEMENTOS DE LA TEORIA

El modelo propuesto por Shannon es un
sistema general de la comunicación que parte
de una fuente de información desde la
cual, a través de un transmisor, se emite
una señal, la cual viaja por un canal, pero a
lo largo de su viaje puede ser interferida por
algún ruido. La señal sale del canal, llega a
un receptor que decodifica la información
convirtiéndola posteriormente en mensaje
que pasa a un destinatario.
ESQUEMA DE LOS ELEMENTOS DE LA
TEORIA
Fuente de Información



Una fuente es todo aquello
que emite mensajes.
Computadora, dispositivos
de transmisión.
Una fuente es en sí misma
un conjunto finito de
mensajes:
todos
los
posibles
mensajes
que
puede emitir dicha fuente
TIPO DE FUENTES

Fuente
Aleatoria.
Cuando no es posible
predecir cual es el
próximo mensaje.
TIPO DE FUENTES

Fuente
Estructurada.
Cuando posee cierto
nivel de redundancia.
Una
Fuente
No
estructurada
o de
información pura es
aquella en que todos
los
mensajes
son
absolutamente
aleatorios sin relación
alguna y sin sentido
aparente.
MENSAJE

Un mensaje es un
conjunto de ceros y
unos. Un archivo, un
paquete de datos que
viaja por una red y
cualquier cosa que
tenga
una
representación binaria
puede considerarse un
MENSAJE.
INFORMACIÓN Y CÓDIGO

Un código es un
conjunto de ceros y
unos, que se usan
para representar a
un cierto mensaje de
acuerdo a reglas o
convenciones
preestablecidas.
La información
contenida en un
mensaje es
proporcional a la
cantidad de bits que
se requieren como
mínimo para
representar al
mensaje.

Transmisor


Recurso Técnico que transmite el mensaje
originado por la fuente de información en señales
apropiadas.
El Transmisor transforma el mensaje en un una
señal que es enviada por el canal de
comunicación al receptor.
Señal

La señal viaja por un
canal, pero a lo largo
de su viaje puede ser
interferida por algún
ruido.
Fuente de Ruido



Ruido. Expresión genérica utilizada para
referirse a barias distorsiones en forma
externa de la información.
Ruido de Canal. Cualquier perturbación
que se produzca en el conducto por el que
viaja el mensaje y que lo afecte de
cualquier forma o grado.
Semántico. Cualquier canal o
interpretación equivocada.
FUENTE RUIDO
Las señales pueden ser tanto de fuentes internas
como externas.


Las fuentes internas usualmente están presentes de
un modo u otro existan señal o no, y no cambian
abruptamente al menos que suceda algo extraño
dentro del equipo o en las interconexiones.
Las fuentes externas tienen dos formas para ser
introducidas dentro del sistema. Una es a través de la
antena y la otra es a través de la potencia de
entrada.
EJEMPLO DE INTERFERENCIA
RECEPTOR


Un receptor es una persona o un equipo
que recibe una señal, código o mensaje
emitido por un transmisor, enunciante o
emisor.
El receptor es aquella persona a quien va
dirigida la comunicación; realiza un proceso
inverso al de emisor, ya que descifra e
interpreta los signos elegidos por el emisor,
es decir descodifica el mensaje.
DESTINATARIO


Persona a quien va dirigido o destinado el
mensaje.
El cual espera recibir la información completa
Y
Y
17
18
ENTROPIA :
La entropía, en la teoría de la
información, es una magnitud
que
mide
la
información
provista por una fuente de
datos, es decir, lo que nos
aporta sobre un dato o hecho
concreto
19
LA INFORMACION DE SHANNON
En 1948 C.E.Shannon trabajaba para la Bell Systems
estudiando la transmisión de mensajes en forma
codificada, él quería definir una cantidad que fuera
una medida de lo que intuitivamente entendemos
por información. Es una medida de la
incertidumbre sobre el verdadero contenido de un
mensaje, pero la tarea se complica por el hecho de
que los bits sucesivos en una cadena no son al azar, y
por lo tanto no son independientes entre sí, en un
mensaje real. También señalan que "la información"
no es una cantidad subjetiva aquí, sino más bien una
cantidad objetivo, se mide en bits.

20
La medida de la entropía puede
aplicarse a fuentes de información de
cualquier naturaleza, y nos permite
codificarla adecuadamente,
indicándonos los elementos de código
necesarios para transmitirla,
eliminando toda redundancia*
*Redundancia es una propiedad de los mensajes,
consistente en tener partes predictibles a partir del
resto del mensaje y que por tanto en sí mismo no
aportan nueva información o "repiten" parte de la
21
información
. E. Shannon fue uno de los primeros en interesarse
en la redundancia estadística de las lenguas
naturales, en particular de la lengua inglesa. Sus
investigaciones a partir de la entropía condicional de
los textos escritos en inglés, probó que las lenguas
naturales contienen una redundancia estadística
cercana al 80%.
si se eliminan al azar algo más de una cuarta
parte de las letras en general se hace imposible
reconstruir completamente el texto a partir del
contexto restante.
22
La entropía es el límite matemático de la
compresión que se puede lograr sin perder
información.
Para compresión superior, inevitablemente se
introduce cierta distorsión (compresión con
pérdida de información). La misma será o no
aceptable de acuerdo a la finalidad del
procesamiento del mensaje.
Ejemplo, la telefonía y la compresión de
imágenes juegan con las limitaciones del
sistema perceptivo humano para lograr
mejor compresión.
23
Algoritmo de compresión con pérdida
Al guardar una imagen a disco o transmitirla por la
red, es muy común usar algún algoritmo de
compresión de datos.
Una forma de clasificar estos algoritmos es analizar si
existe o no pérdida de calidad en el proceso.
En el primer caso, en lugar de guardar una copia
exacta de la imagen, sólo se guarda una aproximación.
Esta aproximación se aprovecha de las limitaciones del
sistema visual humano para esconder la distorsión
introducida.
24
Estos algoritmos son de gran utilidad para guardar
imágenes fotográficas que de otra manera ocuparían
mucho espacio dificultando su transmisión y
almacenamiento.
Un ejemplo de algoritmo con perdida de calidad es
JPEG
25
Algoritmo de compresión sin pérdida
Es aquel donde la compresión de datos se logra por
eliminación de la redundancia de la señal, por lo
que no se pierde información. Su límite natural es la
entropía de la fuente
GIF (Graphics Interchange Format) es un formato
digital de imágenes creado por CompuServe. Este
formato usa el algoritmo de compresión sin pérdida
26
La entropía nos indica el límite teórico para la
compresión de datos.
Su cálculo se realiza mediante la siguiente fórmula:
donde H es la entropía, las p son las probabilidades
de que aparezcan los diferentes códigos y m el
número total de códigos. Si nos referimos a un
sistema, las p se refieren a las probabilidades de que
se encuentre en un determinado estado y m el
número total de posibles estados.
27
Se utiliza habitualmente el logaritmo en base 2, y
entonces la entropía se mide en bits
Ejemplo: El lanzamiento de una moneda al aire
para ver si sale cara o cruz (dos estados con
probabilidad 0,5) tiene una entropía:
A partir de esta definición básica se pueden definir
otras entropías.
28
Entropía y Tipos de Sistemas
Una agrupación genérica los asocia en:
a) Sistemas análogos o isomórficos
b) Sistemas homeostáticos basados en la teoría cibernética.
Estos últimos (b) tienden a mantener un estado sistemático basado
en ajustes internos, los que se sustentan en el control de la
comunicación para la toma de decisiones. El principio que
fundamenta los sistemas homeostáticos está basado en el segundo
principio de la termodinámica, que dice "todo sistema tiende a perder
energía, por lo tanto desarrolla una tendencia natural hacia la
entropía, es decir hacia su autodestrucción”.
29
Entropía y Tipos de Sistemas
Los homeostáticos de alta capacidad comunicacional, que
potencian sus flujos internos de intercambio de información, de tal
manera que se capacitan para neutralizar los factores destructivos
que ellos mismos puedan generar o los que provengan del
ambiente.

Ej. (El organismo humano
funcionando eficientemente).
con
el
sistema
inmunológico
Los sistemas entrópicos, han perdido ésta capacidad y tienden
fuertemente hacia la autodestrucción.

Ej. (Un ser humano enfermo Terminal, o una empresa en proceso
de quiebra).
30
Ecuación de la Entropia ( en la Información)
pérdida de información
la entropía de información
medida de la incertidumbre
31
Ecuación de la Entropia ( en la Información)
H = Entropía
el análisis de estos sistemas se hace en el
llamado espacio de fases, un espacio en
el que está representadas todas las variables
dinámicas del sistema, representado por (i)
K = una constante positiva,
p = probabilidad de que ocurra un
Evento y …
m = el número total de códigos
Log2 por lo tanto la entropía se mide en bits
32
Aplicación de la Teoría de la Información
Compresión de datos
operaciones que se realizan sobre la información de una fuente
con el objetivo de disminuir el tamaño del mensaje con vistas a
su transmisión o almacenamiento
33
Aplicación de la Teoría de la Información
Algoritmos de compresión
en lugar de guardar una copia
exacta de la imagen, sólo se
guarda una aproximación. Esta
aproximación se aprovecha de las
limitaciones del sistema visual
humano
para
esconder
la
distorsión introducida.
Es aquel donde la compresión
de datos se logra por
eliminación de la redundancia
de la señal, por lo que no se
pierde información. Su límite
natural es la entropía de la
fuente.
Ejemplo de algoritmo con perdida
de calidad es JPEG
GIF (Graphics
Format)
Con pérdida
Interchange
Sin pérdida
34
Tipos de Entropía
Relativa
Conjunta
Negativa
Entropía
Condicional
35
Entropia condicional
La entropía condicional es una extensión del concepto de
entropía de la información a procesos donde intervienen
varias variables aleatorias no necesariamente independientes.
Entropia conjunta
La información o incerteza de dos fuentes “deberia” ser aditiva si estas son
dependientes y acotada inferiormente por el maximo de ambas.
Entropía relativa
KULLBACK-LEIBLER
En teoría de la probabilidad la divergencia de Kullback-Leibler es un
indicador de la similitud entre dos funciones de distribución. Dentro de la
teoría de la información también se la conoce como divergencia de la
36
información, ganancia de la información.
OTRAS ENTROPIAS…
37
OTRAS ENTROPIAS…
NEGENTROPIA.En la Teoría de la Información y la Estadística, la
NEGENTROPIA se usa como medida de distancia de
normalidad. La negentropía es siempre Positiva,
invariante a cambios de coordenadas lineales y se
desvanece si , y solo si la señal es gausiana.
La negentropía se define por:
Donde S(Φχ) es el diferencial de entropía de la
densidad gausiana con la misma media y
varianza, mientras que pχ y S(pχ) es la entropía
diferencial de pχ:
La negentropía está relacionada a la entropía de redes, que
es usada en análisis de componentes independientes.
La negentropía puede ser entendida intuitivamente como la
información que puede ser guardada cuando se representa
pχ de forma eficiente: si pχ fuera una variable aleatoria (con
distribución gausiana) con misma media y varianza, es
necesitaría una máxima longitud de datos para ser
representada, aun en su forma más eficiente.
Como pχ no es tan aleatorio, algo se sabe de antemano. pχ
contiene menos información desconocida, y necesita menos
longitud de datos para ser representado de forma más
eficiente
PERPLEJIDAD.
Es una medida utilizada en la teoría de la información,
se define como 2 elevado a la entropía.
A menudo se conoce también como 2 elevado a la
Entropía Cruzada, esta definición es usada son mas
frecuencia en la comparación empírica de modelos
probabilísticos
La perplejidad es usada frecuentemente a la hora de
evaluar modelos de lenguaje.
Un modelo de lenguaje es una distribución de
probabilidad sobre un conjunto de textos.
Usando la definición anterior, se puede encontrar que
una frase xi en el conjunto de prueba puede ser
codificada de media mediante 190 bits (p.e, si las
frases de prueba tienen una media de probabilidad
logarítmica de 190). Este valor nos daría un valor
enorme de perplejidad de 2190 por frase.
Si las frases de un conjunto de entrenamiento constan
de un total de 1,000 palabras, y éstas se codifican
mediante 7,950 bits, se da la perplejidad del modelo
como 27.95 = 247 por palabra.
En otras palabras, el modelo se confunde en el
conjunto de prueba como si tuviese que elegir
uniforme e independientemente entre 247
posibilidades por cada palabra.
ENTROPIA CRUZADA
En la Teoría de la Información, la Entropía Cruzada entre 2
distribuciones de probabilidad, mide la media de bits necesarios para
identificar un evento de un conjunto de posibilidades, si un esquema de
codificación está basado en una distribución de probabilidad dada q,
más que en la verdadera distribución p.
La Entropía Cruzada para 2 distribuciones p y q sobre el mismo
espacio de probabilidad, se define como sigue:
{{ecuación
||left}}
Donde H(p) es la entropía de p, y DKL(p | | q) es la divergencia de
Kullback-Leibler entre q y p (también conocida como entropía relativa).
TABLA DE CODIGOS DE DAVID HUFFMAN…
Carácter
Frecuencia
Código
Espacio
8
00
E
6
100
N
3
1100
O
3
1110
U
2
0100
A
2
0101
D
2
1010
F
2
1011
L
2
0110
M
2
0111
S
2
11010
B
1
110110
H
1
110111
J
1
111100
P
1
111101
R
1
111110
T
1
111111
Entropía:
Es la tendencia que los sistemas tienen al desgaste, a la
desintegración, para el relajamiento de los estándares y para
un aumento de la aleatoriedad.
A medida que la entropía aumenta, los sistemas se
descomponen en estados más simples. La segunda ley de
la termodinámica explica que la entropía en los sistemas
aumenta con el correr del tiempo
El uso popular
El término entropía se utiliza a menudo en el lenguaje popular para
referirse a una variedad de fenómenos no relacionados.
Un ejemplo es el concepto de entropía corporativa tal como se
presentó un poco con humor por los autores Tom DeMarco y Lister
Timoteo en su publicación 1987 Peopleware clásico, un libro sobre el
cultivo y manejo de equipos productivos y exitosos proyectos de
software.
Aquí, ellos ven el derroche de energía, como la burocracia y la
ineficiencia del equipo de negocios como una forma de entropía, es
decir, la energía perdida a la basura.
Este concepto ha calado y ahora es la jerga común en las escuelas de
negocios.
47