Download - 02 07 Teoria de La Informacion Estadistica
-
Tema 7: Teora de la InformacinEstadstica
Abdelamlik Moujahid, Inaki Inza, Pedro Larranaga
Departamento de Ciencias de la Computacion e Inteligencia ArtificialUniversidad del Pas Vasco
http://www.sc.ehu.es/isg/
Tema 7: Teora de la Informacion Estadstica p. 1/16
-
ndice Cantidad de informacin Entropa de una variable Divergencia de KullbackLeibler Cantidad de informacin mtua
Tema 7: Teora de la Informacion Estadstica p. 2/16
-
Cantidad de informacin
Cantidad de informacin asociada a un suceso
Urna con 9 bolas negras y 1 bola blanca. Se efectanextracciones sin reemplazamiento Se saca una bola blanca. Este suceso proporciona
una alta informacin, ya que la incertidumbre sobrela siguiente extraccin desaparece
Se saca una bola negra. La informacin queproporciona este suceso es pequea, ya que laincertidumbre acerca de la siguiente extraccin semantiene
Tema 7: Teora de la Informacion Estadstica p. 3/16
-
Cantidad de informacin
Cantidad de informacin como medida de reduccin de laincertidumbre
Al lanzar un dado si nos dicen que ha salido: un nmero menor que 2, ms informacin (reduce
ms la incertidumbre) que un nmero mltiplo de 2
Tema 7: Teora de la Informacion Estadstica p. 4/16
-
Cantidad de informacin X variable aleatoria con posibles valores x1, . . . xn y
probabilidades asociadas p(x1), . . . , p(xn) I(xi) = log2 p(xi)
Si p(xi) 1 I(xi) 0 Si p(xi) 0 I(xi) +
Cuanto mas probable es un suceso menor cantidad deinformacin aporta
Tema 7: Teora de la Informacion Estadstica p. 5/16
-
Entropa de una variable X variable aleatoria discreta con posibles valores x1, . . . xn y
probabilidades asociadas p(x1), . . . , p(xn) I(X) variable aleatoria cantidad de informacin asociada a X ,
con posibles valores I(x1), . . . I(xn) y probabilidades asociadasp(x1), . . . , p(xn)
Se define la entropa de Shannon (1948), H(X), de una variablealetoria discreta X como la esperanza matemtica de la variablealeatoria asociada I(X)
H(X) = E(I(X)) = n
i=1
p(xi) log2 p(xi)
Si p(xi) = 0, la indeterminacin p(xi) log2 p(xi) se resuelveasignndole el valor 0
Tema 7: Teora de la Informacion Estadstica p. 6/16
-
Entropa de una variable X variable aleatoria de Bernouilli de parmetro p
P (X = x) = px(1 p)1x x = 0, 1
H(X) = p log2 p (1 p) log2(1 p)
Si p = 0,50 moneda correcta al aire
H(X) = 0,5 log2 0,5 0,5 log2 0,5 = 1
Si p = 0,60 moneda trucada al aire
H(X) = 0,6 log2 0,6 0,4 log2 0,4 = 0,97
Si p = 0,90 urna con 9 bolas negras y 1 blanca
H(X) = 0,9 log2 0,9 0,1 log2 0,1 = 0,468
Tema 7: Teora de la Informacion Estadstica p. 7/16
-
Entropa de una variable
Se verifica
0 H(X) log2 n
H(X) = 0 xi con p(xi) = 1
Si X es variable aleatoria uniforme discreta, es decirP (X = xi) =
1n
para todo i = 1, . . . , n, entoncesH(X) = log2 n
Tema 7: Teora de la Informacion Estadstica p. 8/16
-
Entropa de una variable X v.a. con x1, . . . , xn y p(x1), . . . , p(xn)
Y v.a. con y1, . . . , ym y p(y1), . . . , p(ym) (X, Y ) v.a. bidimensional con (x1, y1), . . . , (x1, ym), . . . , (xn, y1), . . . , (xn, ym) y
p(x1, y1), . . . , p(x1, ym), . . . , p(xn, y1), . . . , p(xn, ym)
X|Y = yj v.a. condicionada con p(x1|yj), . . . , p(xn|yj) Entropa de la v.a. bidimensional conjunta (X, Y )
H(X, Y ) =
n
i=1
m
j=1
p(xi, yj) log2 p(xi, yj)
Entropa de la v.a. X condicionada al valor Y = yj
H(X|Y = yj) = n
i=1
p(xi|yj) log2 p(xi|yj)
Entropa de la v.a. X condicionada a la v.a. Y
H(X|Y ) =m
j=1
p(yj)H(X|Y = yj) = n
i=1
m
j=1
p(xi, yj) log2 p(xi|yj)
Tema 7: Teora de la Informacion Estadstica p. 9/16
-
Entropa de una variable
Ley de entropas totales: H(X, Y ) = H(X) + H(Y |X)
Tenemos un tetraedro y dos cubos. El tetraedro tiene sus carasnumeradas del 1 al 4. El primer cubo del 1 al 6 y el segundo cubotiene tres caras numeradas como 1 y las tres restantes como 2. Seescoge al azar uno de los tres objetos y se considera asimismo la caraexpuesta de dicho objeto. Sean: X la v.a. denotando el objeto e Y lav.a. denotando la cara. Calcular:
H(X) y H(Y ) H(X |Y ) y H(Y |X) H(X, Y )
Tema 7: Teora de la Informacion Estadstica p. 10/16
-
Entropa de una variable
Si X e Y son variables aleatorias independientes:
H(X|Y ) = H(X)
H(Y |X) = H(Y )
H(X,Y ) = H(X) + H(Y )
Tema 7: Teora de la Informacion Estadstica p. 11/16
-
Divergencia de KullbackLeibler Medir la distancia entre dos distribuciones de probabilidad una de las cuales
actua como referencia definidas sobre la misma variable aleatoria X
DKL(p, q) =n
i=1
p(xi) logp(xi)
q(xi)
Se verifica que: DKL(p, q) 0 DKL(p, q) = 0 p(xi) = q(xi); i = 1, . . . , n
En caso de que ninguna de las dos distribuciones de probabilidad se puedaconsiderar como distribucin de referencia, se define la Jdivergencia:
DJ (p, q) = DKL(p, q) + DKL(q, p) = DJ (q, p)
Tema 7: Teora de la Informacion Estadstica p. 12/16
-
Cantidad de informacin mtua
La cantidad de informacin mtua entre dos v.a. X, Ymide la reduccin en la incertidumbre en X cuando seconoce el valor de Y
I(X,Y ) = H(X)H(X|Y )
Tema 7: Teora de la Informacion Estadstica p. 13/16
-
Cantidad de informacin mtuaDos monedas: A en la cual la probabilidad de cara es 1
2, y B con probabilidad de cara
igual a 1. Se elige una moneda al azar, se lanza dos veces y se anota el nmero decaras. X v.a. denota la moneda escogida. Y v.a. denota el nmero de caras obtenidas
H(X) = 12
log2
1
2 1
2log
2
1
2= 1
H(X|Y ) P (Y = 2|X = A) = 1
4; P (Y = 1|X = A) = 1
2; P (Y = 0|X = A) = 1
4;
P (Y = 2|X = B) = 1; P (Y = 1|X = B) = 0; P (Y = 0|X = B) = 0 P (X = A, Y = 0) = 1
8; P (X = B, Y = 0) = 0; P (X = A, Y = 1) = 1
4;
P (X = B, Y = 1) = 0; P (X = A, Y = 2) = 18; P (X = B, Y = 2) = 1
2
P (Y = 0) = 18; P (Y = 1) = 1
4; P (Y = 2) = 5
8
P (X = A|Y = 0) = 1; P (X = B|Y = 0) = 0; P (X = A|Y = 1) = 1;P (X = B|Y = 1) = 0; P (X = A|Y = 2) = 1
5; P (X = B|Y = 2) = 4
5
H(X|Y = 2) = 0,7215; H(X|Y = 1) = 0; H(X|Y = 0) = 0 H(X|Y ) = P (Y = 0) H(X|Y = 0) + P (Y = 1) H(X|Y = 1) + P (Y =
2) H(X|Y = 2) = 58 0,7215 = 0,4509
I(X, Y ) = H(X)H(X|Y ) = 1 0,4509 = 0,5491
Tema 7: Teora de la Informacion Estadstica p. 14/16
-
Cantidad de informacin mtua
I(X, Y ) = H(X)H(X |Y )
= n
i=1 p(xi) log2 p(xi) +n
i=1
mj=1 p(xi, yj) log2 p(xi|yj)
= n
i=1 p(xi) log2 p(xi) +n
i=1
mj=1 p(xi, yj) log2 p(xi, yj)
n
i=1
mj=1 p(xi, yj) log2 p(yj)
=n
i=1
mj=1 p(xi, yj) log2 p(xi, yj)
n
i=1
mj=1 p(xi, yj)[log2 p(xi) + log2 p(yj)]
=n
i=1
mj=1 p(xi, yj)[log2 p(xi, yj) (log2 p(xi) + log2 p(yj))]
=n
i=1
mj=1 p(xi, yj) log2
p(xi,yj)p(xi)p(yj)
Tema 7: Teora de la Informacion Estadstica p. 15/16
-
Cantidad de informacin mtua
Se verifica:
I(X, Y ) = I(Y, X)
I(X, Y ) = DKL(p(x, y), p(x) p(y))
I(X, Y |Z) =r
k=1 p(zk)I(X, Y |Z = zk)
=n
i=1
mj=1
rk=1 p(xi, yj , zk) log
p(xi,yj |zk)p(xi|zk)p(yj |zk)
I(X, Y |Z) = H(X |Z) + H(Y |Z)H(X, Y |Z)
I(X, Y |Z) = 0 X e Y son condicionalmente independientesdado Z X e Y son condicionalmente independientes dado Z p(x|y, z) = p(x|z) para todo x, y, z
Tema 7: Teora de la Informacion Estadstica p. 16/16
ndiceCantidad de informacinCantidad de informacinCantidad de informacinEntropa de una variableEntropa de una variableEntropa de una variableEntropa de una variableEntropa de una variableEntropa de una variableDivergencia de Kullback--LeiblerCantidad de informacin mtuaCantidad de informacin mtuaCantidad de informacin mtuaCantidad de informacin mtua