Download - Cap1-Probabilidad II P
Introducción a la Teoría de Probabilidades
Carlos Almeida
Universidad de las Fuerzas Armadas - ESPE
Beca Prometeo
13 de enero de 2014
Índice
1. Introducción 1
2. Espacio de Probabilidad y Elementos aleatorios 2
2.1. σ-álgebras (tribu o σ-campos) y medidas . . . . . . . . . . . . 22.2. Funciones medibles y distribuciones . . . . . . . . . . . . . . . 4
3. Integración y Diferenciación 6
3.1. Integración . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63.2. Derivada de Radon-Nikodym . . . . . . . . . . . . . . . . . . . 10
4. Distribuciones y sus características 11
5. Esperanza Condicional 14
6. Resultados Asintóticos 17
6.1. Modos de convergencia . . . . . . . . . . . . . . . . . . . . . . 176.2. Convergencia de transformaciones . . . . . . . . . . . . . . . . 196.3. La(s) ley(es) de los grandes números . . . . . . . . . . . . . . 206.4. El teorema central de límite . . . . . . . . . . . . . . . . . . . 22
1. Introducción
Estas notas de curso son basadas en el capítulo 1 del libro: MathematicalStatistics de Jun Shao, 1998, Springer.
Este libro es la base del curso de estadística matemática de la Universityof Wisconsing-Madison y está pensado para un curso de 30 semanas a razón
1
de tres horas de clases más dos horas de discusión por semana de clases. Sepresupone buen conocimiento de análisis.
2. Espacio de Probabilidad y Elementos alea-torios
Experimento aleatorio: El resultado no puede ser predecido con certezaAxiomatización: A. N. Kolmogorov (1933), pero existen antecedentes, La-
place, Moivre, Markov.
2.1. σ-álgebras (tribu o σ-campos) y medidas
Ω: Elementos de interés, contiene todos los resultados posibles (Probabili-dad), espacio de muestras (Estadística)
Ejemplo: un conjunto de números, un subintervalo de la recta real, etc
2Ω: Conjunto de todos los subconjuntos de Ω
Denición 1. Sea F una colección de subconjuntos de Ω, F es una σ-álgebrasi:
1. ∅ ∈ F
2. Si A ∈ F , entonces AC ∈ F
3. Si Ai ∈ F , i = 1,2,. . . , entonces la unión ∪Ai ∈ F
Observaciones:
(Ω,F) : Espacio medible
A ∈ F : conjunto medible (eventos)
∩Ai ∈ F
∅,Ω y 2Ω son σ-álgebras
A ⊂ Ω tal que A 6= ∅ y A 6= Ω, ∅, A,AC ,Ω es σ-álgebra (la máspequeña que contiene A)
Sea σ(C) una colección de subconjuntos de Ω, la más pequeña σ-álgebraque contiene C, i.e.:
σ(C) =⋂B∈M
B, M = B : C ⊂ B, y B es una σ-álgebra
2
Sea O el conjunto de abiertos de R, a la σ-álgebra generada por O sellama Conjuntos de Borel o Borelianos
Denición 2. Sea (Ω,F) un espacio medible, A una función ν denida enF se llama medida si:
1. 0 ≤ ν(A) ≤ ∞ para cualquier A ∈ F
2. ν(∅) = 0
3. Si Ai ∈ F , i = 1,2,. . . , y los Ai's son disjuntos (i.e. Ai ∩ Aj = ∅ sii 6= j), entonces
ν
(∞⋃i=1
Ai
)=∞∑i=1
ν(Ai)
Observaciones:
(Ω,F , ν) : Espacio medido,
Si existe una sucesión A1 ⊂ A2 ⊂ . . . tal que lımAn = Ω y para todon, ν(An) <∞ se dice que la medida es σ-nita
Si ν(Ω) = 1, probabilidad y usualmente ν = P (o Q), (Ω,F , P ) sellamara espacio probabilizado
Ejemplos: Medida de conteo, medida de Lebesgue
Proposición 1. Sea (Ω,F , ν) un espacio medible
1. (Monotinicidad) Si ⊂ B, entonces ν(A) ≤ ν(B)
2. (Subaditividad) Para qualquier secuencia A1, A2, . . .
ν
(∞⋃i=1
Ai
)≤
∞∑i=1
ν(Ai)
3. (Continuidad) Si A1 ⊂ A2 ⊂ . . . (o A1 ⊃ A2 ⊃ . . . y ν(A1) < ∞),entonces
ν( lımn→∞
An) = lımn→∞
ν(An)
donde:
lımn→∞
An =n⋃
i=1
Ai
(o lım
n→∞An =
n⋂i=1
)
3
Proposición 2. En un espacio probabilizado (Ω,F , P ),
1. Sea F (x) := P ((−∞, x]) la función de probabilidad acumulada, enton-ces:
F (−∞) = lımx→−∞ F (x) = 0
F (∞) = lımx→∞ F (x) = 1
F no es decreciente, i.e. F (x) ≤ F (y)) si x < y
F es continua por la derecha, i.e lımy→x,y>x F (x) = F (y)
2. Si una función F sobre R satisface las cuatro propiedades de la parte 1entonces es la c.d.f. de una única medida de probabilidad sobre (R,B)
En la caso multidimensional, se dene el espacio medible producto y lamedida producto, para el caso de la σ-álgebra producto se dene como lagenerada por el producto cartesiano de las σ-álgebras, y la medida productoestá justicada el la proposición:
Ejemplo: medida de Lebesgue en (Rk,Bk)El concepto de c.d.f. se extiende a Rk y es denida por:
2.2. Funciones medibles y distribuciones
Considere una función (aplicación) f de Ω sobre un espacio más simpleΛ (usualmente Rk). Sea B ⊂ Λ, la imagen inversa de f se dena por:
La función inversa no necesita estar denida, y tenemos las siguientespropiedades:
4
Con esto se tiene la siguiente denición de función medible:
Si Λ = R y G = B (σ-álgebra de Borel), entonce se dice Borel medible oBorel función
Ejemplos:
función indicatriz
funciones simples
Una proposición importante:
5
Observación: Es difícil de encontrar funciones que no sean Borel
Sea (Ω,F , ν) un espacio medible f una función medible de (Ω,F) a (Λ,G),la medida inducida por f es la medida en G denida por:
La medida imagen, cuando se trata de una probabilidad (P X−1) esllamada ley de la distribución de X y usualmente es denotada por PX . y suc.d.f. por FX .
Ejemplos:
c.d.f. discreta
Distribución uniforme en [a, b]
Exponencial
3. Integración y Diferenciación
A diferencia que en cálculo elemental, aquí primero se introduce la inte-gración y luego la diferenciación
3.1. Integración
Se dene la integral de funciones de Borel con respecto a (w.r.t.) unamedida ν. La denición se hace por etapas,
1. Para funciones simples no negativas:
Con ai > 0, i = 1, . . . , k
6
Observaciones:∫ϕdν =∞ es posible
Diferentes representaciones de una función simple son posibles pe-ro todas dan la misma respuesta, entonces la denición es correcta
2. Funciones de Borel nonegativas:
Sea f una función de Borel no negativa:
Observaciones:
Cómo justicar el lado derecho de la denición
Para cualquier función f Borel medible, existe una secuencia defunciones simples ϕ1, ϕ2, . . . tal que 0 ≤ ϕ ≤ f para cualquier i y
lımn→∞
∫ϕndν =
∫fdν
3. Finalmente, para una función f medible cualquiera, se dene primero:
f+(ω) = maxf(ω), 0, f−(ω) = max−f(ω), 0
Observe que f+ y f− son Borel medibles no negativas, f(ω) = f+(ω)−f−(ω) y |f(ω)| = f+(ω) + f−(ω).
Observaciones:
7
Está bien denida, aunque puede tomar valores de ∞ o −∞.
Si∫f+dν y
∫f−dν y son ambas nitas, decimos que f es integra-
ble.
Diferentes notaciones:∫fdν,
∫f(ω)dν,
∫f(ω)dν(ω),
∫f(ω)ν(dω).
En espacios probabilizados,∫XdP es usualmente escrito como
EX o E(X).
Examples:
En un conjunto contable: ∫fdν =
∑ω∈Ω
f(ω)
En R, con respcto a la medida de Lebesgue, sobre un intervalo [a, b] laintegral coincide con la integral de Riemann cuando esta última estábien denida.
Propiedades:
Si una armación se cumple para todo ω ∈ Ω−N , con ν(N ) = 0, se diceque es casi en todas partes (a.e.) ν, Si la medida es de probabilidad, se dicecasi seguramente (a.s.)
|∫fdν| ≤
∫|f |dν
Si f > 0 (a.e.) entonces∫fdν ≥ 0
Si f = g (a.e.) entonces∫fdν =
∫gdν
Algunas veces se requiere saber si se puede intercambiar los límites conla integral:
Sea f1, f2, . . . y lımn→∞ fn, existe entonces, bajo que condiciones se daque:
8
La respuesta está en el siguiente teorema:
Ejercicio: Intercambio de la integral con la diferenciaciónEl siguiente teorema generaliza el de cambio de variables:
La importancia de este resultado está por ejemplo en que el en un espacioprobabilizado, si se dene una variable aleatoria X, el cálculo de la esperanzase puede hacer de la siguiente manera:
EX =
∫Ω
XdP =
∫RxdPX
o para una función de Borel g sobre los reales:
Eg(X) =
∫g(x)dPX =
∫xdPg(X)
También en algunos casos se puede intercambiar el orden de integración:
9
Este resultado puede extenderse de forma natural a la medida producto
3.2. Derivada de Radon-Nikodym
Sea (Ω,F , ν) un espacio medible y f una función de Borel no negativa,la función:
λ(A) =
∫A
fdν, A ∈ F
es una medida en (Ω,F). Observe además que
ν(A) = 0 implica λ(A) = 0
Si se da esta última propiedad se dice que λ es absolutamente continuacon relación a ν.
El teorema de Radon-Nikodim muestra que esta última es también unacondición suciente
f se llama derivada de Rdon-Nikodym o densidad de λ con respecto a ν,en el contexto de probabilidades a f se le conoce como función de densidadde probabilidades (p.d.f)
Cálculo con derivadas de R-N
10
4. Distribuciones y sus características
Discretas si son dominadas por alguna medida de conteo
Ver tabla 1
Continuas si son dominadas por la medida de Lebesgue
Ver Tabla 2
Existen p.d.f. que no son ni discretas ni continuas
Cambios de variable, ver ejemplos
Funciones generadosras de momentos:
EXk es el /k-esimo momento / de X
11
E|X|k es el k-esimo momento absoluto de X
Si µ = EX, E(X−µ)k es el k-esimo momento central de X, el segundomomento central es llamado varianza
En el caso multidimensional: matriz de varianzas-covarianzas es:
Var(X) = E(X − EX)>(X − EX)
Los momentos son interesantes características de las distribuciones, pe-ro estas no las determinan. Funciones que determinan las distribuciones seintroducen a continuación:
Tenemos los siguientes resultados:
12
13
5. Esperanza Condicional
En probabilidades básicas, se dene la probabilidad condicional P (B |A) = P (A∩B)/P (A) provisto que P (A) 6= 0, pero muchas veces necesitamosesta noción incluso en casos en los que P (A) = 0, ejemplo A = Y = c ,donde Y es una variable aleatoria real continua.
La σ-álgebra σ(Y ) contiene la ïnformación de Y ". El siguiente teoremacaracteriza la esperanza condicional:
Desarrollar el ejemplo 1.18Aplicado a funciones medibles, tenemos la siguiente proposición:
Además:
14
Esto esta en acuerdo con las deniciones usadas en probabilidades básicas.Algunas propiedades muy útiles de las probabilidades condicionales son:
Desarrollar el ejemplo del .estimador del error de media cuadrática"Independencia
15
El siguiente resultado es muy útil para chequear la independencia;
Observations:
X1, X2, . . . , XK son independientes si
FX(x1, x2, . . . , xK) = FX1(x1)FX2(x2)...FXK(xK)
fX(x1, x2, . . . , xK) = fX1(x1)fX2(x2)...fXK(xK)
Si X1, X2, . . . , XK son independientes y E|X1 . . . XK | <∞|$, entonces
E(X1 . . . XK) = EX1 . . . EXK
Independencia implica no correlación, pero el inverso no siempre escierto
Probabilidad Condicional
Se justica a con el siguiente teorema:
También se puede dada una colección de probabilidades condicionales,denir una probabilidad conjunta como sigue:
16
Desarrollar el Ejemplo 1.21
6. Resultados Asintóticos
Deniciones de convergencia, relaciones,principales resultadosLas leyes de los grandes númerosEl teorema central del límteSe estudia el comportamiento límite de variables aleatorias y sus distri-
buciones
6.1. Modos de convergencia
Se denen cuatro modos de convergencia de variables (vectores) aleato-rios:
17
El siguiente resultado describe las relaciones entre los diferentes modosde convergencia:
Desarrollar el ejemplo 1.22El resultado siguiente es muy útil para demostrar convergencia en distri-
bución:
18
Junto con la siguiente proposición, este teorema puede usarse para mos-trar la convergencia en ley.
6.2. Convergencia de transformaciones
Que pasa cuando se aplica una función g Borel medible a una sucesiónde variables aleatorias, se resume en el siguiente teorema
Presentar ejemplo 2.13,Observe que la convergencia conjunta en algunos casos no puede ser re-
lajada.Un resultado importante que puede evitar en algunos casos la exigencia
de la convergencia conjunta es:
19
6.3. La(s) ley(es) de los grandes números
20
Una versión ligeramente menos exigente se presenta en el siguiente teore-ma:
21
6.4. El teorema central de límite
Para aproximar las distribuciones tenemos uno de los as importantes re-sultados que permite trabajar en estadística:
Desarrollar el ejemplo 1.26
22