Hasta ahora hemos discutido la idea detrás del bootstrap y como se puede usar para estimar errores estándar. Comenzamos con el error estándar pues es la manera más común para describir la precisión de una estadística.
- En términos generales, esperamos que ˉx¯x este a una distancia de μPμP menor a un error estándar el 68% del tiempo, y a menos de 2 errores estándar el 95% del tiempo.
- Estos porcentajes están basados el teorema central del límite que nos dice que bajo ciertas condiciones (bastante generales) de PP la distribución de ˉx¯x se aproximará a una distribución normal:
ˉx⋅∼N(μP,σ2P/n)
Veamos algunos ejemplos de como funciona el Teorema del Límite Central, buscamos ver como se aproxima la distribución muestral de la media (cuando las observaciones provienen de distintas distribuciones) a una Normal conforme aumenta el tamaño de muestra. Para esto, aproximamos la distribución muestral de la media usando simulación de la población.
Vale la pena observar que hay distribuciones que requieren un mayor tamaño de muestra nn para lograr una buena aproximación (por ejemplo la log-normal), ¿a qué se debe esto?
Para la opción de Elecciones tenemos una población de tamaño N=143,437N=143,437 y el objetivo es estimar la media del tamaño de la lista nominal de las casillas (datos de las elecciones presidenciales de 2012). Podemos ver como mejora la aproximación Normal de la distribución muestral conforme aumenta el tamaño de muestra nn; sin embargo, también sobresale que no es necesario tomar una muestra demasiado grande (n=60n=60 ya es razonable).
En lo que sigue veremos distintas maneras de construir intervalos de confianza usando bootstrap.
Un intervalo de confianza % para un parámetro es un intervalo tal que para todo .
Y comenzamos con la versión bootstrap del intervalo más popular.
- Intervalo Normal con error estándar bootstrap. El intervalo para con un nivel de confianza de se define como:
.
donde denota el percentil de una distribución .
este intervalo está soportado por el Teorema Central del Límite, sin embargo, no es adecuado cuando no se distribuye aproximadamente Normal.
No hay comentarios:
Publicar un comentario