Estimación de la media con intervalos de confianza
Al estimar un parámetro a través de un único valor, como sucede en la estimación puntual no se puede precisar el error de muestreo ni la confianza que merece tal estimación.
La estimación por intervalos de confianza permite precisar ambas cosas. Este procedimiento consiste en encontrar un intervalo de valores dentro del cual se espera, con un alta probabilidad, que se encuentre un parámetro.
Para entender mejor el concepto de intervalo de confianza vamos a suponer que seleccionamos 100 muestras de una población y calculamos la media de las muestras e intervalos de confianza del 95% para cada muestra. Descubriremos que cerca de 95 de las 100 medias se encuentran dentro del intervalo de confianza.
Pasos para elaborar un intervalo de confianza.
1. Establecer el nivel de confianza.
2. Determinar el valor de la variable aleatoria estándar.
3. Calcular los estadísticos de la muestra.
4. Calcular el error estándar.
5. Calcular el error máximo de estimación.
6. Determinar los límites del intervalo de confianza e interpretar.
Intervalos de confianza para estimar la media de una población con muestras grandes
Ejemplo.
Los resultados siguientes representan las calificaciones de una muestra aleatoria de estudiantes en el primer examen de estadística elemental. Elaborar un intervalo de confianza de 95% para estimar la media poblacional.
23 | 60 | 79 | 32 | 57 | 74 | 52 | 70 | 82 | 36 |
80 | 77 | 81 | 95 | 41 | 65 | 92 | 85 | 55 | 76 |
52 | 10 | 64 | 75 | 78 | 25 | 80 | 98 | 81 | 67 |
41 | 71 | 83 | 54 | 64 | 72 | 88 | 62 | 74 | 43 |
60 | 78 | 89 | 76 | 84 | 48 | 84 | 90 | 15 | 79 |
34 | 67 | 17 | 82 | 69 | 74 | 63 | 80 | 85 | 61 |
Solución:
1. El nivel de confianza es la probabilidad de que el parámetro poblacional se encuentre dentro del intervalo. Este valor lo asigna la persona que va a elaborar el intervalo de confianza, los valores más ampliamente usados son 0.95 y 0.99, sin embargo puede utilizarse cualquier probabilidad cercana a 1.
El nivel de confianza ya está establecido como 95%.
1 - α = .95
2. Cuando se trata de estimar la media poblacional la variable aleatoria estándar es el valor Z de la distribución normal, siempre y cuando la muestra sea grande (n > 30), si la muestra es pequeña (n ≤ 30) se utliza la distribución t, como veremos más adelante. Como 1 - α es la probabilidad de que la media poblacional se encuentre dentro del intervalo (centro de la curva), α es la probabilidad de que no se encuentre en el intervalo (extremos de la curva), y cada extremo de la curva o cola corresponde a α/2.
Primero despejamos el valor de α para obtener α/2.
1 - α = .95
α = 1 - .95 = .05
α/2 = .025
En la tabla de la distribución normal se busca el valor Z que corresponde al área de α/2, y lo encontramos en la fila 1.9, columna 6.
Siendo Z = 1.96 es el valor que corresponde a la cola positiva de la curva, y Z = - 1.96 es el valor que corresponde a la cola negativa.
3. Para estimar la media poblacional necesitamos calcular los estadísticos de la muestra, como estamos estimando la media calculamos la media y la desviación estándar.
4.Se calcula el error estándar de la media con una de las siguientes fórmulas:
En este problema no conocemos el tamaño de la población, por lo que utilizaremos la primer fórmula. Debemos notar que en la fórmula del error estándar se utiliza la desviación estándar de la población (σ), dato que desconocemos. Cuando no se conoce σ se puede estimar con la desviación estándar de la muestra (s), tal como lo haremos en esta ocasión.
5. Se calcula el error máximo de estimación
E = Z σX = ( 1.96 )( 2.72 ) = 5.33
6. Se calculan los límites del intervalo de confianza, restando a la media de la muestra el error máximo de estimación se obtiene el límite inferior. Sumando a la media de la muestra el error máximo de estimación se obtiene el límite superior.
LI = X - E = 65.48 - 5.33 = 60.15
LS = X + E = 65.48 + 5.33 = 70.81
7.- Interpretación:
P( 60.15 ≤ μ ≤ 70.81 ) = .95
Este resultado se interpreta de la siguiente manera: “Hay una probabilidad de .95 de que la calificación media de los estudiantes en el primer examen de estadística elemental, se encuentre entre 60.15 y 70.81”.
Intervalos de confianza para estimar la media de una población con muestras pequeñas
En ocasiones, cuando la muestra es pequeña la distribución no es apropiada, en esos casos se utiliza la Distribución t de Student.
Los primeros trabajos teóricos sobre la distribución t fueron realizados por W. S. Gosset, a principios del siglo XX. Gosset era empleado de la Cervecería Guinness en Dublín, Irlanda; la empresa no permitía que los empleados publicaran sus hallazgos de investigación con su propio nombre. De modo que Gosset adoptó el seudónimo de Student para publicar. En consecuencia, la distribución t se conoce como distribución t de Student o simplemente distribución de Student.
Se considera que la muestra es pequeña cuando n es igual a 30 o menos, entonces es cuando se suele utilizar la distribución t. Pero el tamaño de la muestra es sólo una de las condiciones que nos llevan a utilizar la distribución t; la segunda es que la desviación estándar de la población debe ser desconocida.
Características de la distribución t
Sin derivar la distribución t de manera matemática, se puede entender en forma intuitiva la relación que existe entre la distribución t y la distribución normal. Ambas son simétricas. La distribución t es más plana que la distribución normal y hay una distribución t diferente para cada tamaño posible de muestra. Conforme el tamaño de muestra se hace más grande, la forma de la distribución t deja de ser plana y se aproxima más a la distribución normal. De hecho, para tamaños de muestra mayores que 30, la distribución t se asemeja tanto a la normal que se utiliza la normal como aproximación a la distribución t.
La figura anterior compara una distribución normal con dos distribuciones t para tamaños de muestra diferentes. Se muestran dos características de las distribuciones t. Una distribución t es menor en la media y mayor en las colas que una distribución normal. La figura también muestra cómo la distribución de Student tiene, proporcionalmente, una parte mayor de su área en las colas que la distribución normal; por esto será necesario alejarse más de la media de una distribución t para poder incluir la misma área bajo la curva. Entonces, los anchos de intervalo de una distribución de Student son mayores que los basados en la distribución normal.
Grados de libertad
Se afirmó que existe una distribución t diferente para cada tamaño de muestra. En un lenguaje estadístico apropiado, diríamos: “existe una distribución t distinta para cada uno de los grados de libertad posibles”. ¿Qué son los grados de libertad? Podemos definirlos como el número de valores que podemos escoger libremente.
Supongamos que existen cinco elementos en nuestra muestra y sabemos que la media de estos elementos es 12. En símbolos tenemos la siguiente situación:
Tenemos la libertad de asignar valores a seis variables, y luego ya no tenemos libertad de especificar el valor de la séptima variable; ésta queda determinada automáticamente. En este caso, los grados de libertad o el número de variables que podemos especificar libremente es 5−1=4.
Con dos valores de muestra tenemos un grado de libertad (2−1=1), y con siete valores de muestra tenemos seis grados de libertad (7−1=6). Entonces, en cada uno de estos dos ejemplos tenemos n−1 grados de libertad, si n es el tamaño de la muestra. Similarmente, una muestra de 23 elementos nos daría 22 grados de libertad.
Ejemplo.
Gotchya es un centro de entretenimiento con instrumentos láser donde adultos y adolescentes rentan equipo y se enfrentan en un combate simulado. La instalación se usa a toda su capacidad los fines de semana. Los dueños quieren evaluar la efectividad de una nueva campaña de publicidad dirigida a aumentar su utilización entre semana. El número de clientes en 27 noches aleatorias entre semana está dado en la siguiente tabla. Encuentre un intervalo de confianza del 98% para el número medio de clientes en una noche entre semana.
61 | 57 | 53 | 60 | 64 |
59 | 50 | 60 | 60 | 57 |
61 | 54 | 50 | 54 | 61 |
57 | 54 | 58 | 63 | 57 |
58 | 62 | 63 | 60 | 62 |
51 | 53 |
SOLUCIÓN:
1.- Nivel de confianza
El nivel de confianza es proporcionado en la redacción del problema.
1 − α = .98
2.- Variable aleatoria estándar
El valor del área de la cola se obtiene despejando el valor de α/2:
1 - α = .98
α = 1 - .98 = .02
α / 2 = .01
Como la muestra tiene menos de 30 datos, (n=27) se utiliza la Tabla t de student. Localizando la columna con el valor de la cola (α/2), y la fila con los grados de libertad (∅=n-1).
∅=n−1= 27 − 1= 26
DESCARGAR LA TABLA T DE STUDENT
Entonces el valor de t es:
t=2.47863
Y se localiza en la curva, justo en los puntos donde comienzan las colas, positivo para la cola derecha y negativo para la cola izquierda.
3.- Estadísticos de la muestra.
Se calculan la media y la desviación estándar de la muestra.
4.- Error Estándar.
Se calcula el error estándar usando s como estimador de σ
5.- Error máximo de estimación.
E = t σX = ( 2.47863 )( 0.79 ) = 1.95
6. Límites de intervalo
Se calculan los límites del intervalo de confianza, restando y sumando a la media de la muestra el error máximo de estimación.
LI = X - E = 57.74 - 1.95 = 55.79
LS = X + E = 57.74 + 1.95 = 59.69
7.- Interpretación:
P( 55.79 ≤ μ ≤ 59.69 ) = .98
“Hay una probabilidad de .98 de que el número promedio de clientes en las noches de entre semana, se encuentre entre 55.79 y 59.69 clientes”.
Ejercicios
1.- Soyún Clavel, un pasante de posgrado muy dedicado, acaba de terminar una primera versión de su tesis de 700 páginas. Soyún mecanografió el trabajo por sí mismo y está interesado en conocer el número promedio de errores tipográficos por página, pero no quiere leer todo el documento. Soyún leyó 40 páginas seleccionadas de manera aleatoria y encontró que el promedio de errores tipográficos por página fue 4.3 y la desviación estándar de la muestra fue 1.2 errores por página.
a) Calcule un intervalo de confianza del 90% para estimar el número promedio de errores por página en su trabajo.
No hay comentarios:
Publicar un comentario