Estimación

Todo el mundo hace estimaciones. Cuando te dispones a cruzar una calle, haces una estimación de la velocidad de los automóviles que se acercan, de la distancia que hay entre ti y el auto más cercano, y finalmente de tu propia velocidad. Habiendo estimado rápidamente todos estos factores, tu decides si caminas, esperas o te echas a correr.

Los problemas de estimación surgen en todas las áreas —en las ciencias, en los negocios y en la vida cotidiana. En las ciencias, un psicólogo tal vez quiera determinar el tiempo promedio que una persona adulta necesita para reaccionar a estímulos visuales; en los negocios, los directores de crédito estiman si un cliente pagará o no sus deudas; en la vida diaria, una persona estima el tiempo que tardará en trasladarse al trabajo. Todas estas son estimaciones.

Como podemos ver, en los casos antes mencionados, primero se observa una parte de la población estudiada (muestra) y en base a ello, se realiza la estimación buscada. Dicho esto podemos concluir con el siguiente concepto.

Estimación:
Es el procedimiento mediante el cual, a partir de las características de la muestra, que llamaremos estimadores, inferimos las características de la población, que a su vez se divide en estimación puntual y estimación por intervalos.

Criterios para seleccionar un buen estimador

Cualquier estadístico muestral que se utilice para estimar un parámetro poblacional se conoce como estimador. Las características que debe tener un buen estimador son las siguientes:

Insesgado

Un estimador insesgado es aquel para el cual la media de la distribución muestral es el parámetro estimado. La media muestral es un estimador insesgado de la media poblacional.

Eficiente

La eficiencia se refiere al tamaño de error estándar del estadístico. Si comparamos dos estadísticos de una muestra del mismo tamaño y tratamos de decidir cual de ellos es un estimador más eficiente, escogeríamos el que tuviera el menor error estándar.

Coherente

Un estadístico es un estimador coherente de un parámetro de población, si al aumentar el tamaño de la muestra se tiene casi la certeza de que el valor del estadístico se aproxima bastante al valor del parámetro de la población.

Suficiente

Un estimador es suficiente si utiliza una cantidad de la información contenida de la muestra que ningún otro estimador podría extraer información adicional de la muestra sobre el parámetro de la población que se esta estimando.

Estimación Puntual

Estimación puntual de la media de la población

Supongamos que conocimos a un integrante de la línea defensiva del equipo de futbol americano de la universidad, al verlo hacemos la siguiente afirmación: "los jugadores de la línea defensiva del equipo pesan unos 125 Kg en promedio", esta es una estimación puntual. Esta estimación consiste en un único número, o un solo punto en la recta numérica, de ahí el nombre de puntual.

Estimación puntual de la varianza y la desviación estándar de la población

En el caso de la estimación puntual de la varianza y la desviación estándar de la población (σ2 y σ), son buenos estimadores la varianza y la desviación estándar de la muestra (s2 y s)

Estimación puntual de una proporción de la población

La proporción de unidades de una población dada que tiene una característica particular se denota por P. Si conocemos la proporción de unidades de una muestra que tiene la misma característica (denotada por p), podemos utilizar esta p como estimador de P.

Desventajas de la Estimación puntual

Una estimación puntual, a menudo resulta insuficiente, debido a que solo tiene dos opciones: es correcta o es equivocada. Por ejemplo, si un directivo de una escuela afirmara: "tendrémos 200 estudiantes de nuevo ingreso el próximo ciclo" esta sería un estimación puntual. Esta estimación solo sería correcta si acertara exactamente, y el número de estudiantes de nuevo ingreso fueran 200. Tanto si el error fue 1 o si fuera 100, la estimación sería no sería correcta.

Es necesario completar la información con otro número que indique el error que puede haber en la estimación.

Ejemplo

El Banco Nacional de Quito (BANQUITO) quiere determinar el número de cajeros disponibles durante las horas pico del almuerzo los viernes. El banco ha recolectado datos del número de personas que entraron al banco los viernes de las últimas 12 semanas entre las 11 A.M. y la 1 P.M. Utilice los siguientes datos para encontrar las estimaciones puntuales de la media y la desviación estándar de la población de donde se tomó la muestra, además estime la proporción de veces en que entraron más de 300 personas al banco en dicho horario.

242275289306342385
279245269305294328

Solución:

Estimación por intervalos

Estimación por intervalos de confianza:
Este procedimiento consiste en encontrar un intervalo de valores dentro del cual se espera, con un alta probabilidad, que se encuentre determinado parámetro.

Este tipo de estimación indica el error de dos maneras, primero por la amplitud del intervalo, y segundo por la probabilidad de obtener el valor verdadero del parámetro. En este caso el directivo de la escuela al estimar el número de estudiantes de nuevo ingreso, diría algo como esto: "Existe una probabilidad de 90% que el número promedio de alumnos de nuevo ingreso del próximo ciclo se encuentre entre 180 y 220".

Otro ejemplo, suponga que el director de mercadotecnia de la fábrica de baterías "LA CHISPA" necesita estimar la vida promedio de las baterías para automóvil que produce su compañía. Seleccionamos una muestra aleatoria de 200 baterías, registramos el nombre y dirección de los propietarios de los automóviles, como están en los registros de ventas, y entrevistamos a estas personas con respecto a la duración de la batería de su automóvil. Nuestra muestra de 200 usuarios tiene una vida media de las baterías de 35 meses. Si utilizamos la estimación puntual de la media de la muestra x como el mejor estimador de la media de la población μ, informaríamos que la vida media de las baterías de la empresa es 35 meses.

Pero el director también pide una conclusión acerca de la incertidumbre que acompañará a esta estimación; es decir, una afirmación acerca del intervalo dentro del cual es probable que esté la media de la población. Para proporcionar tal afirmación, necesitamos encontrar el error estándar de la media.

Como sabemos, si seleccionamos y graficamos un número grande de medias de muestras de una población, la distribución de estas medias se aproximará a la curva normal. Además, la media de las medias muestrales será la misma que la media de la población. Nuestro tamaño de muestra de 200 baterías es suficientemente grande para poder aplicar el teorema central del límite. Para medir la extensión, o dispersión, de nuestra distribución de medias muestrales, podemos utilizar la siguiente fórmula y calcular el error estándar de la media:

La fórmula anterior es para calcular el error estándar de la media cuando la población es infinita o más grande de 20 veces el tamaño de la muestra.

Suponga que ya se sabe que la desviación estándar de la población de baterías es de 12 meses, entonces:

En este momento, ya podemos informar al director que nuestra estimación de la vida útil de las baterías es 35 meses y que el error estándar que acompaña a esta estimación es 0.848. Y si sumamos y restamos el error estándar a la media de la muestra, podemos decir que la vida útil real de todas las baterías puede estar entre 34.152 y 35.848 meses. Esto es útil pero no es suficiente información para el director. Necesitamos calcular cual es la probabilidad de que la duración de las baterías esté en este intervalo, o en otros intervalos de diferentes amplitudes que podamos escoger, como ±2σ (2 × 0.848), ±3σ (3 × 0.848), y así sucesivamente.

Probabilidad de que el verdadero parámetro poblacional caiga dentro de la estimación del intervalo

Recordemos la especial relación que hay entre la desviación estándar y la curva normal. Podemos aplicar estas propiedades al error estándar de la media y afirmar lo siguiente acerca del rango de valores que se utilizaron para hacer una estimación de intervalo en nuestro problema de las baterías.

Hay una probabilidad de 0.683 de que la media de la muestra esté dentro de ±1 error estándar de la media de la población; hay una probabilidad de 0.955 de que la media de la muestra esté dentro de ±2 errores estándar de la media de la población; y hay una probabilidad de 0.997 de que la media de la muestra esté dentro de ±3 errores estándar de la media de la población.

Con la aplicación de lo anterior al ejemplo de las baterías, podemos dar un informe al director. Nuestra mejor estimación de la vida útil de las baterías de la compañía es 35 meses, y tenemos 68.3% de confianza de que la vida útil se encuentra en el intervalo que abarca de 34.152 a 35.848 meses (35 ±1σx). Similarmente, tenemos 95.5% de confianza de que la duración caiga dentro del intervalo comprendido entre 33.304 y 36.696 meses (35 ±2σx), y tenemos el 99.7% de confianza de que la vida útil de una batería estará dentro del intervalo que va de 32.456 a 37.544 meses (35 ±3σx).

Cada vez que se hace una estimación existe un error implícito en ella. Para que se entienda, es una práctica común describirlo con una afirmación como “nuestra mejor estimación de la vida de estas baterías es de 35 meses y tenemos una seguridad del 95.5% de que la vida útil estará entre 33.304 y 36.696 meses”. Pero si su jefe quiere saber cuál es la vida promedio exacta de un conjunto de baterías, y no supiera de muestreo, tendría que observar cientos de miles de conjuntos de baterías hasta que se agotaran, y después calcular cuánto duraron en promedio.

Incluso en este caso estaría haciendo un muestreo porque es imposible observar y medir todos las baterías que están en uso. Es mucho menos costoso y más rápido usar el muestreo para encontrar la respuesta. Si entiende las estimaciones, puede decirle a su jefe qué riesgos implica usar una muestra para estimar la vida útil real de la batería.

A continuación se muestran dos enlaces en donde se aplica este procedimiento de una manera más sistematizada.

No hay comentarios: