2 votos

El uso de la media de la muestra para la prueba de hipótesis

Supongamos que tenemos algunos datos de los puntos de $x_1, ..., x_n$ y quieres probar un modelo que especifica un proceso estocástico en el que supuestamente generan los puntos de datos. Por ejemplo, puede que quiera probar la hipótesis de que todos los $x_i$ fue generado por una distribución normal con media y varianza. En tales casos, los libros de texto nos dicen que

  1. Derivar la distribución de la media de la muestra bajo el supuesto de que el modelo probabilístico es correcta.
  2. Calcular la probabilidad de observar la observó la media de la muestra o uno que es "más extrema".

Este proceso nos da un valor de p que se pueden utilizar para evaluar el modelo probabilístico. El cálculo de los valores de p para diferentes modelos probabilísticos nos permite comparar los modelos.

Mi pregunta es simple: a la hora de calcular los valores de p, ¿por qué consideramos que la distribución de la media muestral (es decir, por qué es la media de la muestra 'nuestro estadístico de prueba')? ¿Por qué no utilizar la mediana, la moda cuartil inferior, o de cualquier otra función de los datos? Para el caso, ¿por qué no hacer la cosa natural y sólo calcular la articulación de la densidad de $f(x_1, ..., x_n)$?

Para ser claro, yo entiendo por qué podría centrarse en la media de la muestra si la hipótesis de no especificar un probabilístico proceso que generó los datos. La razón es que, independientemente de la distribución que genera los datos, uno podría esperar que la media de la muestra se distribuye aproximadamente normal (teorema del límite central). Sin embargo, a menudo la hipótesis directamente especifica el probabilístico proceso que genera los datos de uno. Me estoy preguntando si hay alguna buena razón para centrarse en la media de la muestra en este ejemplo.

Edit: dado un ejemplo ha sido solicitado, voy a explicar el problema concreto que motivó la pregunta. Yo estoy probando las predicciones de Equilibrio de Nash el uso de algunos datos experimentales. En este caso, el único de la BNE es en estrategias mixtas, entonces, el modelo que busco prueba es probabilística. Me estoy preguntando cómo proceder cuando se evalúa el modelo del 'ajuste' (y la comparación de su ajuste a la de otros modelos teóricos).

0voto

user10775 Puntos 121

Antecedentes: Si estamos interesados en la media de la distribución de la población, utilizamos la media de la muestra. Si estamos interesados en la mediana de la distribución de la población, podemos utilizar el ejemplo de la mediana. Si estamos interesados en la distribución, se puede utilizar un poco de distancia entre el CDF empírica y la hipotética CDF entre otros; si usted usa el uniforme de distancia, usted tiene la prueba de Kolmogorov-Smirnov. Si estamos interesados en la densidad, se utiliza un estimado de la densidad de la prueba.

En muchos problemas econométricos, interesante hipótesis se expresan en términos de promedios (por ejemplo, el promedio de los efectos del tratamiento, el efecto de un cambio en los años de educación en el registro de salarios, etc.) y podemos utilizar el ejemplo de los medios o de variantes (como estimadores OLS). En otros casos (por ejemplo, cuando los interesados en cuantiles o la normalidad de la distribución), de la muestra significa que no se utilizan.

A tu pregunta: hay alguna buena razón para centrarse en la media de la muestra cuando la hipótesis directamente especifica el conjunto de la probabilidad de proceso? Creo que una razón importante es que la muestra significa que a menudo son fáciles de tratar, y a veces la única cosa lo suficientemente simple como para el desarrollo teórico. Es una especie de condición necesaria para que la hipótesis sea verdadera.

PS: sería mejor tener un ejemplo en particular.

Finanhelp.com

FinanHelp es una comunidad para personas con conocimientos de economía y finanzas, o quiere aprender. Puedes hacer tus propias preguntas o resolver las de los demás.

Powered by:

X