7 votos

P-value hacking

El pirateo del valor p es el "arte" de buscar diferentes resultados y especificaciones hasta obtener un "falso positivo", es decir, un valor p por debajo de, por ejemplo, 0,05, que sólo es ruido y no es cierto según el proceso de generación de datos.

Digamos que tengo un grupo tratado con tamaño $N$ y un grupo de control con tamaño $M$ , $K$ variables de resultado, y estoy apuntando a un valor p de $p$ : ¿Cómo puedo calcular la probabilidad ex-ante de obtener al menos un resultado falso positivo significativo bajo $p$ ?

Se puede suponer que el $K$ características se distribuyen de forma independiente y normal, y si simplifica mucho, que $M=N$ .

0 votos

Revelación completa: estoy impresionado por un resultado bastante interesante en el que $M+N = 50$ . Me gustaría obtener una aproximación de la probabilidad de que su interesante resultado se deba a demasiadas variables de interés.

0 votos

¿Cuál es exactamente su hipótesis nula? ¿Que la media de una característica determinada es la misma para ambos grupos? (Y esto se repite para todos los $K$ variables). No estoy seguro, pero creo que también habría que decir algo sobre el tipo de la distribución de probabilidad subyacente.

1 votos

11voto

Bernard Puntos 10700

Bajo la suposición de características normales i.i.d., la situación descrita es atendida por separado Pruebas t de Welch que tienen en cuenta posibles tamaños de muestra diferentes y varianzas distintas. Denotemos los estadísticos de estas pruebas $t_j, j=1,...,K$ . El valor p asociado a cada uno es

$$p_j = \Pr\big(|t_j|\geq t(\alpha)\mid H_0\big) $$

donde $H_0$ es la hipótesis de que las medias de las poblaciones entre el grupo tratado y el controlado son iguales, y $t$ depende del nivel de significación $1-\alpha$ .

Podemos escribir la probabilidad en términos de la función de distribución acumulativa correspondiente,

$$\Pr\big(|t_j|\geq t(\alpha)\mid H_0\big) = 1 - F(|t_j|)$$

Por lo tanto,

$$p_j = 1 - F(|t_j|) \implies 1-p_j = F(|t_j|)$$

Si contemplamos la situación a priori, antes incluso de ver los datos, los valores p se sitúan en el futuro y pueden modelarse como variables aleatorias. Visto como una variable aleatoria, el transformación integral de probabilidad nos dice que $1-p_j$ sigue un $U(0,1)$ Distribución uniforme, y por las propiedades de esta distribución también lo hace $p_j$ .

Recogiendo todo $p_j$ tenemos una muestra de tamaño $K$ de los independientes $U(0,1)$ uniformes. La probabilidad de que al menos uno de ellos sea menor que un valor específico, digamos $p^*$ es igual a la probabilidad de que el mínimo de ellos sea inferior a este umbral. Esto puede entenderse como sigue:

$$\Pr\Big (\text {At least one $ p_j \leq p^* $} \Big) = \Pr\Big (\text {Not all $ p_j > p^* $} \Big) $$

$$ = 1-\Pr\Big (\text {All $ p_j > p^* $} \Big) = 1- \prod_{j=1}^K \Pr\Big ( p_j > p^* \Big)$$

debido a la independencia, y por lo tanto, ya que se distribuyen idénticamente,

$$\Pr\Big (\text {At least one $ p_j \leq p^* $} \Big) = 1- \left [1-\Pr\Big ( p \leq p^* \Big)\right]^K = 1 - \left [1-F_U \big(p^* \big)\right]^K$$

Pero esta es la función de distribución acumulativa del mínimo de $K$ variables aleatorias i.i.d.

Denote este mínimo $p_{(1)}$ .

La FCD del mínimo de $K$ independiente $U(0,1)$ variables es

$$F_{p_{(1)}}(p_{(1)}) = 1 - \big [1-p_{(1)}\big]^K$$

Queremos que la probabilidad

$$ \Pr(p_{(1)} \leq p^*) = 1- \big [1-p^*\big]^K$$

Valores indicativos:

enter image description here

0 votos

" Pruebas t de Welch que tienen en cuenta posibles tamaños de muestra y varianzas diferentes ". Sólo he tenido tiempo de ojear la respuesta hasta ahora, pero no encuentro dónde están los tamaños de las muestras $M$ , $N$ entrar en escena. ¿Cómo varía la última tabla con el tamaño de la muestra?

3 votos

No es así. Como variables aleatorias, los valores p son Uniformes (0,1) sean cuales sean los demás aspectos de la situación. Lo único que importa es el tamaño de $K$ .

0 votos

Eso es extraño. Este enlace afirma algo más: " Si se mide un gran número de cosas sobre un pequeño número de personas, está casi garantizado que se obtendrá un resultado "estadísticamente significativo". Nuestro estudio incluyó 18 mediciones diferentes -peso, colesterol, sodio, niveles de proteínas en sangre, calidad del sueño, bienestar, etc.- de 15 personas. ". ¿Cuáles son las suposiciones subyacentes aquí que llevan a ese resultado diferente?

6voto

Vitalik Puntos 184

Estoy de acuerdo con @AlecosPapadopoulos queremos algo así: $$ \Pr(p_{(1)} \leq p^*) = 1- \big [1-p^*\big]^K$$ Pero no veo cómo $n$ y $M$ no pudo entrar en la estadística de prueba adecuada. Por ejemplo, si los datos subyacentes tienen una distribución normal i.i.d. entonces $N$ y $M$ sí importan.

Considera que la media de ruido $\mu$ y la varianza $\sigma$ que, por supuesto, es la misma para el grupo de control y el grupo "tratado". La media del grupo tratado con tamaño N se distribuirá $N(\mu, \sigma^2 / n)$ y $N(\mu, \sigma^2 / M)$ para el control. Así que la diferencia de medias se distribuirá $$N(0, \sigma^2 / n + \sigma^2 / m)$$

Pero no sabrás $\sigma$ o $\mu$ por lo que tendremos que estimarlo con $X_1$ , $X_2$ y $s_{X_1X_2}$ y utilizar una prueba t. Esta configuración da un estadístico t como este: $$t = \frac{\bar {X}_1 - \bar{X}_2}{s_{X_1 X_2} \cdot \sqrt{\frac{1}{n}+\frac{1}{m}}}$$ donde $$s_{X_1X_2} = \sqrt{\frac{(n-1)s_{X_1}^2+(m-1)s_{X_2}^2}{n+m}}.$$ SRC: Prueba t de Student en Wikipedia

La prueba t de muestras no apareadas para esta diferencia de medias tiene grados de libertad $N-M-2$ . Por lo tanto, la región de rechazo debe depender tanto de n como de m, tanto en lo que respecta al valor crítico de la prueba a utilizar a través de los grados de libertad de dicha prueba como del propio cálculo de la estadística de la prueba.

1 votos

Ciertamente, los tamaños de las muestras entran en el estadístico de la prueba, pero esto no afecta a la probabilidad específica por la que pregunta el PO (es decir, la probabilidad a priori de que obtengamos al menos un valor p inferior a un umbral determinado).

0 votos

Una prueba correctamente especificada incorporaría las comparaciones múltiples al igual que el tamaño de la muestra y los grados de libertad - - ¿no? Entonces, ¿se trata de utilizar un estadístico de prueba incorrecto sólo en la dimensión de las comparaciones múltiples, pero correctamente especificado en la dimensión de las comparaciones individuales? Porque la presencia de m y n en el estadístico de la prueba se debe exactamente a que es más probable que un tamaño de muestra pequeño tenga una gran diferencia bajo la hipótesis nula.

1 votos

El punto crucial aquí es que a priori, a) un valor p tiene una distribución marginal U(0,1), independientemente de todo lo demás (tamaño de la muestra o lo que sea). Este es un resultado general que se mantiene en cualquier tipo de situación. Esto debería ser intuitivo: ¿qué pasaría si el valor p tuviera a priori una distribución no uniforme? CONTD

3voto

MotoWilliams Puntos 1209

Las otras respuestas son buenas, pero pensé que otra respuesta con un enfoque ligeramente diferente podría ser un buen complemento.

¿El tamaño de la muestra suele afectar a la tasa de falsos positivos?

A juzgar por los comentarios, creo que la pregunta ha sido provocada por este artículo que incluye un par de errores (o, al menos, faltas de redacción).

En primer lugar (y lo más preocupante en general) define incorrectamente los valores p, pero lo más relevante es que incluye la frase "Si se mide un gran número de cosas sobre un pequeño número de personas, está casi garantizado que se obtendrá un resultado "estadísticamente significativo".

El valor p es la probabilidad, suponiendo que la hipótesis nula sea verdadera, de observar un resultado tan extremo como el que se ha observado realmente. Como se ha señalado en las otras respuestas, esto significa que debe distribuirse uniformemente entre 0 y 1, independientemente del tamaño de la muestra, las distribuciones subyacentes, etc.

Así que la frase debería haber dicho "Si se mide un gran número de cosas sobre un pequeño número de personas , está casi garantizado que obtendrá un resultado "estadísticamente significativo".

Como se calcula correctamente en el artículo, incluso si el chocolate no hace exactamente nada había un 60% de posibilidades (asumiendo la independencia, etc.) de obtener un resultado significativo.

De hecho, obtuvieron tres resultados significativos, lo cual es bastante sorprendente (p=0,06 bajo el supuesto, probablemente poco realista, de independencia).

¿Afecta el tamaño de la muestra a la tasa de falsos positivos?

En realidad, a veces lo hace, aunque sólo supone una diferencia si el tamaño de la muestra es realmente pequeño.

He dicho que (suponiendo que la hipótesis nula sea cierta) el valor p debería estar distribuido uniformemente. Pero la distribución uniforme es continua, mientras que muchos datos son discretos con sólo un número finito de resultados posibles.

Si lanzo una moneda varias veces para comprobar si está sesgada, sólo hay unos pocos resultados posibles y, por tanto, unos pocos valores p posibles, por lo que la distribución de los valores p potenciales es una aproximación muy mala a la distribución uniforme. Si lo lanzo lo suficientemente pocas veces, podría ser imposible obtener un resultado significativo.

Aquí es un ejemplo de un caso en el que eso ocurrió realmente.

Así que tendría algo como "Si se mide cierto tipo de cosas sobre un número suficientemente pequeño de personas, nunca se va a obtener un resultado "estadísticamente significativo", por mucho que se intente".

¿Significa esto que no hay que preocuparse por el tamaño de la muestra si un resultado es positivo?

No. Algunos resultados positivos son falsos positivos y otros son verdaderos positivos. Como ya se ha dicho, suele ser seguro asumir que la tasa de falsos positivos es fija (generalmente del 5%). Pero un tamaño de muestra menor siempre hace que los verdaderos positivos sean menos probables (tener un tamaño de muestra menor significa que la prueba tiene menos poder ). Y si se tiene el mismo número de falsos positivos pero menos verdaderos positivos, es más probable que un resultado positivo elegido al azar sea falso.

0 votos

Me confunden sus dos últimos párrafos. ¿Es correcto que A medida que el tamaño de la muestra disminuye, la probabilidad de positivos disminuye, y la probabilidad de verdaderos positivos disminuye más que la probabilidad de falsos positivos ? Si es así, ¿cómo coincide con " Aunque una muestra pequeña no puede hacer que los falsos positivos sean más probables, sí puede hacer que sean menos probables. "

0 votos

Para cualquier tamaño de muestra vagamente razonable, es seguro asumir que la tasa de falsos positivos se fija en un 5%. Pero por muy grande que sea la muestra, añadir más personas aumenta la tasa de verdaderos positivos. No tengo mucho tiempo ahora, así que sólo puedo hacer ediciones muy rápidas, pero intentaré mejorar la redacción adecuadamente cuando tenga oportunidad.

2voto

hangy Puntos 141

Hay una cosa que quizás merezca la pena añadir a las excelentes respuestas anteriores, y es que también hay un juego meta-numérico. Supongamos que 20 científicos realizan el mismo conjunto de experimentos en busca de algo que posiblemente esté débilmente correlacionado, como "¿el chocolate provoca ataques al corazón?", y aceptan el valor p < 0,05 como significativo, lo que francamente no deberían hacer. La probabilidad acumulada es que un científico obtenga un resultado significativo, que es el único experimento que se publicará, ya que los resultados negativos rara vez se aceptan. Entonces hay un 100% de probabilidades de que ese hallazgo sea recogido por el Bild Zeitungs de este mundo y sea mal informado.

Desgraciadamente, como no informamos de la ausencia de hallazgos, básicamente nos dedicamos a informar de todos los experimentos que tienen suerte, en el mal sentido de la palabra.

Para los temas con una fuerte base teórica, un buen diseño experimental proporciona cierta protección contra esto - para los temas que tienen que trabajar predominantemente con datos observacionales, y tratar de elaborar la teoría - como la economía - es un problema importante.

Añadido: Para un debate extenso -y muy bien escrito- sobre toda la cuestión, véase el documento que inició el reciente debate:

Una investigación sobre la tasa de falsos descubrimientos y la mala interpretación de los valores p David Colquhoun

0 votos

Esta es una muy buena observación. El problema también afecta a los hallazgos y meta-observaciones basados en trabajos anteriores. Sin embargo, creo que quizás no esté en sintonía con esta pregunta en particular, ya que el experimento mental parece referirse a un científico hacker individual que mide sus posibilidades

0 votos

No estoy en desacuerdo, sin embargo, ya que Foobar estaba preguntando en el contexto de un documento que estaba mirando, pensé que no estaría de más lanzar el peor análisis del caso.

Finanhelp.com

FinanHelp es una comunidad para personas con conocimientos de economía y finanzas, o quiere aprender. Puedes hacer tus propias preguntas o resolver las de los demás.

Powered by:

X