No, esto no debería ser un problema importante. Tendremos muy en cuenta los diferentes tamaños de las muestras. Permítame continuar con su ejemplo:
Supongamos que el "Currículum A" es el currículum de tratamiento y el "Currículum B" es el currículum de control, donde el de tratamiento tiene un nombre étnico menos favorecido (Jamal, Beyonce) y el de control contiene un nombre anglicista (James, Sophia). También hay que tener cuidado con el género.
A continuación, comparamos el porcentaje medio de aceptación entre los dos currículos. Supongamos que $N_a = 300$ y $N_b = 310$ . Los currículos aceptados son: $Accepted_a = 30$ y $Accepted_b = 62$ . Para los atajos, las tasas medias de aceptación son $r_a = 30/300 = 0.1$ y $r_b = 62/310 = 0.2$ . Obsérvese que la tasa media de aceptación normaliza cada grupo, por lo que el tamaño se tiene parcialmente en cuenta aquí.
Las desviaciones son entonces:
$\sigma_a^2 = (1-r_a)*r_a = 0.090$
$\sigma_b^2 = (1-r_b)*r_b = 0.160$
Y lo que es más importante, la varianza del significa de cada distribución son entonces $\sigma_a^2/N_a$ y $\sigma_b^2/N_b$ respectivamente. Estamos comparando las medias de las dos distribuciones con una simple prueba de comparación de medias. Observe que este paso utiliza explícitamente el tamaño de la muestra para tener en cuenta la variación esperada entre las dos distribuciones.
Así que ahora comparamos los dos para ver si hay una diferencia, bajo la hipótesis nula de que no hay diferencia. (En estadística, casi siempre se parte de la base de que no hay diferencia/no hay relevancia/no hay efecto).
$t=\frac{r_a-r_b}{\sqrt{\sigma_a^2/N_a+\sigma_b^2/N_b}} = 3.572$
El razonamiento se puede exponer de forma muy explícita como sigue:
- La diferencia entre las dos muestras es de 3,572 desviaciones estándar de 0.
- Con los supuestos que hemos hecho anteriormente, parece muy poco probable que esto ocurra por casualidad si repetimos el proceso. improbable que esto ocurra por casualidad si repetimos el proceso (si buscamos esto en la tabla t como prueba de una cola, el valor p es inferior a 0,001). Los bayesianos señalarán que hay algunos otros supuestos silenciosos que uno puede haber hecho, por lo que el lenguaje es particularmente importante en este paso, pero esto generalmente pasa la intuición.
- Por lo tanto, rechazo la idea de que estas dos muestras procedan de la misma distribución. Parece inverosímil.
- Por lo tanto, no me queda más remedio que concluir que hay una diferencia entre las dos muestras. Parece que, efectivamente, la gente acepta más los nombres anglicizados que los étnicos.