Estoy haciendo un proyecto en el que estoy tratando de estimar el efecto de la inclusión de una acción en un ETF en sus rendimientos, lo que significa que estoy tratando de ver cómo la inclusión de una acción en un determinado ETF afecta a los rendimientos de las acciones, he recogido los datos de retorno en más de 150 acciones, sus fechas de eventos (cuando se incluyeron en el ETF y así sucesivamente).
mi diseño es el siguiente, he dividido la muestra en el periot de estimación que comienza 130 días antes de la inclusión y la ventana de previsión que incluye 10 días.
Estoy utilizando la técnica del Modelo de Regresión Multivariable (MVRM) y el modelo de mercado con variables ficticias, la variable dependiente del modelo de mercado son los rendimientos de las empresas en el lado izquierdo de la ecuación y en el lado derecho de la ecuación qe tienen los rendimientos del mercado representados por los rendimientos del índice S&P500 y 10 variables ficticias donde cada ficticia toma el valor de 1 para las observaciones dentro del intervalo de previsión.
Se puede leer más sobre el modelo en Karafiath 1988 .
Quiero determinar la distribución de la suma de los estimadores ficticios, que representa más o menos los rendimientos anormales acumulados en este caso, mediante bootstrap.
Ahora mi pregunta es la siguiente:
¿Tengo que utilizar un método bootstrap simplemente remuestreando con reemplazo de la Variable Dependiente (rendimientos de la empresa i) y los rendimientos del mercado (rendimientos de S&P500) y una vez que he extraído una muestra ejecutar una regresión con los valores remuestreados de esos dos y estimar los coeficientes de las variables ficticias y guardarlos, luego extraigo otra muestra del DepVar y del IndVar y de nuevo ejecuto una regresión y estimo los coeficientes de las variables ficticias y los guardo y repito este proceso 10 000 veces y luego construyo la distribución empírica de las variables ficticias?
O
¿Debo extraer 10 000 muestras y ejecutar la regresión para todas las variables de la regresión, incluidas las variables ficticias?
¿Implica este segundo caso que al remuestrear a partir de la variable ficticia, que es básicamente un montón de ceros con un solo 1 en la posición de la fecha en el intervalo de previsión, significará que asignará aleatoriamente el número 1 a algún otro intervalo no previsto, porque eso no tendría sentido?
Gracias por adelantado.