No estoy seguro de tratar de encajar $\phi(X,f)$ tiene sentido: ¿cómo definiría usted $X$ ? Para un modelo lineal $X$ se define naturalmente como la beta de una regresión lineal.
Probablemente, es necesario ir "una capa más profunda en la definición de los factores", es decir, utilizar características de la acción (como su capitalización bursátil, el PER, la rentabilidad de los dividendos, etc.) que usted nombrará $C_1,\ldots,C_N$ y ahora el objetivo es encontrar una red neuronal (o cualquier cosa de aprendizaje automático) tal que
$$R = \sum_{1\leq i\leq F} X_i\cdot\psi_i(C_1,\ldots,C_N)+\epsilon.$$
Esto es en resumen lo que se propone en " Aprendizaje profundo en la fijación de precios de los activos "de Chen, Pelger y Zhu (2020).
Dicho esto, lo que tiene en mente ahora es centrarse específicamente en la predicción del riesgo fuera de la muestra. Esto puede hacerse añadiendo un término en su función de pérdida. Lo que se observa ahora es que en esta mejor formulación, el riesgo de su cartera sigue teniendo esta forma
$$Var(R_P) = w^T X^T \Omega X w + Var(\epsilon)$$
donde la expresión de $\Omega$ es ahora diferente: $$\Omega := Cov(\psi_i(C_1,\ldots,C_N),\psi_j(C_1,\ldots,C_N))_{i,j=1,...,F}.$$
Tenga en cuenta que la covarianza es un producto escalar, y por lo tanto si sus algoritmos de aprendizaje $(\psi_i)_i$ se basan en el kernel, se puede utilizar el botón " truco del núcleo "(No digo que sea fácil... Nunca he pensado seriamente en hacerlo).
[EDITAR tras los comentarios para abordar la cuestión de la mejor manera de formular los factores no lineales ] La formulación lineal del factor tiene la ventaja de definir simultáneamente los factores y las cargas (aquí tomo un caso con más de un factor para expresar el problema de forma más genérica, y figuro explícitamente el tiempo $t$ ): $$R_i(t)=\sum_{i,j}X_i f_j(t) +\epsilon_i(t).$$
Es un problema bien planteado en el sentido de que bajo supuestos bastante genéricos se puede
- utilizar un PCA sobre los rendimientos de muchas acciones $(R_1,\ldots,R_N)$ para encontrar $K$ factores (véase, por ejemplo, Factores que se ajustan a la serie temporal y Sección transversal de los rendimientos de las acciones de Lettau y Pelger)
- utilizar una regresión lineal en una segunda etapa para encontrar las cargas.
Si quieres sustituir los factores por una contrapartida no lineal, mi consejo es
- trabajar sobre los residuos de los factores lineales, es decir, sobre $\epsilon$ porque al menos te garantizará que estás haciendo algo más allá de los factores lineales naturales
- o bien se utiliza cualquier PCA no lineal como los mapas de autoorganización, es decir, se encuentra en un no supervisado modo, y en tal caso no tiene entradas y los datos son de nuevo $(R_1,\ldots,R_N)$ . En este caso, su función de pérdida debería ser algo así como varianza explicada de la sección transversal de los rendimientos como para un PCA
- o bien utilizas un * algoritmo supervisado (las más famosas son las redes neuronales, como los perceptrones) y se necesita insumos exógenos , como las características de la acción. En tal caso, su función de pérdida será la varianza de los residuos de los rendimientos explicados .
Es interesante observar
- que 1 y 2 respectivamente corresponden a PCA vs características de los factores en el caso lineal (es decir, ya hay 2 enfoques que corresponden a 2 filosofías diferentes)
- para explotar realmente la no linealidad del enfoque puede decidir ir más allá de los criterios de L2 . Por ejemplo, para el caso 1 se puede intentar explicar no sólo la varianza de la sección transversal, sino también su potencial asimetría o cualquier otra propiedad no L2.