La respuesta es algo así como . Voy a proporcionarles una historia de las matemáticas para que entiendan por qué es un reto tener esta discusión en economía. Además, es probable que tengas que basarte en matemáticas que no has mirado antes.
En 1867, un joven llamado Jules Regnault se convirtió en el primer cuentista del mundo, publicando un libro al respecto. No era riguroso y se basaba en la práctica. El siguiente paso lo daría Ysidro Edgeworth en una reunión de la Royal Society. Estoy trabajando de memoria, pero creo que fue en 1888, pero podría ser tan temprano como 1882. El relaciona la "ley de los errores" de Gauss, con el comercio de los billetes. También anticipa la teoría de los juegos en la misma discusión. En ese punto, no está en la discusión de los momentos, pero está muy cerca.
Un poco antes, y un poco después, se producen dos importantes debates matemáticos que nos impactarán al final de este post. El primero es el ascenso de los marginalistas. Esto permite el uso del cálculo en la economía. El segundo es la teoría de los números de Georg Cantor, que permite fundamentar la teoría de la utilidad en función de las preferencias.
Nuestra siguiente parada es con Bachelier y su tesis doctoral en 1900. Un trabajo de brillantez, que es ignorado. Como era desconocido, Einstein y Kolmogorov tuvieron que reinventarlo. No estudiaba los valores patrimoniales sino las rentas. Eso vendrá a cuento al final de esta discusión.
Vamos a saltar por encima de Frank Ramsey, Frank Knight, Bruno de Finetti, Ronald Fisher, Egon Pearson, Jerzy Neyman y Abraham Wald. Esto resultará ser un mal juicio, pero en base a tu pregunta, tendrás que volver a entrar en su trabajo para salir del enigma de los momentos.
Vamos a dar un salto hasta 1940 a Hiyoshi Ito y Ruslan Stratonovich. De ellos, saltaremos a Richard Bellman y Harry Markowitz. Ito y Stratonovich, de forma independiente, inventan el cálculo estocástico. Se trata de un método que se basa en el supuesto de que los parámetros son conocidos. Bellman y Markowitz retoman discusiones ligeramente separadas sobre esto, y se crean dos caminos vinculados.
El trabajo de Markowitz no es riguroso. Deberías recogerlo. Ahora se consideraría impactante. Sin embargo, trabajando desde la base del conocimiento, no debería serlo. Él tiene que explicar lo que es una media o una varianza en el artículo. Además, aún no conoce la solución. El método de Markowitz se basa en la estimación. El método de Ito asume que no es necesario hacer una estimación. Este hecho acaba siendo importante.
Lo que hace interesante el enfoque de Markowitz es que no depende de la utilidad. Implicaría que el acuerdo que optimiza la utilidad es también estadísticamente óptimo. Es una idea novedosa. El problema sería que aún no está claro qué tiene que ser cierto para que esta idea funcione.
En 1953, John von Neuman escribió una breve nota de advertencia en la que señalaba que las matemáticas subyacentes necesarias para la teoría moderna de la cartera aún no estaban resueltas y que las pruebas en economía podían no ser pruebas reales. Ya sea porque nadie leyó la nota, o porque no percibieron su peso, los economistas siguieron adelante.
En 1958, John White, un matemático que trabajaba en otro ámbito no relacionado con las finanzas, demostró que modelos como el Modelo de Valoración de Activos de Capital o el Black-Scholes no tienen solución empírica si los parámetros son desconocidos. Nadie se dio cuenta de su demostración. Dado que esta prueba subyace en otras áreas esenciales, puede considerarse válida. Por ejemplo, si la prueba de White es errónea, hay que descartar las pruebas de root unitaria. Sabemos que funcionan.
En 1963, Benoit Mandelbrot escribió un artículo que decía, a grandes rasgos, que si este es su modelo, entonces estos datos no pueden ser sus datos, y estos son sus datos. Luego argumentó que los datos no podían extraerse de una distribución con un primer momento. Eugene Fama retoma y luego abandona esta línea de trabajo. Creo que lo abandonó por error. Yo casi cometí el mismo error, pero tuve una ventaja accidental. Resolví el problema utilizando primero una solución bayesiana. La discrepancia entre el resultado frecuencial y el bayesiano me hizo comprender dónde tropezaban los economistas en las matemáticas. Yo tropecé en los mismos lugares, pero tenía un segundo marco de referencia con el que trabajar. Fama no lo tenía.
A continuación, en una serie de artículos de finales de los sesenta y principios de los setenta, se desarrollaron las versiones clásicas del CAPM y de Black-Scholes. Al mismo tiempo, Fama y MacBeth realizaron un extenso estudio empírico que falsificaba el CAPM. Como el Black-Scholes puede derivarse del CAPM, lógicamente también fue falsificado. Cada uno de estos modelos se construye en torno a parámetros que se suponen procedentes de distribuciones con una media, una varianza y una covarianza. Bajo las formas más fuertes, la única solución lógica es utilizar alguna variante de la estimación por mínimos cuadrados. El único problema es que no funciona.
La siguiente generación surge de lo que se espera que sea una solución a la observación de que las relaciones parecen ser no estacionarias. Esto lleva a cosas como ARIMA y ARCH/GARCH. Es aquí donde se puede empezar a vislumbrar el problema de los momentos, ya que está relacionado con otra cuestión, la suficiencia estadística.
Si ha trabajado con series temporales, alguien le habrá enseñado que los mínimos cuadrados ordinarios son un estimador insesgado, pero que no es el estimador insesgado de mínima varianza. Esto se debe a que sufre una pérdida de información. Los métodos bayesianos no pueden provocar pérdidas de información. La información bayesiana utiliza toda la información disponible sobre los parámetros posibles. La función de verosimilitud bayesiana es mínimamente suficiente. Las estimaciones frecuenciales del coeficiente de la pendiente no son suficientes para los parámetros. En consecuencia, los métodos frecuentistas son métodos con pérdidas. Sin embargo, como demostró White, la pérdida de información es total para modelos como el CAPM o el Black-Scholes.
Es un campo extraño que crea estimaciones utilizando estimadores que se sabe que no funcionan. Y aún más extraño es tener décadas de datos que demuestran que no funcionan y no estar dispuesto a cambiar los libros de texto.
Esto nos lleva a tu pregunta, ahora que nos hemos alejado de los libros de texto de finanzas.
Las cuestiones de asignación dependen de las predicciones de los valores futuros. Voy a plantear dos clases de activos poco realistas para poder ilustrar la cuestión de forma compacta. La primera será una simple lotería binaria. La segunda será un valor de renta variable que no puede pagar dividendos durante el período correspondiente ni quebrar.
Hay dos opciones de predicción disponibles, una frecuentista y otra bayesiana. Es muy importante entender que la elección realizada aquí es peligrosa si se hace de forma incorrecta.
Supongamos que su preocupación es puramente académica. Usted quiere una predicción insesgada de las futuras asignaciones de activos de otras personas. El estimador frecuentista, cuando existe, ignorará los momentos. Esto no es obvio. Es importante recordar que, para la distribución normal, el primer momento es $\mu$ y no es $\hat{\mu}$ . Es importante recordar que $$\hat{\mu}=\bar{x}=\sum_{i=1}^N\frac{x_i}{N}$$ es independiente de $\mu$ . Por eso es importante la suficiencia.
Para ver por qué, imagina que la única manera de tomar una buena decisión es saber $\mu$ y tú no lo sabes. Dependes totalmente de un conocimiento que no puedes adquirir. Necesita una herramienta de decisión que contenga toda la información disponible sobre $\mu$ pero no depende de conocer el verdadero valor de $\mu$ . Esa ha sido la esperanza y la ilusión detrás de la teoría de la cartera. La esperanza era que, al crear estimadores, las decisiones podían ignorar el requisito del cálculo de Ito de conocer los parámetros.
Así, las predicciones de asignación de activos para no aplicado Los propósitos en los que existe un predictor insesgado y suficiente deben utilizar una variación frecuencial de la teoría de la decisión. Las complicaciones surgen en tres casos.
En primer lugar, cuando no existe un estimador insesgado, la justificación de un método de predicción frecuencial se vuelve más bien escasa. En segundo lugar, cuando no existe un estadístico de predicción suficiente, la pérdida creada por el uso de malos predictores puede ser sustancial. La tercera es cuando no se necesita una función de utilidad minimax. Dicho de otro modo, ¿es una garantía de $\alpha$ ¿Porcentaje de probabilidad contra los falsos positivos y la capacidad de controlar el nivel de falsos negativos relevante?
Ahora supongamos que su preocupación se aplica y que tiene dinero real para asignar. Entonces la única opción es utilizar la teoría de la decisión bayesiana. Los métodos frecuentistas violan el principio de coherencia de De Finetti y violan el Teorema del Libro Holandés.
El teorema del libro holandés surge de una versión debilitada de la hipótesis de no arbitraje. Es posible amañar el mercado en contra de un asignador de activos que utilice estadísticas frecuentistas. Si todo el campo utiliza estimadores frecuentistas, entonces es posible obtener dinero gratis del sistema. Escribí un artículo al respecto en https://www.datasciencecentral.com/profiles/blogs/tool-induced-arbitrage-opportunities-also-how-to-cut-cakes .
En el lado bayesiano, los momentos también desaparecen, como debe ser, ya que la predicción bayesiana siempre es suficiente.
Esto plantea una serie de problemas diferentes. La distribución predictiva posterior bayesiana minimiza la divergencia de Kullback-Leibler. Es decir, es imposible crear una predicción que se acerque más a la naturaleza de forma sistemática. Sin embargo, eso no le servirá de nada. La distribución de predicciones es precisamente eso, una distribución de predicciones de asignación de activos. Necesitas estadísticas puntuales, no un número infinito de opciones.
Los métodos bayesianos separan las inferencias de las decisiones. Hay que decidir cuánto asignar. Esa solución proviene de imponer una función de utilidad a la distribución predictiva posterior. Hay que determinar el tipo de pérdidas que supondría sobreestimar o subestimar un parámetro.
Escribí un artículo sobre una posible solución a este caso. Se puede encontrar adjunto a la entrada del blog en https://www.datasciencecentral.com/profiles/blogs/a-generalized-stochastic-calculus .
Esto nos lleva al caso binario y al caso de equidad. En el caso binario, los momentos están bien definidos pero no es necesario conocerlos. Imagina que vas a ser un corredor de apuestas que establece las probabilidades de un conjunto de $n$ eventos binarios. Usted ha visto $\alpha$ éxitos y $\beta$ fracasos en el pasado. Estará fijando los pagos en un conjunto de posibles recuentos futuros de futuros resultados exitosos, $K=\{k_1,\dots{k_n}\}$ . La probabilidad prevista de que $K=k_i$ es $$\Pr(k_i|n,\alpha,\beta)=\frac{n!}{k!(n-k)!}\frac{(k+\alpha-1)!(n-k+\beta-1)!}{(n+\alpha+\beta-1)!}\frac{(\alpha+\beta-1)!}{(\alpha-1)!(\beta-1)!}.$$ Como usted es el corredor de apuestas, controla el "vig" y como tal puede convertirlo en una apuesta Kelly.
El fenómeno físico está ahora separado del fenómeno del juego. Los momentos del evento binario ya no coinciden con los momentos de la apuesta en bruto porque la vig los separa.
Pasemos ahora a los valores de renta variable. En el caso más sencillo, la rentabilidad puede definirse como $$r_t=\frac{p_{t+1}q_{t+1}}{p_tq_t}-1.$$ Como los rendimientos son una función de los datos, los rendimientos son una estadística y no son datos.
La distribución de los rendimientos depende, en parte, de la relación de precios. Bajo supuestos relativamente suaves, la distribución de la ratio implicada no puede tener un primer momento, por lo que los momentos tienen que ausentarse de la solución. Véase este vídeo para una breve discusión: https://youtu.be/R3fcVUBgIZw .
Al igual que en el caso anterior, los parámetros quedan fuera de cualquier predicción bayesiana, y a la predicción bayesiana no le importa que no haya momentos para el subyacente. En este caso, la viga se invierte, ya que el creador de mercado se lleva un diferencial. Hay que tener en cuenta los costes de liquidez formalmente, o se obtendrán resultados erróneos. Confundirás los rendimientos de la empresa con tus rendimientos.
La asignación depende ahora de una distribución predictiva y de una función de utilidad. Como nota al margen, dado que no existe un primer momento, no se puede minimizar los cuadrados y obtener una respuesta significativa.
Su asignación de puntos sería entonces la asignación que maximiza la utilidad esperada sobre la predicción posterior. Me gustaría señalar que la inversión en valor es un caso especial interesante de lo anterior. De hecho, es una estrategia estocástica dominante (aunque no de forma única).
Una nota adicional, la utilidad de los troncos se corresponde con la misma solución que el criterio de Kelly, aunque también permite las restricciones. No tendrás momentos con las acciones y maximizarás los rendimientos asintóticos.