Ha habido una división en la comunidad desde que Mandelbrot publicó su artículo "Sobre la variación de ciertos precios especulativos".
Ver:
Mandelbrot, B. (1963). La variación de ciertos precios especulativos. The Journal of Business, 36(4):394-419.
Para entender por qué esto es tan importante, primero hay que darse cuenta de lo que intentan hacer los economistas. Cuando ves a alguien comprar una naranja, esa es la solución a un problema. Los economistas sólo pueden ver las soluciones a los problemas, pero el problema real es lo que intentan estudiar. El objetivo de los economistas es resolver "problemas inversos".
Parece que Markowitz en su artículo
Markowitz, H. (1952). La selección de carteras. The Journal of Finance, 7(1):77-91.
se había acercado a una solución. Todavía no es el CAPM, pero parecía que estaba hecho. Lo que ha faltado es que hay un error matemático en el documento de Markowitz, pero es muy sutil. De hecho, no fue hasta 1958 que los matemáticos resolvieron cómo hacer lo que Markowitz intentaba hacer y la respuesta no coincide. Hubo una advertencia de John von Neumann de que lo que parecen ser pruebas en economía pueden no serlo, ya que esa rama de las matemáticas aún no había sido resuelta en 1953. Estos dos acontecimientos no se han tenido en cuenta en la comunidad económica, principalmente porque las disciplinas están un poco aisladas.
Para la discusión likelihoodista de Fisher, véase:
White, J. S. (1958). La distribución límite del coeficiente de correlación serial en el caso explosivo. The Annals of Mathematical Statistics, 29(4):1188-1197
En la década de 1970 empezaron a aparecer falsificaciones empíricas del CAPM y en el siglo XXI se catalogaron. Para el CAPM se pueden encontrar en:
Fama, E. F. y French, K. R. (2008). Diseccionando anomalías. The Journal of Finance, LXIII(4):1653-1678.
y para el modelo Black-Scholes, puede encontrarlo en
Yilmaz, B. Z. (2010). Finalización, fijación de precios y calibración en un modelo de mercado de gravámenes. Tesis de maestría. The Institute of Applied Mathematics of Middle East Technical University.
Porque el error matemático de Markowitz y de los documentos posteriores se perdió y Debido a que los economistas tienen que resolver el problema inverso, algo que no deben hacer los profesionales de las finanzas, se ha puesto un enorme énfasis en el CAPM y sus hijos como el CAPM de consumo o sus nietos como el modelo Fama-French.
Para ser muy justos con el Dr. Markowitz, él probó sus propias teorías empíricamente en:
Markowitz, H. y Usmen, N. (1996a). The likelihood of various stock market return distributions, part 1: principles of inference. Journal of Risk and Uncertainty, 13:207-219.
y
Markowitz, H. y Usmen, N. (1996b). The likelihood of various stock market return distributions, part 2: empirical results. Journal of Risk and Uncertainty, 13:221-247.
En la comunicación con él, se ha mostrado un poco más escéptico con su propio trabajo que con los que le siguieron. El contenido de tiempo continuo le parecía aún más preocupante. Realizó pruebas en los años 90 y fueron bastante rigurosas en su metodología.
Markowitz y Usman casi resuelven la cuestión en su artículo, pero cometen un desliz mental que los pone en evidencia. Tomaron la aproximación logarítmica de los rendimientos y no los propios rendimientos. Esto es un problema muy grande porque se trata de una transformación que tiene propiedades muy diferentes a las de los datos brutos. Cambia la distribución estadística. Creo que habrían captado lo que realmente estaba ocurriendo si no hubieran tomado la aproximación. Estuvieron muy cerca. No hubo un reconocimiento mental de que habían provocado una alteración matemática al hacer eso y por eso interpretan los datos como que las acciones siguen la distribución t de Student con 2-3 grados de libertad. Esto no es del todo correcto, pero se acerca. En el espacio logarítmico, sigue una distribución secante hiperbólica. Véase, por ejemplo,
Harris, D.E.(2017) La distribución de los rendimientos. Journal of Mathematical Finance, 7, 769-804.
Ninguno de los modelos CAPM puede ser válido porque, como se ha mencionado anteriormente, hay un error matemático en ellos. De hecho, el ratio de Sharpe también es matemáticamente inválido, excepto cuando se resuelve con logaritmos, aunque no está claro qué significa en el espacio logarítmico. Está íntimamente relacionado con la prueba t de Student, pero hay un argumento en
Harris, David E., Why Practitioners Should Use Bayesian Statistics (25 de enero de 2016). Disponible en SSRN: https://ssrn.com/abstract=2656681 o http://dx.doi.org/10.2139/ssrn.2656681
que para el caso general, no existe un estimador no bayesiano admisible para los valores de renta variable. Antes de utilizarlo, hay que analizar cuidadosamente las implicaciones de las matemáticas. No lo he hecho para el ratio de Sharpe. Puede o no ser una estadística admisible.
El CAPM sigue siendo objeto de mucha investigación porque el hecho de que haya un error en él no es bien conocido. También se debe a que el error puede expresarse de diferentes maneras según el sistema de axiomas que se utilice. Por ejemplo, si se utiliza el sistema de pensamiento de Fisher llamado Likelihoodism, entonces en lugar de haber un error matemático en las ecuaciones, se puede demostrar que la teoría nunca podría ser probada. Es decir, nunca se podría crear una estadística de prueba para determinar si es verdadera o falsa.
La pregunta entonces es si algo es ciencia válida si no puede existir un método de falsificación. Por otra parte, en el marco bayesiano, se puede demostrar fácilmente que los supuestos del modelo crean una contradicción matemática.
La respuesta corta es que la gente utiliza el CAPM porque todavía necesita resolver el problema inverso. Se puede encontrar una solución parcial para la valoración de opciones en:
Harris, David E., Pricing European Style Equity Options (30 de agosto, 2015). Disponible en SSRN: https://ssrn.com/abstract=2653255 o http://dx.doi.org/10.2139/ssrn.2653255
El CAPM es un intento de invertir el problema. Como queda tanto trabajo de base por hacer, aún no está claro qué debería utilizar la gente. Mi sugerencia es empezar por:
Parmigiani, G. e Inoue, L. (2009). Teoría de la decisión: Principios y enfoques. Wiley Series in Probability and Statistics. Wiley, Chichester, West Sussex.
EDITAR Según una petición, he editado la respuesta. Dado que hay múltiples sistemas de axiomas bayesianos y no bayesianos implicados, hay múltiples formas posibles de responder a esta pregunta.
Recordando que los residuos y los datos brutos son leptocúrticos y que la matemática es mesocúrtica, la pregunta es por qué sería así. En particular, no debería importar que los datos sean leptocúrticos porque la muestra es tan grande que los residuos deberían haberse convertido en mesocúrticos hace tiempo. Esto se deduce del teorema del límite central. Aunque es cierto que millones de puntos de datos están lejos de ser infinitos, los resultados son sorprendentes a menos que no haya varianza.
Para explorar esta cuestión es importante adentrarse en la teoría de la optimización antes de lo que la mayoría de la gente haría y discutir algunas ideas que normalmente son ignorables. En primer lugar, tenemos que discutir la función de verosimilitud bayesiana y la función de densidad no bayesiana. Si $$\frac{1}{\pi}\frac{1}{1+(x-\mu)^2},\forall{x}\in\chi$$ es su función de densidad, donde cada sorteo es i.i.d. entonces su función de probabilidad bayesiana es $$\frac{1}{\pi}\frac{1}{1+(x-\mu)^2},\forall{\mu}\in\Theta,$$ donde $\chi$ es el espacio muestral y $\Theta$ es el espacio de los parámetros.
Por diversas razones, esto será importante. La siguiente cuestión es cómo estimar $\mu$ . Para el bayesiano esta cuestión es sencilla, se utiliza el teorema de Bayes en todo el espacio de parámetros. Para el frecuentista o el likelihoodista la cuestión es mucho menos sencilla. Sin embargo, el algoritmo general para cualquiera de ellos consiste en generar un estadístico muestral que estime el parámetro poblacional y, a continuación, desarrollar una prueba que permita realizar la inferencia. Aunque el proceso de generación de reglas y la interpretación de los dos principales métodos no bayesianos son diferentes, a grandes rasgos comparten las mismas ideas.
La definición de una estadística es cualquier función de los datos. Mientras que la media, la mediana y la moda de una muestra son una estadística, también lo es la suma de los cosenos de los datos. Tiene que haber un método para determinar cuál se debe utilizar. Al principio del campo de la estadística, Abraham Wald creó un conjunto de reglas de decisión que determinaban qué estimadores son admisibles y cuáles no.
Para los datos extraídos de una distribución gaussiana, la media de la muestra es admisible, pero la mediana y la moda de la muestra no lo son. Tampoco lo es la suma de los cosenos de los puntos de datos. Sin embargo, hay algo más. Wald, un frecuentista y utilizando axiomas frecuentistas, determinó que todos los estimadores bayesianos son admisibles. Además, los estimadores no bayesianos son admisibles sólo en dos circunstancias, cuando se corresponden en cada muestra con un estimador bayesiano o convergen al mismo valor en el límite.
Señalo esto porque nos ahorrará tiempo notar que las reglas bayesianas siempre serán óptimas en el sentido de que nunca se pueden dominar estocásticamente, y el frecuentista y el likelihoodista sólo heredan la optimidad cuando esa optimización se mapea al bayesiano. Esto significa que puedo resolver esto una sola vez y no pecar demasiado.
Ahora volvamos al principio de las finanzas de varianza media a la restricción presupuestaria intertemporal $$\tilde{w}=R\bar{w}+\epsilon.$$ Como se trata de una inversión, quieres obtener un beneficio, así que $R\ge{1}$ y generalmente se puede decir $R>1$ .
Mann y Wald, en 1943, lograron demostrar que el estimador de máxima verosimilitud para $R$ es siempre el estimador de mínimos cuadrados para cualquier distribución de $\epsilon$ que estaba centrado en cero y tenía una varianza finita que es mayor que cero.
En la teoría frecuentista $R$ se conoce como la hipótesis nula y $\epsilon$ no se sabe. En la teoría bayesiana, $R$ se desconoce, pero $\bar{w}$ es fijo y no se ha extraído de una muestra aleatoria. Es importante darse cuenta de que los datos ya no son aleatorios. Todo tipo de problemas que ocurren en el espacio muestral desaparecen ahora porque el único segmento del espacio muestral que te importa es la muestra que realmente se observó.
Esto deja tres casos de estimación, $w_{t+1}=Rw_t+\epsilon_{t+1}$ , $R_t=\frac{w_{t+1}}{w_t}$ y $r_t=\log(w_{t+1})-\log(w_t)$ . Para nuestro propósito, vamos a quedarnos con el primer caso, aunque el segundo y el tercero son mucho más generales y nos llevaría demasiado tiempo resolverlos aquí.
A partir del documento de White anterior se puede derivar tanto el estimador como el estadístico de prueba de R para cualquier distribución para epsilon incluyendo modelos de difusión de saltos, etc. El estadístico de prueba es siempre la distribución de Cauchy y el estimador de máxima verosimilitud es el estimador de mínimos cuadrados, que es una forma de media muestral. La distribución de Cauchy es $$\Pr(x|\mu;\sigma)=\frac{1}{\pi}\frac{\sigma}{\sigma^2+(x-\mu)^2}.$$ La expectativa de la distribución de Cauchy no existe y, por tanto, el estimador no puede ser probado.
Ahora hay una relación muy interesante entre la media muestral y los datos de una distribución Cauchy. Si $$\Pr(x|\mu;\sigma)=\frac{1}{\pi}\frac{\sigma}{\sigma^2+(x-\mu)^2},$$ describe sus datos, entonces $$\Pr(\bar{x}|\mu;\sigma)=\frac{1}{\pi}\frac{\sigma}{\sigma^2+(\bar{x}-\mu)^2}.$$ De ello se deduce que la distribución de $R$ es la distribución de Cauchy. Como no tiene expectativa, entonces E(R) no existe. Por lo tanto, la optimización de Markowitz es derrotada en un entorno bayesiano. Nadie puede formarse una expectativa sobre un rendimiento. Dado que el estimador bayesiano es derrotado, todos los estimadores no bayesianos son derrotados.
Es importante señalar que el estimador sólo converge a la distribución de Cauchy en la forma de la restricción presupuestaria intertemporal. Se convierte en una fea distribución mixta en los demás casos. También es importante notar en el caso del logaritmo, que la distribución secante hiperbólica no tiene el concepto de covarianza. Dos activos no pueden covariar, pueden comove, pero no pueden covariar. De hecho, también es imposible que sean independientes entre sí porque $$f(x_1)*f(x_2)\ne{f(x_1,x_2)}.$$
La contradicción es que usted quiere obtener un beneficio Y está afirmando la existencia de una expectativa y una relación de varianza-covarianza. Estas son mutuamente excluyentes.
Espero que la edición final La pregunta original estaba dividida en dos partes. La primera es por qué una cartera no óptima supera a una cartera óptima y, en segundo lugar, si este es el caso, por qué dedicar tanto tiempo a los modelos de estilo Markowitz.
Lo primero es sencillo. Salvo en casos muy limitados de carteras sólo de bonos, la suposición de un objetivo de rentabilidad excluye la existencia de una media y, por tanto, de una varianza. Realizar cualquier optimización suponiendo una media y una estructura de covarianza es imposible, aunque como hay grandes artículos sobre el porqué, sólo se ofrece un resumen. Los modelos estilo Markowitz no están disponibles. Por lo tanto, cuando la gente observa las carteras no óptimas, descubre que lo hacen mejor que las carteras teóricamente óptimas. Esto no es sorprendente porque sin un parámetro poblacional al que converger una estadística es sólo un número aleatorio.
En cuanto a por qué dedicar tanto tiempo, la respuesta es que todo el mundo lo sabe y porque parecía resolver el objetivo de la economía, que es resolver el problema inverso.
Todo el mundo suponía que si se asumía un choque aleatorio normal se obtendrían rendimientos normales, pero White (véase más arriba) demuestra que se obtienen rendimientos de Cauchy sin media ni varianza. El problema es que esto elimina todas las soluciones no bayesianas para los casos generales, porque mientras que la función de verosimilitud bayesiana es un estadístico mínimamente suficiente, no puede existir ningún estadístico suficiente para los métodos no bayesianos debido al teorema de Pitman-Koopman-Darmois, que dice que no existe ninguno para crear una proyección. Existe un estadístico mínimamente suficiente condicionado por el ancilar para fines de inferencia, pero no para fines proyectivos.
Koopman, B (1936). "Sobre la distribución que admite una estadística suficiente". Transacciones de la Sociedad Matemática Americana. Transacciones de la Sociedad Matemática Americana, Vol. 39, No. 3. 39 (3): 399-409
De hecho, nadie hablaría del riesgo de cola si este proceso fuera mesocúrtico. Yo tomaría la bibliografía anterior y trabajaría hacia adelante en el tiempo. Hay algunas cosas que faltan, como el Teorema de la Clase Completa de Wald, pero eso se recogerá en las obras citadas. También querrás coger las bibliografías de las obras para una discusión más completa.