Así que empecemos con un caso real en el que la varianza tiene que ser infinita, el mercado de valores.
No voy a hacer una derivación completa aquí, ya que se extendería en varios capítulos. Lo sé porque estoy haciendo presentaciones web sobre esto. Pero puedo hacer lo suficiente para mostrar que no puede haber un primer momento para el mercado de valores. A partir de eso, explicaré la consecuencia para los regresores.
Empecemos con un par de observaciones sencillas sobre el rendimiento o la recompensa por invertir.
Si definimos la rentabilidad de un único par de flujos de caja como $$r_t=\frac{p_{t+1}}{p_t}\times\frac{q_{t+1}}{q_t}-1$$ y $$R_t=r_t+1$$ podemos observar algunas cosas.
Primero, $$R_t=R(p_t,p_{t+1},q_t,q_{t+1}).$$ Por definición, los precios son datos. Los volúmenes son datos. Los rendimientos son una función de los datos. Entonces, por definición, los rendimientos son una estadística. Como tal, es matemáticamente impropio asumir su distribución en la existencia. No se debe suponer que $R_t$ se distribuye de forma lognormal como debe derivarse.
En segundo lugar, el $-1$ parte de la fórmula inicial es irrelevante para la estocástica, por lo que $R_t$ es una distribución de producto de dos distribuciones de razón. Me disculpo, pero no voy a completar las matemáticas aquí ya que es demasiado largo, pero voy a cubrir lo suficiente en general para obtener una buena solución para usted.
Para simplificar, ignoraremos la liquidez como hizo Markowitz, aunque eso es muy impropio porque violará el Teorema del Libro Holandés. No obstante, si no nos importa que nuestras fórmulas no sean utilizables, fingiremos que $P=P$ en lugar de $P=P(Q)$ . También suprimiremos los dividendos, de nuevo, el mismo problema que el anterior.
Supongamos que ignoramos la venta en corto para esta discusión, ya que es casi simétrica, siendo "casi" una gran cosa, en realidad. En ese caso, podemos centrarnos en $q_{t+1},$ $p_t$ y $p_{t+1}$ para llegar al quid de la cuestión. El problema con $q_{t+1}$ El problema de los costes de liquidez, incluso si ignoramos los costes de liquidez, es que un tribunal de quiebras puede fijarlos en $q_{t+1}=0$ En el caso de una fusión, otra empresa puede sustituir sus acciones, o el efectivo puede ocupar su lugar en una fusión de efectivo por acciones. Por lo tanto, nuestra distribución para el ratio de volumen será multinomial incluso sin considerar los costes de liquidez.
Por lo tanto, la probabilidad de un retorno será la suma ponderada sobre los posibles estados futuros. Sólo consideraremos el caso en que la empresa siga siendo una empresa en funcionamiento al final del periodo. No puede haber fusiones, dividendos ni quiebras y vivimos en un mar de liquidez infinita.
Relajar esas restricciones no altera el problema, pero lo hace muy largo.
Así que podemos restringir nuestro caso a $$R_t=\frac{p_{t+1}}{p_t}.$$ La distribución de los precios dependerá de las reglas de la subasta. Por ejemplo, en una subasta de estilo inglés, hay una maldición para el ganador. El mejor postor gana, por lo que la distribución de las ofertas ganadoras debe ser la distribución de Gumbel. Sólo las ofertas ganadoras se registran como precio de mercado. Las demás representan transacciones que no se produjeron.
En una subasta doble al estilo de la Bolsa de Nueva York, los compradores pujan contra los compradores y los vendedores contra los vendedores. En equilibrio, no hay maldición del ganador. El comportamiento racional es que cada pujador oferte su expectativa. Como tal, el libro límite a medida que el tiempo llega al infinito debería ser una distribución de expectativas en torno a un precio de equilibrio. A partir del teorema central del límite, una vez escalado, debería tener una distribución normal.
Hay dos maneras de manejar esta distribución. La primera y más directa es simplemente resolver $$R_t=\frac{p_{t+1}}{p_t}.$$ El problema de esto es que, durante la mayor parte de la historia, sólo tenemos valores al final del día y las operaciones intradía no se registran en el orden en que se producen debido a que las órdenes más grandes se sacan de la cinta y se vuelven a insertar más tarde. Existe una alternativa convirtiendo a coordenadas polares alrededor del equilibrio. En ese caso, acabamos teniendo un parámetro menos que estimar y una solución viable.
Es bien sabido en la literatura estadística que la distribución de dos distribuciones normales no tiene un primer momento ni un momento superior, por lo que los momentos pares resultan ser infinitos y los impares no existen. La distribución completa es una suma ponderada sobre los estados, pero mientras uno de los componentes de la suma tenga varianza infinita, entonces la distribución completa tiene varianza infinita.
Existe una prueba para un caso sencillo en el diccionario matemático de Wolfram research. El enlace es aquí .
La distribución debe truncarse en 0. Como nota empírica, una vez que se han tenido en cuenta todas las demás cosas y las rupturas estructurales, se obtiene un excelente modelo del mundo real.
Se puede encontrar un debate más amplio y general en
Marsaglia, G. (2006). Ratios of Normal Variables. Journal of Statistical Software, 16(4), 1-10 o Marsaglia G (1965). Ratios of Normal Variables and Ratios of Sums of Uniform Variables. Journal of the American Statistical Association, 60, 193-204.
Ahora hablemos de lo que ocurre cuando se mapean variables sin media en variables sin media.
El método de mínimos cuadrados ordinarios no tiene ningún supuesto de distribución. Eso no implica que funcione como se pretende para todas las distribuciones posibles, de ahí la restricción a la varianza finita.
Los mínimos cuadrados ordinarios son una proyección y un algoritmo. De hecho, todas las reglas de decisión frecuentista son algoritmos. Si se violan las suposiciones, por muy graves que sean, seguirán arrojando un número. El número puede no tener sentido, pero existirá. Minimizará la pérdida al cuadrado que se habría producido en el momento en que se recogieron los datos si se hubieran conocido antes de recogerlos. La línea de regresión será la mejor línea de ajuste en términos de minimizar la pérdida al cuadrado en la muestra observada.
En 1851, el matemático Augustin Cauchy se enfrentó al matemático Irenee-Jules Bienayme. Probablemente nunca haya oído hablar de Bienayme, pero su trabajo está en todas partes en la estadística, pero siempre se nombra por otra persona. El teorema de Chebychev fue resuelto por Bienayme, por ejemplo.
Lo que Bienayme demostró básicamente en 1851 fue que la OLS era AZUL. Como campos enteros de las matemáticas fueron descubiertos por Cauchy, éste se lo tomó como un insulto personal, ya que acababa de publicar un método de regresión basado en la mediana. Augustin Cauchy estaba probablemente entre los diez mejores matemáticos de todos los tiempos.
Lo que Cauchy descubrió fue que si había una varianza infinita, entonces OLS siempre fallaría en producir una respuesta útil. De hecho, no hay ninguna diferencia matemática entre tener dos pares de coordenadas y un millón de pares de coordenadas. Añadir datos no mejora la calidad de la regresión. Desde 1851 se sabe que cualquier forma de regresión por mínimos cuadrados produce resultados espurios con variables que carecen de un segundo momento finito.
He encontrado una prueba contratada y simplificada para el caso univariante que enlazaré al final.
Para entender por qué ocurre esto, piense en lo que la pérdida al cuadrado está tratando de hacer, está tratando de minimizar la varianza de un estimador que tiene una varianza poblacional infinita. ¿Con qué precisión se minimiza el infinito?
Una prueba de lo que ocurre es demasiado larga para presentarla aquí, pero está presente en los textos estadísticos estándar que no son de uso aplicado. Sin embargo, se pueden aportar algunas intuiciones.
Una propiedad peculiar de las distribuciones con varianza infinita es que la varianza de la muestra crece con el tamaño de la misma. Esto tiene sentido porque a medida que el tamaño de la muestra llega a infinito, la varianza observada converge a la varianza real, que es infinita. Para el estimador de mínimos cuadrados, el denominador va al infinito a medida que crece el tamaño de la muestra. La discusión del numerador es más compleja porque no puede existir una covarianza, pero existe un concepto análogo.
Lo que acaba ocurriendo es que la distribución de muestreo de los estimadores acaba coincidiendo con la distribución poblacional del conjunto de todas las pendientes posibles. Esto hace que la inferencia carezca de sentido y que las estimaciones muestrales no tengan sentido.
Lo que puedes hacer es una de estas tres cosas.
Si estás haciendo un trabajo académico, entonces puedes utilizar la regresión de Thiel o la regresión de cuantiles porque todas las distribuciones tienen una mediana. La regresión de Thiel es la mejor de las dos en términos de eficiencia. Está relacionada con los métodos de bootstrapping, pero es muy lenta. La regresión cuantil puede tener más problemas con los valores atípicos. Aunque el punto de ruptura es muy alto, no es infinito.
Si se trata de un trabajo aplicado, hay que utilizar la regresión bayesiana. No existe un estadístico puntual suficiente para este tipo de regresión, pero la función de verosimilitud bayesiana es siempre mínimamente suficiente. En este caso, la diferencia cualitativa entre los métodos bayesianos y frecuentistas es demasiado grande. Además, los métodos frecuentistas violan el Teorema del Libro Holandés. Por tanto, es posible obligar a los bancos a asumir pérdidas si los usuarios utilizan métodos bayesianos y los bancos utilizan métodos frecuentistas.
El estimador OLS, que es un elemento bastante extraño de mapeo de distribuciones que carecen de segundos momentos en distribuciones que carecen de segundos momentos, cumplirá todos los criterios frecuenciales estándar utilizados en econometría para la validez. Sin embargo, tendrá la extraña propiedad de tener una precisión cero. El estimador será perfectamente impreciso en la estimación de la cantidad de la población a medida que el tamaño de la muestra llega al infinito.
Los Laboratorios Nacionales de Los Álamos elaboraron un análisis detallado de esta cuestión en
Hanson K.M., Wolf D.R. (1996) Estimadores para la distribución de Cauchy. En: Heidbreder G.R. (eds) Maximum Entropy and Bayesian Methods. Fundamental Theories of Physics (An International Book Series on The Fundamental Theories of Physics: Their Clarification, Development and Application), vol 62. Springer, Dordrecht. https://doi.org/10.1007/978-94-015-8729-7_20
Este tipo de problema también aparece en la física de partículas y en la física de los objetos rodantes.
Un caso univariado, donde no hay regresión, es el problema del Faro de Gull. Si se imagina una rotación de la línea de regresión y un colapso de los errores en una sola variable, entonces la proyección de las variables rotadas termina como este caso univariante. El punto de proyección de la luz de un faro tiene esta propiedad.
Una presentación de diapositivas de la misma se encuentra en el Colegio Imperial. Se trata de 13 páginas de ecuaciones aquí .
El planteamiento original del problema se encuentra en
Gull, Stephen (1988). Inferencia inductiva bayesiana y máxima entropía. Maximum Entropy and Bayesian Methods in Science and Engineering. Vol 1. 53-74.