Estoy considerando un proceso Cox-Ingersoll-Ross (CIR) $$ dx_{t} = \alpha\left(\theta - x_{t}\right)dt + \sigma \sqrt{x_{t}}\,dW_{t}\,,\qquad \alpha,\beta,\sigma > 0 $$
que, por supuesto, tiene $2\alpha \theta < \sigma^{2}$ (viola la condición de Feller) y por lo tanto puede llegar a $x_{t}=0$ para algún $t$ . La distribución condicional es $$ f(x_{t+T} \vert x_{t}) = c e^{-u-v}\left(\frac{v}{u}\right)^{q/2}I_{q}\left(2\sqrt{uv}\right) $$
donde $q = \tfrac{2\alpha\theta}{\sigma^{2}} - 1$ (nota que $q <0$ por la suposición de violación de la condición de Feller), $c = \frac{2\alpha}{\sigma^{2}\left(1-e^{-\alpha T}\right)}\,$, $u=cx_{t}e^{-\alpha T}$, $v = c x_{t+T}$ y $I_{q}$ es una función de Bessel modificada de primer tipo de orden $q\,$.
Quiero calibrar $\alpha,\theta,\sigma$ a partir de ciertas observaciones históricas $x_{i=1\ldots N}$. Como se explica por ejemplo en arXiv:0812.4210, en principio esto se puede hacer minimizando el negativo del logaritmo de la verosimilitud, es decir, $$ -\log (\text{Verosimilitud}) = -\log \prod_{i=1}^{N-1}f(x_{i+1}\vert x_{i})\,. $$
Lo complicado es que algunas de mis observaciones históricas $x_{i}$ son cero. Ahora, cuando $x_{t + T} \to 0$ ($v \to 0$ en la notación anterior), usando la expansión en series de la función de Bessel, se encuentra que $$ f(x_{t +T} \to 0 \vert x_{t}) \to c e^{-u-v}\frac{v^{q}}{\Gamma(q+1)} $$
Dado que $q<0$ por la suposición, la densidad explota a medida que $v\to 0\,$.
En particular, si (digamos) la novena observación es cero en mi conjunto de datos de observaciones históricas (es decir, $v_{9} = cx_{9}=0$), la verosimilitud sería $$ -\log (\text{Verosimilitud}) = -q\log v_{9} -\log\left(\frac{c e^{-u_{9}-v_{9}}}{\Gamma(q+1)}\right)-\log \prod_{i\neq 8}f(x_{i+1}\vert x_{i})\,,\quad \text{con } v_{9} \to 0 $$
y el término $-q\log v_{9} \to -\infty$ a medida que $v_{9} \to 0$ y arruinará la minimización (un solucionador numérico deja de converger, por ejemplo).
¿Alguna idea de cómo calibrar el proceso CIR en tales situaciones, es decir, cuando los datos históricos contienen puntos (uno o varios) donde el proceso llega a cero?. ¿Es que el Máximo Verosimilitud no es adecuado para esta situación o hay alguna solución alternativa?.