La disponibilidad real de los regresores puede ser un problema aquí, pero si las cuatro variables mencionadas están disponibles, la situación es como @Michael mencionó en un comentario:
Desde $X_2$ está correlacionada con $Y$ En la especificación de la regresión debe incluirse como "control".
$$Y = \beta_0 + \beta_1X_1 + \beta_2X_2 + u$$
Esto es intuitivo, pero también se encarga del aspecto técnico. Entonces, como $X_2$ es endógena, es decir, tenemos ${\rm Cov}(X_2,u) \neq 0$ pero tenemos un instrumento que no está correlacionado con el término de error $u$ desde $X_2$ se ha incluido en el pliego de condiciones terminamos con
$$Y=\beta_0 + \beta_1Z + \beta_2X_2 + u$$
para el que el estimador OLS será asintóticamente consistente, ya que (escribiendo $\mathbf W = [1:Z:X_2]$ )
$$ \hat \beta = \beta + \left (\mathbf W'\mathbf W\right)^{-1}\mathbf W' \mathbf u$$
y su consistencia dependerá de que el siguiente límite de probabilidad sea cero
$${\rm plim}\mathbf W' \mathbf u ={\rm plim} \left[\begin{matrix} \frac 1n\sum u_i\\ \frac 1n\sum Z_iu_i\\ \frac 1n\sum X_{2i}u_i\\ \end{matrix}\right] \rightarrow {\rm plim} \left[\begin{matrix} \frac 1n\sum E(u_i)\\ \frac 1n\sum E(Z_iu_i)\\ \frac 1n\sum E(X_{2i}u_i)\\ \end{matrix}\right]= \left[\begin{matrix} 0\\ 0\\ 0\\ \end{matrix}\right]$$
se mantiene porque ambos $Z$ y $X_2$ son ortogonales/no correlacionados con el término de error $u$ .
En otras palabras, el hecho de que los regresores $X_2$ y $Z$ están correlacionadas entre sí no crea ningún problema (siempre que, por supuesto, la colinealidad entre ellas no sea casi perfecta), sino que, por el contrario, justifica de forma más general la inclusión de ambas en la especificación de la regresión, convirtiéndola en "regresión múltiple", que existe exactamente para estos casos.