Me gustaría plantear dos cuestiones sobre el conjunto de datos al que se ajustó la línea de regresión:
La gama de precios en el conjunto de datos. Si todos los puntos de datos se encuentran dentro de un rango muy estrecho de precios, incluso una pequeña variación (ya sea real o debida a un error de medición) en las cantidades asociadas puede conducir a un bajo coeficiente de determinación $R^2$ . En términos de la fórmula:
$$R^2 = 1 - \frac{\text{Residual sum of squares}}{\text{Total sum of squares}}$$
un rango estrecho de precios tiende a dar lugar a que se explique poco de la suma total de cuadrados y la mayor parte sea residual, lo que da lugar a una baja $R^2$ . Nótese que aquí se supone que la regresión toma el precio como variable independiente y la cantidad como variable dependiente.
El número de puntos de datos. Si el número es pequeño, entonces, incluso dentro de su rango de precios, el conjunto de datos puede resultar poco representativo de la distribución de puntos dentro de la población de interés. Esto puede dar lugar a que los residuos al cuadrado calculados a partir del conjunto de datos sean, por término medio, mucho más pequeños o mucho más grandes de lo que es representativo de la población. Así, es posible que $R^2$ se ha calculado correctamente a partir de datos que no son representativos de la población.