Tutorial 28 Feb 2024 5 min Manuel G.

R² = 0.87 ¿es bueno o no?

Cómo interpretar el coeficiente de determinación sin engañarte: cuándo R²=0.87 es un éxito, cuándo es ruido y cuándo es sobreajuste.

El número favorito del estudiante de TFM es el R cuadrado. Cuanto más alto, mejor — eso es lo que repite todo el mundo. Pero un R² = 0.87 puede ser un trabajo brillante o un fraude estadístico, dependiendo del contexto, del número de variables y de cómo lo hayas calculado.

¿Qué te dice realmente el R²?

El R² es la fracción de la varianza de Y que tu modelo explica. Va de 0 a 1. Si R² = 0, tu modelo no aporta nada sobre la media. Si R² = 1, tu modelo lo explica todo… o has cometido un error grave.

Esa frase final es la clave. R² = 1 en datos reales es prácticamente imposible, así que normalmente significa data leakage (el target se ha colado entre los predictores) o estás evaluando sobre los mismos datos que has usado para entrenar.

El benchmark depende del campo

Ciencias físicas e ingeniería: R² > 0.95 es lo esperable. 0.87 suena flojo.
Economía y finanzas: R² > 0.30 ya es publicable. 0.87 prediciendo precios es muy sospechoso.
Psicología y educación: R² ~ 0.10–0.40 es realista para variables humanas. 0.87 puede indicar una variable redundante (predictor que ya «contiene» al target).
Biomedicina con variables fisiológicas: 0.60–0.85 es lo habitual. 0.87 cuadra.

Cuatro preguntas antes de presumir de tu R²

¿Es R² ajustado? El R² normal SIEMPRE sube al añadir variables, aunque sean ruido. El ajustado penaliza el exceso de predictores. Reporta SIEMPRE el ajustado en regresión múltiple.
¿Lo has calculado en train o en test? El R² en train mide ajuste; el de test mide generalización. La diferencia entre ambos es tu indicador de sobreajuste.
¿Has hecho validación cruzada? Un k-fold de 5 o 10 te da R² más honestos que un único split 80/20. Reporta la media y la desviación.
¿Cómo se comportan los residuos? Un R² alto con residuos no aleatorios (patrón en banano, embudo o autocorrelación) significa que tu modelo está mal especificado, no que sea bueno.

Cuando R²=0.87 es un éxito real

Si tu R² ajustado en validación cruzada repetida da 0.87 ± 0.04, los residuos parecen ruido blanco, las variables tienen interpretación causal, y el RMSE es razonable comparado con la desviación de Y, entonces sí: has hecho un buen modelo. Apúntalo en la tesis con orgullo.

Cuando R²=0.87 es un fraude (involuntario)

Si tu R² es 0.87 en train pero 0.31 en test, o si una de tus variables predictoras es básicamente Y disfrazada (un índice que se construye con Y, una métrica futura, una variable post-tratamiento), tu modelo no sirve para predecir. El R² alto solo está midiendo el truco.

Conclusión

El R² es una de las métricas más fáciles de inflar y por tanto la más peligrosa. Acompáñalo siempre de RMSE, MAE, validación cruzada y diagnóstico de residuos. Y cuando lo reportes, di el ajustado, di el split, y di cuántas variables tiene tu modelo. Sin esos cuatro datos, R² = 0.87 no significa nada.

Qué mirar además del R²

Un R² = 0,87 suena estupendo, pero por sí solo no dice si tu modelo es bueno. El R² solo mide qué proporción de la variabilidad explica tu modelo en tus datos; puede ser alto y, aun así, el modelo ser inútil o tramposo. Revisa también:

R² ajustado: penaliza meter variables de más. Si al añadir predictores el R² sube pero el ajustado baja, estás sobreajustando.
Error de predicción (RMSE/MAE) en datos que el modelo no ha visto. Es la prueba de fuego.
Gráfico de residuos: deben repartirse al azar alrededor de cero. Patrones (curvas, embudos) avisan de que el modelo está mal especificado.
Significación y sentido de los coeficientes: ¿apuntan en la dirección que la teoría predice?

El contexto lo es todo

En física de laboratorio un R² = 0,87 puede ser bajo; en ciencias sociales, donde el comportamiento humano es ruidoso, un 0,30 puede ser un resultado excelente. No existe un umbral universal: compáralo con lo habitual en tu campo.

Señal de alarma: R² casi perfecto

Un R² = 0,99 en datos reales suele indicar problemas: fuga de información (una variable que es casi la propia respuesta), muy pocos casos frente a muchos predictores, o sobreajuste. Si es demasiado bonito para ser verdad, normalmente lo es.

R² dentro y fuera de la muestra

El R² que te da el programa se calcula sobre los mismos datos con los que entrenaste el modelo, así que tiende a ser optimista. Lo que de verdad importa para predecir es cómo se comporta con datos nuevos. Por eso se reserva una parte de los datos (validación) o se usa validación cruzada: si el R² se desploma fuera de la muestra, tu modelo memorizaba ruido en lugar de aprender el patrón. Un buen modelo mantiene un rendimiento parecido dentro y fuera de la muestra.

Preguntas frecuentes

¿Un R² bajo significa que mi TFM está mal?

No necesariamente. Si tu objetivo es explicar relaciones (no predecir con precisión), un R² modesto con coeficientes interpretables y bien justificados es perfectamente válido.

¿Y el valor p de la regresión?

Recuerda que significativo no es lo mismo que importante: por qué tu p < 0,05 no es lo importante.

Compartir: Twitter / X LinkedIn WhatsApp