Reflexión 12 Oct 2023 4 min Manuel G.

Por qué tu p < 0.05 no es lo importante

Tamaño del efecto, intervalos de confianza y el problema con la significación estadística. La frase «es significativo» se ha quedado vacía sin más.

Llevamos cien años repitiendo el ritual: p < 0.05 = significativo, premio para el autor, párrafo en la conclusión. Pero desde el comunicado de la American Statistical Association de 2016 y la reedición de Wasserstein en 2019, el consenso académico es claro: el p valor por sí solo no significa nada relevante sin más contexto.

¿Qué dice realmente p < 0.05?

El p valor es la probabilidad de observar datos al menos tan extremos como los tuyos asumiendo que la hipótesis nula es cierta. NO te dice:

La probabilidad de que la hipótesis sea verdadera.
El tamaño del efecto.
La importancia práctica.
La probabilidad de replicar el resultado.

Con n = 100 000, hasta una diferencia ridícula entre grupos da p < 0.001. Con n = 8, hasta una diferencia enorme se queda en p = 0.20. El umbral 0.05 confunde a la gente porque trata al tamaño muestral y al tamaño del efecto como si fueran lo mismo.

El tamaño del efecto es el dato que necesita el lector

Cuando reporto una comparación, el orden honesto es:

El estadístico (t, F, χ²) con sus grados de libertad.
El p valor exacto (NO «p < 0.05» — pon el número: 0.024, 0.118…).
El tamaño del efecto (d de Cohen, η², odds ratio, r, RMSE relativo…).
El intervalo de confianza al 95 % del estimador.

El tamaño del efecto te dice si la diferencia tiene relevancia. La d = 0.2 es pequeña, 0.5 mediana, 0.8 grande. Con d = 0.05, aunque la p sea 10⁻⁵, no hay nada interesante que contar.

El intervalo de confianza dice lo mismo y mejor

El IC al 95 % combina precisión y magnitud en un solo objeto:

Si el IC NO incluye al nulo (cero o uno, según métrica), tienes significación al 5 %.
El ancho del IC te dice precisión.
La posición del IC te dice magnitud.

Un IC de [0.01, 0.04] no atraviesa el cero pero el efecto es despreciable. Un IC de [0.3, 0.9] no atraviesa el cero y el efecto es importante. Mismo p, conclusiones muy distintas.

Lo que sigue significando algo

El p valor todavía sirve en estudios bien diseñados con tamaño muestral preregistrado, hipótesis preespecificada, y un único contraste relevante. En esos contextos, una p < 0.005 (el nuevo umbral propuesto por Benjamin et al., 2017) sigue siendo una señal honesta. Pero solo si va acompañada del tamaño del efecto y el intervalo de confianza.

Conclusión: deja de decir «significativo» a secas

Cambia tu hábito de redacción: en lugar de «la diferencia fue significativa (p < 0.05)», escribe «se observó un efecto pequeño-mediano (d = 0.42, IC95 % [0.18, 0.66]; p = 0.003)». Le ahorras al revisor 15 minutos de cuestionar tu interpretación y te ahorras tú una ronda de cambios.

El p valor no está muerto, pero ya no es la estrella del informe. Es solo uno más de los datos que el lector necesita para juzgar si lo que cuentas tiene sentido.

Qué reportar en lugar de quedarte en el p

El valor p solo dice cómo de compatibles son tus datos con la hipótesis nula; no mide cuán grande ni cuán importante es un efecto. Por eso, junto al p, reporta siempre:

Tamaño del efecto: d de Cohen (diferencias de medias), r (correlaciones), η² u OR según el análisis.
Intervalo de confianza al 95 %: comunica la precisión de tu estimación mucho mejor que un sí/no.
El tamaño muestral: con n enorme, casi todo sale «significativo»; con n pequeño, un efecto real puede no detectarse.

Un ejemplo que lo deja claro

Dos estudios encuentran p = 0,04. En el primero, la diferencia es de 0,2 puntos sobre 100 (irrelevante). En el segundo, de 12 puntos (clínicamente importante). Mismo p, conclusiones opuestas. La diferencia la cuenta el tamaño del efecto, no el p.

Reglas prácticas

No escribas «la diferencia fue significativa» sin decir de cuánto.
Desconfía del «p = 0,051 ≈ significativo»: 0,05 es un convenio, no una frontera mágica.
Preinscribe tus hipótesis cuando puedas: evita el p-hacking de probar mil cosas hasta que algo «salga».

Tres malentendidos muy frecuentes

«p = 0,03 significa que hay un 3 % de probabilidad de que la hipótesis nula sea cierta». Falso: el p es la probabilidad de tus datos (o más extremos) si la nula fuera cierta, no la probabilidad de la hipótesis.
«No significativo significa que no hay efecto». Falso: la ausencia de evidencia no es evidencia de ausencia; quizá tu muestra era pequeña.
«Cuanto menor es el p, mayor es el efecto». Falso: un p diminuto puede acompañar a un efecto trivial si la n es enorme.

Preguntas frecuentes

Entonces, ¿el valor p no sirve para nada?

Sí sirve, pero como una pieza más, no como veredicto. Acompáñalo siempre de tamaño del efecto e intervalo de confianza.

¿Esto cómo lo calculo en mi TFM?

SPSS y R dan el tamaño del efecto con un par de clics o una línea de código; en SPSS lo tienes en la guía de aprender SPSS desde cero.

Compartir: Twitter / X LinkedIn WhatsApp