Elegir el test estadístico equivocado es el error más caro de todo TFM o paper. Te marca el revisor, te invalida la conclusión, y te obliga a rehacer tablas, gráficos y discusión. Lo peor: el 80 % de las veces el test correcto se decide con 7 preguntas seguidas que cualquiera puede aprender en 5 minutos.
Este árbol de decisión está pensado para estadística aplicada en ciencias sociales, biomédicas y educación. Te lleva del problema a la prueba en una sola pasada.
El árbol completo
- ¿Qué tipo de variable es tu desenlace? Cuantitativa continua → sigue por el camino paramétrico/no paramétrico. Categórica → salta directamente a Chi-cuadrado / Fisher / McNemar. Tiempo hasta un evento → Kaplan-Meier + log-rank o Cox.
- ¿Cuántos grupos comparas? Un solo grupo contra un valor de referencia → t una muestra o Wilcoxon de los signos. Dos grupos → sigue al paso 3. Tres o más → salta al paso 5.
- ¿Las observaciones de los dos grupos son independientes o pareadas? Pareadas (mismo sujeto antes/después, gemelos, casos-controles emparejados) → t pareada o Wilcoxon pareado. Independientes → paso 4.
- ¿Cumple normalidad y homocedasticidad? Sí → t de Student. No, pero la muestra es grande (n > 30 por grupo) → t de Student con Welch. No y muestra pequeña → Mann-Whitney.
- Con 3+ grupos: ¿es un factor o varios? Un solo factor → paso 6. Varios factores cruzados → ANOVA factorial (paramétrico) o Friedman/Scheirer-Ray-Hare (no paramétrico).
- ¿Normalidad + homocedasticidad? Sí → ANOVA de un factor + Tukey. No → Kruskal-Wallis + Dunn.
- ¿Hay correlación entre dos variables continuas, o quieres modelar una en función de la otra? Correlación lineal con normalidad → Pearson. Sin normalidad o variables ordinales → Spearman. Modelo predictivo → regresión lineal (continua), logística (binaria) o Poisson/negativa binomial (conteos).
Errores que aún veo cada semana
- Usar t-Student con n=8 sin comprobar normalidad. El Shapiro-Wilk es gratis, hazlo siempre por debajo de n=30.
- Aplicar ANOVA sobre proporciones. Si tu variable es 0/1 o un porcentaje, lo correcto es chi-cuadrado, regresión logística o un modelo beta.
- Confundir pareado con repetido. Tres medidas del mismo sujeto a lo largo del tiempo NO son tres grupos independientes — necesitas ANOVA de medidas repetidas o modelo mixto.
- Significancia estadística sin tamaño del efecto. p < 0.001 con n=10 000 puede tener una d de Cohen de 0.02. El revisor te lo va a marcar.
Tabla de decisión rápida
Si solo te puedes llevar una imagen mental, llévate esta correspondencia:
- 2 medias independientes normales → t-Student (Welch si σ distintas).
- 2 medias pareadas normales → t pareada.
- 2 medias no normales → Mann-Whitney / Wilcoxon pareado.
- 3+ medias normales → ANOVA + Tukey.
- 3+ medias no normales → Kruskal-Wallis + Dunn.
- 2 proporciones independientes → Chi-cuadrado (Fisher si esperadas < 5).
- 2 proporciones pareadas → McNemar.
- Correlación continua-continua → Pearson (normal) / Spearman (no normal o ordinal).
Conclusión: el test correcto rara vez es el más glamuroso
Las pruebas no paramétricas tienen mala fama porque «pierden potencia», pero en muestras pequeñas o asimétricas son las únicas que te dan una p creíble. Si dudas, ejecuta las dos (paramétrica y no paramétrica) y compara conclusiones: cuando coinciden, reportas la paramétrica; cuando difieren, reportas la no paramétrica y explicas por qué.
En el siguiente post te explico por qué un R² de 0.87 no significa lo que piensas, y cómo evitar que tu modelo sobreajuste antes de que el revisor te lo señale.