Todas las estructuras del catálogo figuraban en la lista de exclusión de los últimos 15 días; se ha elegido mini_investigacion por ser la que mejor encaja con un enfoque predictivo basado en varias variables de riesgo.
Hipótesis de partida: ¿qué factores disparan el hígado graso en jóvenes? 🧠
El aumento de casos de hígado graso en jóvenes no es solo una noticia médica: es una mina de oro para enseñar análisis de datos en el aula. La hipótesis que vamos a poner sobre la mesa es sencilla de enunciar y muy potente para trabajar con alumnado: la cantidad de grasa acumulada en el hígado de una persona joven puede explicarse y predecirse a partir de un conjunto de factores medibles (índice de masa corporal, resistencia a la insulina, consumo de azúcares añadidos y actividad física). Si esto es cierto, deberíamos poder construir un modelo que combine todas esas variables a la vez.
El hígado graso no alcohólico (conocido como NAFLD por sus siglas en inglés, o más recientemente MASLD) ha pasado de ser una rareza pediátrica a una preocupación de salud pública. Pero, ¿por qué nos sirve para clase? Porque encarna una pregunta estadística clásica: cuando varias causas actúan al mismo tiempo, ¿cómo medimos el peso real de cada una controlando el efecto de las demás? 📊
Para responderla recurriremos a la regresión lineal múltiple, una técnica que estima cómo cambia una variable de respuesta cuando se mueve cada predictor, manteniendo constantes el resto. Es exactamente el tipo de razonamiento que un estudiante debe interiorizar: correlación no es lo mismo que efecto aislado.
Datos que necesitamos para investigar el hígado graso 🔎
Una buena investigación empieza por definir con claridad qué medimos. Distinguimos entre la variable dependiente (lo que queremos predecir) y las variables independientes o predictoras (lo que creemos que influye).
Variable de respuesta
- Porcentaje de grasa hepática (%): estimado por técnicas no invasivas como la elastografía o la resonancia. Es una variable continua, lo que la hace ideal para regresión lineal.
Variables predictoras candidatas
- IMC (índice de masa corporal, kg/m²).
- Índice HOMA-IR, marcador de resistencia a la insulina.
- Azúcares añadidos (gramos/día) a partir de un cuestionario de frecuencia alimentaria.
- Actividad física (minutos semanales de ejercicio moderado-vigoroso).
- Edad y sexo como variables de control.
Conviene recordar al alumnado que la calidad del dato manda: hay que limpiar valores imposibles (un IMC de 4 es un error de tecleo), tratar los datos faltantes y comprobar unidades. Para hacernos una idea de la magnitud real del problema, organismos como la OCDE publican indicadores de obesidad infantil que sirven como telón de fondo de esta epidemia.
Diseño del estudio sobre el hígado graso en jóvenes
Planteamos un estudio observacional de corte transversal: medimos a una muestra de jóvenes en un único momento y registramos a la vez la grasa hepática y los predictores. No es un experimento (no asignamos dietas al azar), así que hablaremos de asociaciones ajustadas, no de causalidad pura. Esta distinción es uno de los aprendizajes más valiosos para los estudiantes. 💡
Para que el modelo sea honesto, dividiremos los datos en un conjunto de entrenamiento (≈70%) y otro de prueba (≈30%), de forma que evaluemos el modelo con datos que no ha "visto". Así introducimos, de manera natural, la idea de validación.
Aquí tienes una tabla con datos ilustrativos para uso docente (no reales) que sirven para montar el ejercicio en clase:
| ID | IMC (kg/m²) | HOMA-IR | Azúcar añadido (g/día) | Ejercicio (min/sem) | Grasa hepática (%) |
|---|---|---|---|---|---|
| 1 | 21.0 | 1.1 | 30 | 240 | 3.2 |
| 2 | 24.5 | 2.0 | 55 | 150 | 6.8 |
| 3 | 27.8 | 3.4 | 78 | 60 | 12.5 |
| 4 | 31.2 | 4.9 | 95 | 30 | 19.1 |
| 5 | 23.0 | 1.6 | 42 | 200 | 5.0 |
| 6 | 29.4 | 3.9 | 88 | 45 | 15.7 |
| 7 | 33.5 | 5.6 | 110 | 15 | 22.4 |
| 8 | 22.1 | 1.3 | 35 | 260 | 3.9 |
Datos ilustrativos para uso docente; diseñados para que el ejercicio funcione, no para extraer conclusiones clínicas.
Análisis propuesto: regresión lineal múltiple paso a paso 🧮
El corazón de esta investigación es ajustar un modelo de la forma:
Grasa_hepática = β0 + β1·IMC + β2·HOMA-IR + β3·Azúcar + β4·Ejercicio + ε
Cada coeficiente β se interpreta como "cuánto cambia el porcentaje de grasa hepática por cada unidad que sube ese predictor, manteniendo los demás constantes". Por ejemplo, un β2 de 2.5 significaría que, a igualdad de IMC, azúcar y ejercicio, cada punto más de HOMA-IR se asocia con +2,5 puntos de grasa hepática.
En Python esto se resuelve en pocas líneas con la librería que ya citaba la noticia original, statsmodels (su documentación oficial es una fuente excelente para el aula):
- Paso 1. Explorar correlaciones entre predictores para detectar multicolinealidad (IMC y HOMA-IR suelen ir muy de la mano).
- Paso 2. Ajustar el modelo y leer la tabla de coeficientes, sus errores estándar y los p-valores.
- Paso 3. Revisar el
R²y elR² ajustadopara saber qué porcentaje de la variación explica el modelo. - Paso 4. Diagnosticar los residuos: deben repartirse de forma aleatoria alrededor de cero.
Sobre la visualización recomendada 📈: el gráfico estrella aquí es el diagrama de dispersión de valores observados frente a valores predichos (eje X = grasa hepática real, eje Y = grasa hepática estimada por el modelo); cuanto más se peguen los puntos a la diagonal, mejor predice. Como complemento, un gráfico de coeficientes (forest plot) con cada β y su intervalo permite comparar de un vistazo qué factor pesa más.
Resultados esperables del modelo de hígado graso en jóvenes ✅
Con datos coherentes como los de la tabla, esperaríamos un modelo con un R² alto y un patrón claro: el IMC y la resistencia a la insulina como predictores con mayor peso positivo, el azúcar añadido aportando un empujón adicional y el ejercicio con un coeficiente negativo (más minutos de actividad, menos grasa hepática). Esta tabla resume cómo se leería la salida:
| Predictor | Coef. (β) ilustrativo | Dirección del efecto | Lectura para el aula |
|---|---|---|---|
| IMC | +0.95 | ↑ Aumenta grasa | El factor de mayor peso |
| HOMA-IR | +1.80 | ↑ Aumenta grasa | Marcador metabólico clave |
| Azúcar añadido | +0.04 | ↑ Aumenta grasa | Pequeño pero acumulativo |
| Ejercicio | −0.02 | ↓ Reduce grasa | Factor protector |
Coeficientes ilustrativos para docencia. La gran lección estadística: aunque azúcar y grasa hepática estén muy correlacionados por separado, al meter el IMC en el modelo el peso "limpio" del azúcar puede reducirse, porque parte de su efecto viaja a través del peso corporal. Eso es el ajuste por variables de confusión en acción.
Limitaciones y sesgos que debemos vigilar ⚠️
Ningún modelo es perfecto, y enseñar a desconfiar es tan importante como enseñar a calcular:
- Causalidad. Un estudio transversal no demuestra que el azúcar cause hígado graso; solo que se asocian tras el ajuste.
- Multicolinealidad. Si dos predictores miden casi lo mismo, los coeficientes se vuelven inestables.
- Linealidad. La relación real puede ser curva; convendría comprobar si hace falta transformar variables.
- Sesgo de selección. Si solo medimos a jóvenes que acuden a consulta, la muestra no representa a toda la población.
- Autoinforme. El consumo de azúcar declarado suele subestimarse, introduciendo error de medida.
Aplicación al aula: convierte la noticia en proyecto 📚
Esta investigación se traslada a clase como un mini-proyecto de ciencia de datos perfectamente abarcable en 2-3 sesiones. Reta a tu alumnado con estas preguntas y tareas:
- Calcula la correlación entre cada predictor y la grasa hepática. ¿Cuál parece más fuerte antes de ajustar el modelo?
- Ajusta la regresión múltiple y compara: ¿qué coeficiente cambia más respecto a la correlación simple? ¿Por qué?
- Interpreta con tus palabras qué significa el coeficiente del ejercicio físico.
- Dibuja el gráfico de valores observados frente a predichos. ¿El modelo acierta más en valores altos o bajos?
- Inventa un nuevo paciente con IMC 26 y HOMA-IR 2,8 y predice su grasa hepática con la ecuación.
- Debate en grupo: ¿por qué este modelo no permite afirmar que "el azúcar provoca hígado graso"?
- Propón una variable que falte en el modelo y que pudiera mejorarlo.
Puedes ampliar la actividad con más ejercicios prácticos disponibles entre los recursos para profesores de canaldocente, donde encontrarás plantillas para montar proyectos de datos paso a paso.
Cierre crítico: datos al servicio de la salud 🎯
El aumento del hígado graso en jóvenes es un recordatorio de que detrás de cada titular sanitario hay variables, modelos y decisiones. La regresión lineal múltiple no cura a nadie, pero entrena una habilidad imprescindible: separar señales de ruido y medir el peso real de cada factor. Cuando un estudiante comprende que el efecto del azúcar cambia según qué otras variables controlemos, ha dado un salto que va mucho más allá de la estadística: ha aprendido a pensar con rigor sobre el mundo. Y esa es, al final, la mejor receta preventiva. 🧠📈