← Volver al blog

Genética y obesidad

La obesidad se duplica en la Generación Z en comparación con los 'baby boomers' pese a la misma genética

Genética y obesidad

Paso 1: Entender el contexto

La relación entre genética y obesidad acaba de dar un giro que conviene mirar con ojos de analista de datos. 📊 Un estudio recogido por la prensa señala que, partiendo de la misma carga genética, un joven de la Generación Z tiene aproximadamente el doble de probabilidad de desarrollar obesidad que un baby boomer a la misma edad. Dicho de otro modo: si los genes apenas han cambiado en dos generaciones, pero el resultado se duplica, entonces la diferencia no la explican los genes, sino el entorno (dieta ultraprocesada, sedentarismo, descanso, estrés). Esta es exactamente la clase de pregunta que la estadística está hecha para responder. 🔎

En este tutorial vamos a usar la noticia como excusa para construir, paso a paso, un modelo que muchos estudiantes encuentran intuitivo y visual: el árbol de decisión. Veremos cómo, a partir de unas pocas variables, una máquina —y también un ser humano— puede aprender a clasificar quién tiene mayor riesgo de obesidad y, sobre todo, qué pregunta importa más a la hora de decidir.

Mesa con comida saludable y ultraprocesada que ilustra el debate sobre genética y obesidad en la Generación Z
El mismo genoma, distinto plato: el entorno alimentario explica buena parte de la brecha de obesidad entre generaciones. Imagen ilustrativa (Unsplash).

Paso 2: Recoger los datos

Antes de modelar, hay que decidir qué medimos. Para estudiar la obesidad necesitamos una variable objetivo (la que queremos predecir) y un conjunto de variables explicativas (las pistas que usaremos para decidir).

La variable objetivo

  • Estado de peso: categoría derivada del Índice de Masa Corporal (IMC). Por convención de la Organización Mundial de la Salud, se considera obesidad un IMC ≥ 30. Esta será nuestra etiqueta: "Obesidad" / "No obesidad".

Las variables explicativas

  • Generación (Boomer / Gen Z) 👵🧑
  • Riesgo genético (puntuación poligénica: bajo / medio / alto) 🧬
  • Consumo de ultraprocesados (raciones/día) 🍟
  • Actividad física (minutos/semana) 🏃
  • Horas de sueño y nivel de estrés autopercibido 😴

Fíjate en un detalle clave para entender la noticia: incluimos el riesgo genético como variable. Así el modelo podrá decirnos si, a igualdad de genes, las variables de estilo de vida siguen "pesando" en la decisión. Si quieres ver más ejemplos de cómo plantear conjuntos de datos en el aula, tienes una buena colección en los recursos interactivos de Canal Docente.

Paso 3: Explorar los datos

Toda la exploración empieza describiendo lo que tenemos. Aquí va una tabla con datos ilustrativos para uso docente (no son personas reales; sirven para aprender el procedimiento):

IDGeneraciónRiesgo genéticoUltraprocesados (rac./día)Ejercicio (min/sem)Sueño (h)¿Obesidad?
1BoomerAlto11807No
2Gen ZAlto4306
3Gen ZBajo5205
4BoomerMedio21508No
5Gen ZMedio12007No
6Gen ZAlto3456
7BoomerAlto4406
8Gen ZBajo02208No

Una primera lectura descriptiva ya sugiere algo interesante: el caso 1 (boomer, riesgo genético alto, pero poco ultraprocesado y mucho ejercicio) no desarrolla obesidad, mientras que el caso 3 (Gen Z, riesgo genético bajo, pero muchos ultraprocesados y poco ejercicio) . 💡 Esa contradicción aparente —genes altos sin obesidad, genes bajos con obesidad— es justo la señal de que el estilo de vida manda. Y es perfecta para introducir un modelo que sepa combinar varias variables a la vez.

Paso 4: Elegir la técnica

Para este problema de genética y obesidad elegimos el árbol de decisión 🌳, una técnica de clasificación supervisada que es, posiblemente, la más fácil de explicar a un grupo de estudiantes. ¿Por qué encaja tan bien aquí?

  • Es interpretable: el modelo final se lee como una secuencia de preguntas de "sí/no", igual que un cuestionario médico. Nada de cajas negras.
  • Mezcla variables de distinta naturaleza: categóricas (generación) y numéricas (minutos de ejercicio) sin necesidad de transformarlas demasiado.
  • Ordena la importancia: la primera pregunta del árbol es, casi siempre, la variable que más separa a obesos de no obesos. Es como pedirle al modelo: "si solo pudieras hacer una pregunta, ¿cuál haría?".

¿Cómo decide el árbol dónde cortar?

El algoritmo prueba todas las preguntas posibles ("¿ejercicio < 60 min/sem?", "¿ultraprocesados ≥ 3?", "¿riesgo genético = alto?") y elige la que deja los grupos más "puros" (más separados entre obesos y no obesos). Para medir esa pureza se usan índices como el índice de Gini o la entropía. Cuanto más baja la impureza tras el corte, mejor la pregunta. El proceso se repite en cada rama hasta llegar a las hojas, que dan la predicción final.

Paso 5: Ejecutar el análisis

Con los datos ilustrativos, un árbol sencillo "aprendería" una lógica parecida a esta (la describimos en texto para que se entienda la mecánica):

  1. Raíz → ¿Ultraprocesados ≥ 3 raciones/día?
    • → ¿Ejercicio < 60 min/sem?
      • → Hoja: Obesidad (casos 2, 3, 6, 7). 🎯
      • No → Hoja: No obesidad.
    • No → ¿Ejercicio ≥ 120 min/sem?
      • → Hoja: No obesidad (casos 1, 4, 5, 8). ✅
      • No → Hoja: zona dudosa (haría falta más datos).

Observa el resultado más revelador para la noticia: la primera pregunta del árbol no es la genética, sino el consumo de ultraprocesados, y la segunda es el ejercicio. El riesgo genético queda relegado a un papel secundario. Eso reproduce, en miniatura, el hallazgo del estudio: con los mismos genes, lo que cambia el desenlace es el entorno. 🧠

En un aula con ordenadores, este árbol se entrena en tres líneas con la librería scikit-learn de Python:

from sklearn.tree import DecisionTreeClassifier
modelo = DecisionTreeClassifier(criterion="gini", max_depth=3)
modelo.fit(X, y)

Paso 6: Interpretar resultados

Un árbol no solo clasifica: también nos da una métrica preciosa para la docencia, la importancia de cada variable (cuánto reduce la impureza total). Con nuestros datos ilustrativos quedaría algo así:

VariableImportancia relativa (ilustrativa)Lectura didáctica
Ultraprocesados/día0,46El factor que más separa obesos de no obesos 🍟
Ejercicio (min/sem)0,33Segundo cribado decisivo 🏃
Riesgo genético0,12Influye, pero no domina 🧬
Horas de sueño0,09Aporta matices en zonas dudosas 😴

Visualización recomendada 📈: aquí conviven dos gráficos complementarios. (1) El propio diagrama de árbol, con los nodos como cajas y las ramas etiquetadas con la condición ("Sí/No"), y las hojas coloreadas según la clase predicha. (2) Un gráfico de barras horizontales de importancia de variables: en el eje Y, el nombre de cada variable; en el eje X, su importancia (de 0 a 1), ordenadas de mayor a menor. Para acompañar la noticia, añade un tercer gráfico de barras con la prevalencia de obesidad por generación (eje X = generación, eje Y = % de obesidad), que hace visual de un vistazo el "doble de riesgo" de la Gen Z.

Cuidado con un riesgo clásico de esta técnica: el sobreajuste. Un árbol muy profundo memoriza los datos en lugar de aprender la regla general. Por eso fijamos max_depth y, en un estudio serio, validaríamos el modelo con datos que no haya visto.

Paso 7: Comunicar la conclusión

La historia de genética y obesidad que abría esta noticia tiene una moraleja estadística clara y comunicable: cuando el resultado se duplica entre generaciones sin que cambien los genes, la causa hay que buscarla en las variables del entorno. Un árbol de decisión lo hace evidente porque coloca esas variables —ultraprocesados y sedentarismo— en lo más alto del modelo, por delante de la herencia genética. 🎯

Para profesorado y alumnado, el mensaje es doble: por un lado, los datos no condenan ("tengo genes malos, no hay nada que hacer" es falso); por otro, las decisiones cotidianas son justamente las ramas que más cambian el desenlace. Si quieres datos macro fiables para enriquecer el debate, el panorama de salud de la OCDE (Health at a Glance) ofrece series comparables entre países y años. Y encontrarás más artículos didácticos como este en el blog de Canal Docente. 📚

Mini-reto para clase

Pon a prueba lo aprendido sobre obesidad, genética y árboles de decisión con estos retos (de menor a mayor dificultad):

  1. 🧮 Calcula a mano el IMC de tres compañeros ficticios y clasifícalos según el umbral de la OMS. ¿Qué información pierdes al pasar de un número (IMC) a una etiqueta ("Sí/No")?
  2. 🌳 Dibuja el árbol de la tabla del Paso 3 eligiendo tú la primera pregunta. ¿Llegas a la misma raíz que el modelo (ultraprocesados)? Justifícalo contando cuántos casos separa cada pregunta.
  3. 🔎 Detecta el caso rebelde: localiza al individuo con riesgo genético alto que NO tiene obesidad y explica, con el árbol, por qué el modelo acierta con él.
  4. 📊 Diseña el gráfico de importancia de variables: ¿qué iría en cada eje y por qué un gráfico de barras horizontales se lee mejor que uno circular?
  5. 🧬 Debate dirigido: si la genética solo pesa 0,12 en el modelo, ¿significa que no importa? Argumenta a favor y en contra usando la idea de "interacción gen-entorno".
  6. ⚠️ Caza el sobreajuste: ¿qué pasaría si dejáramos crecer el árbol hasta tener una hoja por cada persona? Propón dos formas de evitarlo.
  7. 📈 Proyecto mini: recopilad (de forma anónima y voluntaria) horas de sueño y minutos de ejercicio de la clase, y proponed qué primera pregunta haría vuestro árbol con esos datos reales.

Con este recorrido, una noticia de prensa se convierte en una sesión completa de análisis de datos: del titular a la tabla, de la tabla al modelo, y del modelo a una conclusión que el alumnado puede explicar con sus propias palabras. 💡