Rev. chil. endocrinol. diabetes 2010; 3 (3)   Volver a Indice

 

Rincón de la Bioestadística

Modelación estadística: La regresión lineal múltiple (parte 2)

Gabriel Cavada Ch.1,2
1División de Bioestadística, Escuela de Salud Pública, Universidad de Chile.
2Facultad de Medicina, Universidad de los Andes.

 

Statistical modeling: Multiple linear regression (second part)

El algoritmo de la estimación del modelo de regresión lineal múltiple es utilizado para comparar promedios en dos o más grupos, método que es conocido como análisis de la varianza, ANOVA. También sirve para estimar los promedios condicionados a distintos grupos ajustando por variables continuas, método conocido como análisis de covarianza o ANCOVA. Ambos métodos suponen que las unidades de muestreo son independientes, es decir cada sujeto es medido sólo una vez; si esta situación no se diera estaríamos en presencia de diseños jerárquicos o de medidas repetidas en cuyo caso la exposición de los métodos ANOVA y ANCOVA que se tratan en este artículo no son aplicables.

Antes de explicitar los modelos e ilustrarlos, es necesario definir lo que se entiende por variables “dummys” o Indicatrices;
en efecto:

Si en el modelo:

es necesario incorporar variables explicativas que sean de naturaleza nominal (no numéricas), tales como sexo, raza, tratamiento u otras, debemos introducir el concepto de variable Indicatriz o variable “dummy”. Estas variables son generadas a partir de una variable categórica que está medida en “k” niveles, de modo tal que esta producirá tantas variables “dummy” como niveles tenga; así, cada “dummy” indicará la pertenencia de la unidad de observación, en forma excluyente a cada nivel de la variable original. Es decir, si se tiene X una variable categórica medida en r niveles, entonces se definen r variables “dummys” que indican en forma EXCLUYENTE la pertenencia de una unidad de observación a un determinado nivel de la variable. Así:

Ejemplo: Supongamos que se registra la variable Nivel Educacional medida en tres niveles:

Y se registra información de 6 sujetos, que se muestran a continuación:

Al crear las respectivas variables “dummys” la tabla con la información se expande como sigue:

Debe notarse que se han creado tres variables “dummys” y cada una de ellas toma el valor 1 de acuerdo con el nivel de la variable original.

Una vez creadas estas variables, el promedio de una respuesta continua “Y”, puede ser comparado a través del siguiente lineal múltiple:

Si el sujeto es de Nivel educacional 1, implica que el Nivel educacional 2 y 3 son 0 y el modelo se reduce a:

que es la respuesta promedio en el nivel educacional 1. Si el sujeto está en el Nivel educacional 2, implica que el Nivel educacional 2 es 1 y el nivel 3 es 0, con que el modelo se reduce a:

Lo que representa la respuesta promedio en el nivel educacional 2; además se observa que el valor de ?2 es la diferencia de la respuesta en el nivel 2.

Con idéntico razonamiento se encuentra que la respuesta promedio en el nivel educacional 3 es:

Ejemplo: Un médico sospecha que la efectividad de un tratamiento hipotensor, debido a su complejidad, depende del nivel educacional del paciente y de su edad. La principal respuesta es el cambio de PAM (mm Hg) al cabo de un mes de tratamiento.

El promedio y desviación estándar del cambio en la PAM por nivel educacional se muestran a continuación:

El gráfico de esta situación se ve a continuación:

Al proponer el modelo:


la estimación del mismo se muestra en la siguiente tabla:

También sería de interés saber si la edad del paciente está asociada al cambio en la PAM; para ello se propone el modelo:

Esta expresión contiene 3 ecuaciones lineales simples a saber:

Con lo que el intercepto de esta recta es ?0+ ?2.

Con lo que el intercepto de esta recta es ?0+ ?3.

Como puede observarse se trata de tres rectas que tienen igual pendiente pero distintos interceptos. La estimación de este modelo se muestra en la siguiente tabla:

Considerando las interpretaciones anteriores, el gráfico de las ecuaciones para los distintos niveles educacionales que muestran el cambio de deltaPAM por edad es el siguiente: