Rev. chil. endocrinol. diabetes 2012; 5 (4)   Volver a Indice

 

Rincón de la Bioestadística

Representación gráfica de datos multivariantes

Gabriel Cavada Ch.1,2

 

Graphical representation of multivariate data

1Facultad de Medicina, Universidad de Los Andes.
2División de Bioestadística, Escuela de Salud Pública, Universidad de Chile.

Generalmente la información que se recolecta es “multivariante”, es decir, cada sujeto o unidad de observación está caracterizada por más de un atributo que ha sido medido en dicho sujeto, esto es lo que se llama en lenguaje técnico que cada sujeto es un “vector pvariante”, así el i-ésimo sujeto es representado por un objeto p-dimensional de la siguiente forma:

Donde cada Xi representa una de las características del sujeto.

Por ejemplo, si estamos interesados en caracterizar una muestra de oficiales de aviación, que a su vez está compuesta por pilotos e ingenieros y cada sujetos está caracterizado por 6 variables a saber:

Cuyos datos se pueden observar al final del texto.

Cada sujeto está caracterizado por 6 variables y la clase a que pertenece, esto es, cada sujeto es representado en un vector 6-dimensional.

Un desafío interesante es hacer una representación gráfica en que simultáneamente se expresen las 6 variables, con el fin de establecer la taxonomía entre ingenieros y pilotos así ¿Cómo será la confluencia de ellas?

Una primera representación es hacer un gráfico de estrellas, que consiste en representar cada variable sobre cada uno de los radios que se pueden dibujar en un hexágono regular (dado que son 6 las componentes del vector de caracterización), sin embargo, cada radio será prolongado o disminuido de acuerdo a lo medido en cada variable y el fin de estas prolongaciones unidas por una recta, así se obtienen polígonos de 6 lados para cada sujeto que parecen estrellas, ahora la idea es observar si las estrellas de los ingenieros son distintas a la de los pilotos. Este modo de representación permite hacer los siguientes gráficos:

Con cierto ojo entrenado podrían observarse las diferencias más notables entre ambos grupos de estrellas, o incluso observar sujetos atípicos dentro de cada grupo.

Otra propuesta para representar información multivariante, fue propuesta por Chernoff en el año 1980, que consiste en asociar cada variable a distancias definidas en un rostro humano, tales como: tamaño de los ojos, ángulo de los ojos, tamaño de las pupilias, ángulo de las cejas y todas las características morfológicas identificables en el rostro humano. Este tipo de representación sólo fue posible difundirla en los últimos tiempos en concordancia con el desarrollo de los programas computacionales. Los datos de ingenieros y pilotos se ven como sigue:

            

El principal objetivo de este artículo fue mostrar técnicas de representación gráfica poco conocidas en bioestadística o medicina, que sin embargo, con un poco de innovación y creatividad podrían ser bastante atractivas.