top of page

Medidas de Dispersión

Foto del escritor: ruthhenquinruthhenquin

El segundo aspecto en la descripción de un conjunto de variables numéricas es evaluar la variabilidad de las observaciones.

Cualquier conjunto de datos presentará valores diferentes. Cuanto mayor es la amplitud entre ellos, mayor la variabilidad de las observaciones.

La variabilidad de una muestra que incluya hombres entre 18 a 80 años será mucho mayor que la variabilidad de otra muestra que incluya hombres entre 60 y 80 años.

Lo que interesa es determinar la variabilidad de los datos y cómo están dispersos.

Hay 2 formas de evaluar la variabilidad: por métodos gráficos y por métodos numéricos.


Métodos Gráficos para Valorar la Variabilidad.


Una forma simple de observar la variabilidad de los datos es construyendo un Histograma.

En este tipo de gráfico el número de observaciones o el porcentaje de sujetos queda graficado en función de los diferentes grupos de valores de una variable.


Para construir un Histograma lo más adecuado es agrupar los datos en categorías iguales; por ejemplo creando grupos de 5 años de edad y calculando cuántos sujetos están dentro de esa categoría.

En la figura se observa el Histograma correspondiente a Bilirrubina total de una muestra de 450 sujetos.


Histograma. Bilirrubina 450 sujetos.

Como se puede observar, se han creado grupos de 0.5 mg/dl, la altura de cada barra representa el número de sujetos que cada intervalo contiene. El número que se observa en el eje x es el punto medio de bilirrubina de cada intervalo.

Observando el histograma, vemos fácilmente que la mayor concentración de datos está en los grupos con valores de bilirrubina de 0.2 (menor valor encontrado en la muestra) a 1 mg/dl, que el intervalo con mayor número de sujetos es 0.2 a 0.5 mg/dl con 125 pacientes, el que no contiene a la media muestral que es de 1.7 mg/dl y que el número de sujetos hacia a la derecha decrece significativamente, alcanzando valores elevados de bilirrubina, lo que “tira” la media muestral hacia esos valores. Lo correcto en este caso es presentar la mediana como valor representativo de la muestra (mediana = 1.1 mg/dl). Esta distribución es asimétrica.



Observemos ahora el Histograma construido con los datos de IMC de 450 pacientes.

Aquí los intervalos fueron construidos a través de categorías que van de 2 Kg/ m2. Los valores mostrados en el eje x es el punto medio de cada intervalo. Lo que podemos observar claramente es que la mayoría de los pacientes tuvieron un IMC entre 22 y 28 Kg/ m2.. Este intervalo contiene la media que es de 26.6 Kg/m2.

Los datos a ambos lados de este intervalo, se distribuyen más o menos de forma simétrica. Estos datos tienen distribución simétrica.


Por lo tanto, a través del Histograma, podemos obtener información acerca de la dispersión de los datos (valor mínimo y máximo), sobre qué grupos de valores son más frecuentes y cómo se distribuyen los valores alrededor de la Media Muestral (simétricos o asimétricos).


Histograma de IMC de 450 sujetos.


Métodos Numéricos para Evaluar la Variabilidad.


Además de los métodos gráficos es necesario contar con evaluaciones numéricas que resuman la variabilidad de los datos.

Éstas, junto con las medidas de posición, proveen un resumen muy informativo de un grupo de observaciones.

Existen 3 formas numéricas de cuantificar variabilidad: Rango, Centilos y Desvío Estándar, con algunas variantes de uso común como el rango intercuartilo y el error estándar.


Rangos


Es la forma más simple de describir la dispersión de los datos. Reporta son los valores mínimo y máximo obtenidos en una muestra.

El rango de la muestra de bilirrubina total de 450 sujetos es 0.2 a 16 mg/dl. La desventaja del rango es que sólo tiene en cuenta los valores extremos, que probablemente sean los más infrecuentes, sin describir cómo se distribuyen los valores intermedios. Por esta razón, los rangos no son muy utilizados como medidas de resumen de la variabilidad de los datos.


Centilos o Percentilos


Si tomamos una muestra y contamos cuantos sujetos tienen el mismo valor de bilirrubina total obtendremos la frecuencia Absoluta de sujetos con ese valor de bilirrubina (FREC en la tabla), si dividimos este numero de sujetos por la cantidad total de sujetos de la muestra obtenemos la frecuencia relativas (Porcent en la tabla) y si sumamos las frecuencias relativas obtendremos la frecuencia Acumulativa (Acum en la tabla).



A través de la Frecuencia Acumulativa podemos saber qué porcentaje de la muestra está por debajo de un determinado valor y a esta Frecuencia Acumulativa la llamamos percentilo.


El percentilo 50 si bien no aparece en la tabla, si encontramos el percentilo 51 % que corresponde al valor 1.1 mg/dl. A este percentilo también lo llamamos mediana: la mitad de las observaciones son menores o mayores a este valor y como vemos coincide con el valor calculado anteriormente de la mediana. (línea roja dentro del rectángulo. Ver figura siguiente)

Los percentilos más frecuentemente reportados son los 25 y 75, llamados cuartilos, y nos permiten dividir a la muestra en 4 partes iguales que contiene que cada uno un 25 % de la muestra total. La diferencia numérica entre el cuartilo 25 y 75 es el Rango Intercuartilo (lados del rectángulo). En este caso la distancia intercuartilos 25-75 sería de 0.7 mg/dl a 1.9 mg/dl. A menudo vemos en tablas de artículos en inglés el rango intercuartilo identificado como IQR.


En la figura se muestra un gráfico llamado de cajas y bigotes (Box-Plot), en el que se puede observar cómo es la distribución de sujetos de acuerdo a sus valores de bilirrubina de 450 pacientes en relación a los cuartilos 25, 50 y 75 y sus rangos (líneas verticales en los extremos del gráfico) .


¿Cómo interpretamos este gráfico?

· El valor que corresponde a la mediana o percentilo 50 (línea roja vertical). Por ser éste el percentilo 50, ya sabemos que a un lado y otro del mismo hay igual cantidad de sujetos ( 50 % a cada lado)

· Entre el percentilo 25 y 50 los sujetos tienen valores de bilirrubina entre 0.7 mg/dl y 1.1 mg/dl, por lo tanto su variabilidad es escasa.

· Por debajo del percentilo 25 los sujetos tienen entre 0.2 mg/dl (valor mínimo) y 0.7 mg/dl, mostrando también poca variabilidad.

· Entre la mediana y el percentilo 75 los sujetos tienen valores entre 1.1 mg/dl y 1.9 mg/dl, y más allá del percentilo 75 entre 1.9 mg/dl y el rango máximo 16 mg/dl.

· El valor promedio suele representarse como un asterisco dentro de la caja.

· En conclusión, lo que observamos es una concentración de los valores de bilirrubina entre el rango inferior y el cuartilo 75, evidenciando una distribución de los datos muy asimétrica.


De esta manera tenemos una mejor idea de cómo los valores se distribuyen en la población.


En el grafico el Blox Plot de IMC observamos que los datos se distribuyen de forma más simétrica. Las 2 mitades del rectángulo central son casi del mismo tamaño, al igual que las líneas que llegan hasta los rangos. De hecho el valor de la media y la mediana es el mismo 26.6 Kg/m2.


Un ejemplo muy común en el que se utiliza los percentilos, es en la valoración del crecimiento de niños.

En la figura observamos los diferentes percentilos de IMC para niños de acuerdo a su edad, tomando el valor del IMC de un niño podemos determinar si esta en peso adecuado o no.


Otro percentilo muy comúnmente reportado en los estudios científicos son los quintilos, que no es nada más que dividir la muestra en 5 grupos que contienen el 20 % de la población cada uno.

7 visualizaciones0 comentarios

Entradas recientes

Ver todo

Comments


Publicar: Blog2_Post

©2019 por Dra Henquin. Creada con Wix.com

bottom of page