Hasta el momento hemos visto cómo describir de manera resumida los resultados obtenidos, reportando medidas de posición y de dispersión de una muestra o varias muestras, y cómo determinar la probabilidad de que un valor de esa misma muestra pueda o no presentarse por azar.
En los estudios analíticos el objetivo es comparar el resultado de 2 o más muestras. En general lo que se desea saber es si dos medias son iguales o diferentes desde el punto de vista estadístico, siempre y cuando las muestras tengan una distribución normal. La comparación de medias no es válida cuando las muestras son asimétricas. Luego veremos cómo comparar dos medianas, que es la medida de posición que se utiliza para comparar muestras asimétricas.
El razonamiento que se utiliza es el mismo que vimos hasta ahora, la pregunta es ¿Las medias que queremos comparar están dentro del 95 % del área bajo la curva o una de ellas está en el área de rechazo? ¿A que “distancia” estadística” está una de la otra?
En otras palabras, si la Media 1 es 140 mmHg y la Media 2 es de 150 mmHg ¿Cuál es la probabilidad de que la media 2 sólo represente una variación al azar de la media 1 o viceversa?
Cuando estimamos el valor de una media, ésta, al igual que los datos, muestra variaciones. Dicho en términos estadísticos, los datos y la media tienen un grado de variabilidad.
Si tomamos 100 muestras de 1.000 sujetos con características similares y calculamos para cada una su media, veremos que las medias obtenidas no son iguales, varían dentro de un rango.
Si graficamos estas 100 medias veremos que su variabilidad es menor a la variabilidad de los datos a los que pertenecen.
Esto significa que los posibles valores que puede adoptar una media tienen un rango más estrecho: si los datos de una muestra tienen un rango de entre 70 y 110, la media tendrá un rango menor de variabilidad, por ejemplo entre 85 y 95.
Error estándar
La variabilidad de la media está en relación directa con la variabilidad de los datos, medida por su DS, y es inversamente proporcional a la raíz cuadrada de n de la muestra. Esto significa que mínimas variaciones de n de la muestra impactan mucho en la variabilidad de la media.
Por lo tanto, la variabilidad de la media de una muestra es mucho menor a la variabilidad de sus datos. La medida de variabilidad de la media se denomina Error Estándar (ES)
Ejemplo: Para una muestra de 100 sujetos, la media de superficie corporal es de 1.88 m2, su varianza es de 0.04. Con estos 2 datos podemos calcular el DS y ES.
Como el DS es la raíz cuadrada de la Varianza, éste es igual a = 0.2 (raiz de 0.04) y su error estándar es 0.02 (0.2/raiz de 100 )
Aquí vemos cómo el valor del DS 0.2 es mucho mayor al ES 0.02, justamente 10 veces mayor, que es la raíz cuadrada de 100.
Veamos qué pasa si aumentamos el n de la muestra.
N = 3.800
Media = 1.89 m 2
Varianza = raiz 0.036
SD = = 0.19
ES = raiz 0.19/ = 0.003
La media no ha cambiado mucho; tampoco su varianza y por lo tanto su DS. Pero el ES es ahora mucho más chico: es de 0.003 vs. 0.02 comparado con la muestra de 100 sujetos.
La otra particularidad que tiene la distribución de las medias es que siempre adoptan la distribución Normal, aunque los datos de donde provengan no sean normales. A esto se lo denomina Teorema Central del Límite. Este teorema es fundamental, ya que cuando aplicamos pruebas estadísticas para comparar medias, estas asumen que la dispersión de las medias tiene distribución normal.
Por lo tanto, si graficamos varias medias podemos promediarlas entre sí y obtener la Media de las medias. Si tomamos esta “gran media” como punto central veremos que entre ± 1 ES encontraremos el 68 % de los valores posibles de obtener por azar, entre ± 2 ES el 95 % y entre 3 ES el 99 %.
Es lo mismo que para los datos, sólo que aquí la curva es más alta y estrecha debido a la menor variabilidad; pero el área bajo la curva es la misma, representa el 100 % y por lo tanto es posible calcular áreas o probabilidades entre diferentes puntos de la misma.
Entonces, cuando queremos saber a qué distancia está una media de otra o queremos conocer cuál es la variabilidad esperada de una media calculando el IC 95 % para ella, lo hacemos usando el ES. Es muy importante recordar que la medida de variabilidad de los datos es el DS y la de la media es el ES. Si utilizamos DS en lugar de ES para comparar 2 medias o para calcular el IC 95 % de la media cometeremos un error grave.
Intervalo de Confianza de la media
Si medimos la tensión arterial sistólica de un grupo de 100 pacientes podríamos obtener una media de 140 mmHg, dentro de una hora podría variar por ejemplo a 145 mmHg y mañana podría ser de 130 mmHg. Como en general lo que hacemos es medir una sola vez la tensión arterial, debemos conocer cuál es el rango esperable de variación de la media, y esto lo logramos calculando el Intervalo de Confianza del 95 % para la media.
Así como el IC 95 % de los datos se calcula tomando el DS, para la media se usa el ES, por lo que el IC 95 % es igual a:
IC 95 % Media = Media ± 1.96 ES
Usando los datos de los 2 ejemplos anteriores calculemos ahora los IC 95 % para los datos y para las medias.
N = 100
Media = 1.88 m 2
Varianza = 0.04
SD = 0.2
ES = 0.02
IC 95 % Datos:
Media ± 1.96* DS = 1.88 – 1.96*0.2 = 1.88 – 0.39 = 1.48 m2
= 1.88 + 1.96*0.2 = 1.88 + 0.39 = 2.27 m2
IC 95 % Datos = 1.48 - 2.27 m2
IC 95 % Media
Media ± 1.96* ES = 1.88 – 1.96*0.02 = 1.88 – 0.039 = 1.84 m2
= 1.88 + 1.96*0.02 = 1.88 + 0.039 = 1.92 m2
IC 95 % Media = 1.84 – 1.92 m2
Como vemos, en el 95 % de los casos esperaremos valores de los datos estén entre 1.48 - 2.27 m2, mientras que, en el caso de la media, esperaremos obtener en el 95 % de los casos valores de media de entre 1.84 y 1.92 m2. Como se observa los datos tiene mayor variacion que su media.
N = 3.800
Media = 1.89 m 2
Varianza = raiz 0.036
SD = = 0.19
ES = 0.19 / raiz de 3800 = 0.003
IC 95 % Datos:
Media ± 1.96*DS = 1.89 – 1.96*0.19 = 1.89 – 0.37 = 1.52 m2
= 1.89 + 1.96*0.19 = 1.89 + 0.37 = 2.26 m2
IC 95 % Datos = 1.52 - 2.26 m2
IC 95 % Media
Media ± 1.96 *ES = 1.89 – 1.96*0.003 = 1.89 – 0.0058 = 1.88 m2
= 1.89 + 1.96*0.003 = 1.89 + 0.0058 = 1.90 m2
IC 95 % Media = 1.88 – 1.90 m2
Como se puede observar, los IC 95 % para los datos y la media de la muestra con 100 pacientes son más amplios que los IC 95 % de la muestra con 3.800 pacientes, este intervalo es más preciso.
El IC 95 % de la media de la muestra con 100 pacientes admite un rango posible de valores esperables por azar de 8 m2, mientras que el IC 95 % de la media con 3.800 pacientes es de sólo 2 m2, lo que significa que el “verdadero valor “está entre 1.80 y 1.90m2. Todo valor por debajo o por arriba de este estrecho margen se considerará no esperable por azar.
De la misma manera que se calcula el nº de DS o Z para medir la distancia entre un valor y su media, también podemos calcular el nº de ES a los que se encuentran 2 medias. Si las muestras tienen un número de pacientes > 100 cada una de ellas podemos, para determinar a qué distancia, en ES, están dos medias de distribución normal, aplicar el mismo razonamiento que utilizamos para determinar a qué distancia esta un dato de su media. Entonces z será igual a:
Esta es la formula general, no la que se utiliza en la práctica para el cálculo de Z.
Z= Media 1 – media 2
ES
Con el valor de Z obtenido, nos fijamos en la tabla de distribución Z a que valor de p corresponde.
Como ya mencionamos antes, cuando el tamaño de la muestra es chico la curva se modifica, haciéndose más plana y sus extremos no llegan a tocar el eje x.
Esto también sucede si graficáramos 100 medias obtenidas de muestras, por ejemplo, de 10 sujetos.
Aunque por Teorema Central del Límite se asume que las medias tienen distribución normal, esto se aplica para muestras con gran número de sujetos.
La distribución de las medias para muestras con pocos sujetos (n < 100) es similar pero no igual a la distribución Normal.
En este caso para calcular el nº de ES a los que se encuentran 2 medias; aplicamos el mismo calculo que para Z
t = Media 1 – media 2
ES
Cuando el cálculo del nº de ES se hace en una muestra chica hay que ajustar el cálculo del área bajo la curva al número de sujetos. Como el área bajo la curva depende del número de sujetos (modifica el DS y por lo tanto al ES) a estos se los denomina grados de libertad y se calcula como n – 1
En la tabla correspondiente, que se denomina Tabla de Distribución t de Student, (se encuentra en internet) se busca primero el número de grados de libertad (nº de sujetos – 1) y luego el valor de t. Una vez hallado este valor la tabla nos informa el valor de p a que corresponde. En este caso, no nos da el valor exacto del área bajo la curva.
Dado que las diferencias con respecto a la curva normal son mínimas en el caso de muestras grandes, siempre que se comparan medias de muestras con gran cantidad de sujetos también se usa la distribución de t.
Supongamos que hemos medido la superficie corporal de un grupo de 24 deportistas, cuya media es 1.95 m2,y deseamos compararla con la media de superficie corporal de
una población no deportista para saber si la superficie corporal de aquel grupo es estadísticamente mayor a la de la población general.
Tomemos el dato de la media de superficie corporal de los 3.800 pacientes que previamente utilizamos para calcular el IC 95 %.
Lo primero que debemos saber es a cuántos ES esta una media de la otra, para eso debemos calcular t.
t = Media 2 – Media 1 = 1.95 – 1.89 = 3
ES 0.01
N = 24
Media 2 = 1.95 m2
ES = 0.01 Error Estándar promedio de las dos muestras.
Media 1 = 1.89 m2 Media de referencia.
Con el valor de t hallado (3) para una muestra de 24 pacientes, buscamos en la tabla de distribución de t (tabla 11-2) primero los grados de libertad (24 – 1 = 23), luego el valor de t = 3 y desde ese valor subimos hasta la primera fila donde se encuentran los valores de p.
Como el valor de t = 3 no está, buscamos los más aproximados: 2.80 – 3.48. Para estos valores, p está entre 0.01 y 0.002. Decimos entonces que para t = 3 p es < a 0.002.
La conclusión que obtenemos es que la media de superficie corporal de los deportistas es estadísticamente diferente a la superficie corporal de la población general, debido a que la probabilidad de encontrar un valor de 1.95 m2 en una población no deportista es menor a 2 en 1.000.
También podemos deducir que si una media está a 3 ES de otra, obviamente esta por fuera del 95 % esperado de variación al azar de la media1 y por lo tanto esta en el area de rechazo de la hipótesis nula de igualdad de las medias.
Si observamos de nuevo el IC 95 % para la media de 3.800 pacientes (IC 95 % Media = 1.88 – 1.90 m2) también podemos inferir que 1.95 m2 es estadísticamente diferente, ya que no se encuentra entre el 95 % de los valores posibles de obtener por azar para un grupo de pacientes no deportistas.
Debido a que el cálculo del área bajo la curva se ajusta al número de sujetos en muestras pequeñas, el IC 95 % también debe ser ajustado: en lugar de usar ± 1.96 ES hay que averiguar a cuántos ES está el 95 % de los valores probables de obtener por azar para la media.
Para la muestra de 100 pacientes vimos que el IC 95 % de la Media tomando ± 1.96 ES era 1.84 m2 - 1.92 m2
Corregido por distribución de t será:
Media ± t0.05 * ES
t 0.05 = valor de t para el nº de grados de libertad correspondientes a la muestra y p = 0.05
Para el ejemplo el IC 95 % es: Media ± 2.069 * ES
Reemplazamos 1.96 por el valor de t que nos da la tabla. Buscamos n –1 = 23 y nos fijamos qué valor aparece cuando p es igual a 0.05, en este caso 2.069. (ver en la tabla de Student.)
Tomando este valor, el IC 95 % para la muestra será:
Media ± 2.069 * ES
1.88 ± 2.069 * 0.02 = 1.88 – 0.041 = 1.83
= 1.88 + 0.041 = 1.92
IC 95 % 1.83 – 1.92
Comparado con el IC 95 % calculado asumiendo distribución normal (el que utiliza 1.96 ES) este intervalo no es muy diferente, esto sucede porque la muestra no es tan pequeña. Pero para muestras < 100 se ven diferencias considerables.
En resumen:
Para comparar medias (y con esto ya estamos asumiendo distribución normal) utilizamos como medida de dispersión o variabilidad al ES.
Para el cálculo del nº de ES cuando la muestra es grande (> 100) utilizamos z y el IC 95 % para la media se construye con ± 1.96 ES.
Si la muestra tiene < 100 sujetos utilizamos t para el cálculo de Nº ES y construimos el IC 95 % con el valor de t adecuado al nº de sujetos observado en la tabla de distribución t , siempre obtenido de la columna p 0.05.
Si bien la formula general para el cálculo de Z o t es igual, el cálculo del ES es diferente, dependiendo si lo que queremos calcular es Z o t y del tipo de comparación de medias que debamos realizar.
Veremos en el próximo capítulo como se calcula el ES para cada caso de comparación de medias.
Comments