Tamaño muestral.
Se realizan una serie de consideraciones sobre la influencia del tamaño de la muestra sobre la precisión y la probabilidad de error del estudio.
Hablamos de muestras, claro…
Por razones diversas, los estudios científicos suelen utilizar muestras extraídas de una población sobre la que se quiere obtener una conclusión determinada. Esta muestra tendrá que haber sido seleccionada de forma que represente fielmente a la población de la que procede pero, ¿conviene que sea grande o pequeña?. Pues ni una cosa ni otra: la muestra debe ser del tamaño apropiado.
Después de razonar hasta llegar hasta esta conclusión necesitaría reposar un poco, pero antes trataremos de ver los problemas que nos pueden causar las muestras demasiado grandes o demasiado pequeñas.
Tamaño muestral
Los inconvenientes de las muestras más grandes de lo necesario son obvios: mayor gasto de tiempo y recursos. Pero es que, además, como sabemos que muchas veces para obtener significación estadística basta con aumentar el tamaño de la muestra, si lo hacemos en exceso podemos obtenerla con diferencias tan pequeñas que, aunque puedan ser reales, carezcan del menor interés desde el punto de vista clínico. De esta forma malgastamos tiempo y energías (y dinero) y podemos inducir a error sobre la importancia de la diferencia encontrada. Así que, como en otros muchos aspectos de la vida y de la medicina, al hablar de muestras no siempre más es mejor (ni es mejor tenerla más grande).
¿Qué pasa si la muestra es pequeña? Pues pasa un poco lo contrario. Cuánto más pequeña sea la muestra más imprecisióntendremos en los resultados (los intervalos de confianza de los parámetros estudiados serán más amplios). De esta manera, las diferencias tendrán que ser mayores para poder alcanzar significación estadística. Corremos así el riesgo de que, aunque exista una diferencia real, no podamos asegurar su existencia por ser la muestra demasiado pequeña, perdiendo la ocasión de demostrar diferencias que, aunque pequeñas, pueden ser clínicamente muy importantes.
Queda claro, pues, que la muestra tiene que ser del tamaño apropiado y que, para evitar males mayores, debemos calcularla antes de realizar el estudio.
Las fórmulas para calcular el tamaño de la muestra dependen del estadístico que estemos midiendo y de si estimamos uno en la población (una media, por ejemplo) o queremos hacer un contraste de hipótesis entre dos variables o muestras (comparar dos muestras, dos proporciones, etc). En cualquier caso, la mayoría de los programas de estadística y calculadoras de Internet son capaces de calcularla de forma rápida y sin protestar. Nosotros solo tendremos que decidir tres parámetros: el error de tipo 1, la potencia del estudio y la mínima diferencia clínicamente importante.
El error de tipo I es la probabilidad de rechazar la hipótesis nula siendo cierta, concluyendo que existe una diferencia que, en realidad, no es real. Se suele aceptar que esta probabilidad, llamada alfa, debe ser menor del 5% y no es más que el nivel de significación estadística empleado en el contraste de hipótesis.
El error de tipo II es la probabilidad de concluir que no hay diferencia (no rechazamos la hipótesis nula) cuando en realidad sí que la hay. Este valor se conoce como beta y se admite como bueno un mínimo de 80%. Su complementario (1-beta o 100-beta si preferimos los %) es lo que se conoce como potencia del estudio.
Por último, la mínima diferencia clínicamente importante es la que debe ser capaz de detectar el estudio, en el caso de que exista realmente. Este es un valor que decide el investigador según el contexto clínico y que no tiene nada que ver con la significación estadística del estudio.
Con estos tres parámetros calcularemos el tamaño de la muestra necesario para detectar la diferencia que creamos importante desde el punto de vista clínico y con el margen de error deseado.
En ocasiones el razonamiento puede hacerse al revés. Si la muestra tiene un tamaño máximo por la razón que sea, podemos estimar antes del estudio qué diferencia vamos a poder detectar. Si esta diferencia es inferior a la clínicamente importante, podemos ahorrarnos el trabajo, ya que correremos el riesgo de que no sea concluyente por tener una muestra pequeña e inducir a error dando a entender que la diferencia no existe. Del mismo modo, si nos vemos obligados a interrumpir el estudio antes de su finalización programada deberemos calcular si con la muestra alcanzada tenemos capacidad para discriminar la diferencia que nos habíamos propuesto inicialmente.
Según la variable que estemos midiendo, en ocasiones necesitaremos otros datos como su media o su desviación estándar en la población para poder estimar el tamaño de muestra necesario. Si no los conocemos, podemos hacer un estudio piloto con unos pocos pacientes (a criterio del investigador) y calcular el tamaño de la muestra con los resultados preliminares.
Nos vamos…
Una última reflexión antes de irnos a poner la cabeza en remojo. El tamaño muestral se calcula para estimar la variable principal de resultado, pero esto no garantiza que tengamos la muestra adecuada para todo lo que midamos en el estudio. Esto produce, con relativa frecuencia, que trabajos que demuestran muy bien la eficacia de un tratamiento fracasen en dar datos concluyentes sobre la seguridad del mismo, pero esa es otra historia…
[…] de la muestra en el diseño de un estudio, os sugiero que leais el post de Manuel Molina “El tamaño sí importa” en su blog “Ciencia sin seso… locura […]
¿qué se entiende por una muestra pequeña o muy pequeña? ¿cuándo no debe usarse los porcentajes? n < 10, n < 30, n < 100 ?
Gracias Eduardo por tu pregunta y por seguir el blog.
En realidad, una muestra no es ni grande ni pequeña, sino adecuada o no para lo que necesitamos.
Si queremos calcular un intervalo de confianza de una estimación, calcularemos el tamaño muestral necesario para que el intervalo tenga la amplitud deseada y el nivel de confianza que queramos. Si hacemos un ensayo, calcularemos antes el tamaño clínica que consideremos importante y el tamaño de muestra que necesitamos para que, en el caso de detectar esa diferencia, sea estadísticamente significativa.
Para un tamaño de efecto grande necesitaremos una muestra más pequeña que para un tamaño de efecto pequeño.
No entiendo tu pregunta sobre los porcentajes. Siempre pueden usarse. Lógicamente, si hacemos una estimación del porcentaje obtenido en una muestra, cuanto más pequeña sea la muestra, más amplio será el intervalo de confianza y, por tanto, menos precisa la estimación.
Espero haberte aclarado.
Saludos
Manolo Molina
Hola. Estoy haciendo un estudio en donde trabajo con dos poblaciones de tamaños diferentes a comparar, una de poco más de 14,000 y la otra de poco más de 4,000. Al momento de sacar muestras de ambas éstas quedan muy similares (entre 385 a 365), pero me preguntó si hay algún tipo de regla que deba aplicar o no, con el propósito de justificar que las muestras son adecuadas independientemente de que se obtuvieron de poblaciones diferentes?
Hola Salvador. Muchas gracias por tu pregunta.
Que yo sepa, no hay problema en comparar dos muestras que provengan de poblaciones de tamaño diferente, siempre que sean extraidas de forma aleatoria y que sean representativas de la población de la que proceden.
El tamaño de cada una de las muestras dependerá del tamaño de efecto que quieras detectar, del nivel de significación y de la dispersión de la variable que estés estudiando. Como normal general, el tamaño de la muestra no depende del tamaño de la población, aunque si la muestra es grande respecto al tamaño poblacional, puede ser conveniente que realices la corrección para población finita.
Un método sencillo consiste en multiplicar el tamaño calculado (n) por el resultado del cociente N/(N-n), donde N es el tamaño de la población.
Para tu muestra de 365 que proviene de una población de 4000, el tamaño corregido sería de 365 x (4000/4000-365)) = 401. Para la otra población, más grande, no merece la pena hacer el ajuste, pero te saldrían 395. Cuanto mayor sea la población respecto a la muestra, menos diferencia entre el tamaño muestral estimado y el ajuste para población finita.
Espero haberte ayudad.
Saludos
Manolo
Buenas tardes, estoy realizando un estudio para realizar unas encuestas en área rural por lo tanto mi pregunta es que criterios se debe tener en cuenta para elegir nivel de confianza y margen de error ?, De igual manera estos dos son complementarios, es decir si se elige el 90% de intervalo de confianza se debe elegir el 10% de margen de error o puede ser el 95% de intervalo de confianza y el 10% de porcentaje de error?
Gracias Carolina por la pregunta y por leer el blog.
El nivel de confianza lo elige el investigador, aunque lo más habitual es marcarlo en el 95%. Cuando tú haces la encuesta en una población, lo que buscas es estimar el valor en la población, que es desconocido, a partir del valor de tu muestra, que es conocido tras hacer la encuesta. La estimación del valor de la población tiene un grado de incertidumbre, aunque debe estar cerca del valor de la encuesta si la muestra elegida es representativa de la población.
El intervalo de confianza te da una idea de esa incertidumbre. Para entenderlo de forma sencilla, dentro del valor del intervalo de confianza estará el valor poblacional con una nivel de probabilidad igual a la confianza. (En realidad, un intervalo del 95% quiere decir que si repites la encuesta 100 veces con 100 muestras diferentes, 95 de los intervalos que calcules incluirán el valor poblacional).
Lo habitual es elegir el 95%, pero si quieres un mayor nivel de confianza, puedes subirlo al 99%. El problema es que, a mayor nivel de confianza, el intervalo será más ancho y el grado de precisión de tu estimación será menor. Podrías elegir un valor inferior al 95%, pero no suele hacerse.
En cuanto al margen de error, no entiendo bien a qué te refieres. Si te refieres a la probabilidad de que el intervalo no incluya el valor poblacional que quieres estimar, su valor es el complementario del nivel de confianza. Si el 95% de las veces incluye el valor, lógicamente no se incluirá el otro 5%.
En un contraste de hipótesis, esa sería la probabilidad de cometer un error de tipo I, que es detectar un efecto que en realidad no existe (un falso positivo). Puede que a lo que tú te refieras es a la potencia del estudio, que suele marcarse entre 80-90%. Eso quiere decir, de forma sencilla, que el estudio tiene esa probabilidad de detectar el efecto, si este existe. Este es el complementario del error de tipo II, que suele estar entre 10-20%. En este caso, potencia y nivel de significación no son complementarios siempre. Puedes tener un nivel de significación del 5% y una potencia del 80%, por ejemplo.
Espero haberte aclarado.
Saludos