Ayuda básica
Hay estudios en los que no interesa determinar solamente si hay o no enfermedad, sino que interesa establecer una proporción (por ejemplo, conocer la cantidad de enfermedad, es decir, la prevalencia). En estos casos el tamaño de la muestra depende del error aceptado, del nivel de confianza deseado o probabilidad de obtener una respuesta correcta, y de la prevalencia esperada.
Hay que tener en cuenta que normalmente el error aceptado y el nivel de confianza son establecidos arbitrariamente por el investigador. Además la literatura sobre el tema estudiado y otras fuentes pueden dar una idea acerca del valor esperado de la proporción (aquel que probablemente se obtendrá), o en el peor de los casos se puede escoger el escenario más desfavorable para el cálculo del tamaño de muestra (el valor de los posibles valores más cercano a 50%, o 50% cuando se desconoce la prevalencia).
También hay que tener en cuenta el tamaño de la población, ya que con poblaciones pequeñas (menores de 1000 individuos), es posible obtener un tamaño de muestra mayor que el tamaño de la población, y por esta razón en ese caso se debe hacer una corrección.
Ayuda avanzada
En muchos estudios epidemiológicos nos vemos obligados a estimar proporciones (recordemos que la prevalencia es la proporción de enfermos en una población).
Tradicionalmente se utiliza una fórmula que deriva directamente de la fórmula para estimar una media asumiendo distribución normal, sustituyendo la desviación estándar por la siguiente expresión:
$
\sigma =\sqrt {p\cdot \left( 1-p\right) }
$
Por tanto tendremos que el tamaño de muestra se calculará como:
$
n=\left( \dfrac {Z_{\alpha/2 } \sqrt {p\left( 1-p\right) }} {E}\right) ^{2} = \dfrac {Z_{\alpha/2}^{2}\cdot p\left( 1-p\right) } {E^{2}}
$
donde:
n: tamaño de la muestra necesario
Zα/2: valor de Z para el nivel de confianza NC=1-α
p: proporción esperada
E: error aceptado o precisión deseada
Sin embargo la fórmula clásica basada en la distribución normal tiende a sobrestimar el tamaño de muestra cuando la proporción esperada está próxima al 50% (0,5) y a subestimarlo cuando los valores están próximos al 0 y al 100%. Por esta razón se ha implementado un algoritmo que estima el tamaño de muestra asumiendo una distribución binomial basada en el método Score de Wilson:
$
\left(p_{\inf }, p_{\sup }\right) =\dfrac {2np\pm Z_{\alpha/2}\sqrt {4np\left( 1-p\right) +Z_{\alpha /2}^{2}}} {2\left( n+Z_{\alpha /2}^{2}\right) }
$
donde:
n: tamaño de la muestra necesario
Zα/2: valor de Z para el nivel de confianza NC=1-α
p: proporción esperada
pinf: límite inferior del intervalo de confianza de la estimación
psup: límite superior del intervalo de confianza de la estimación
En este caso la proporción esperada deberá estar dentro del intervalo de confianza calculado, y la diferencia entre psup y pinf será inferior al doble del error aceptado.
Consejo: La prevalencia se puede obtener en función de estudios previos. Si se desconoce se debe usar el 50% (0,5). Y en caso de un intervalo de valores se debería tomar el valor del intervalo más próximo al 50%.
En el caso de que se conozca el tamaño de la población (N), y la fracción de muestreo obtenida a partir de la fórmula anterior sea superior al 5%, se puede ajustar el tamaño de la muestra utilizando la siguiente fórmula (Daniel, 2000):
$
n=\dfrac {N\cdot Z_{\alpha / 2}^{2}\cdot p \cdot (1-p)} {E^{2}\cdot \left( N-1\right) +Z_{\alpha / 2}^{2}\cdot p \cdot (1-p)}
$
Ejemplo
En una población de 500 individuos queremos estimar la prevalencia (proporción de enfermos) con una precisión del 10% y un 95% de nivel de confianza. Basándonos en estudios previos sabemos que esa enfermedad se presenta afectando entre el 10 y 30% de la población.
Los datos del problema son:
NC: nivel de confianza = 95%
N: tamaño de la población = 500
p: prevalencia esperada = 30%
E: error aceptado o precisión deseada = 10%
En consecuencia el tamaño de muestra es igual a 76 individuos asumiendo una distribución binomial y ajustando el tamaño de muestra ya que la fracción de muestreo previamente calculada es del 17,8%.
Hay que tener en cuenta que el tamaño de muestra es ligeramente superior al que se obtiene utilizando la fórmula clásica que asume distribución normal (70 individuos).