Medidas de centralización.
Se describen las principales medidas de centralización, como la media aritmética, la mediana y la moda.
¿Y dónde está el medio?. Esta pregunta, que parece el desvarío de una noche de verano, no debe ser tan sencilla de responder cuando disponemos de varias formas de localizar el medio o centro de una distribución de datos.
Y es que encontrar el virtuoso medio es muy útil para describir nuestros resultados. Si medimos una variable en 1500 pacientes a nadie se le pasa por la cabeza dar los resultados como un listado de los 1500 valores obtenidos. Habitualmente buscamos una especie de resumen que nos de una idea de cómo es esa variable en nuestra muestra, generalmente calculando una medida de centralización (el medio) y una de dispersión (cómo varían los datos alrededor del medio).
Medidas de centralización
Supongamos que, por alguna razón difícil de explicar, queremos conocer la talla media de los usuarios del Metro de Madrid. Nos vamos a la estación más cercana y, cuando llega el convoy, hacemos bajar a los pasajeros del tercer vagón y les tallamos, obteniendo los resultados de la tabla 1.
Media aritmética
Una vez que hemos recogido los datos, la medida de centralización que primero se nos viene a la cabeza es la media aritmética, que es el promedio de la talla. Todos sabemos cómo se calcula: la suma de todos los valores se divide por el número de valores obtenidos. En nuestro caso su valor sería de 170 cm y nos da una idea del promedio de estatura de los componentes de nuestra muestra.
Pero ahora supongamos que el autobús de la selección nacional de baloncesto ha pinchado las cuatro ruedas y los jugadores han tenido que tomar el metro para ir al partido, con la desgracia para nosotros de que viajan en el tercer vagón. Las tallas que recogeríamos se muestran en la tabla 2. En este caso la media es de 177 cm pero, ¿realmente está cerca del valor promedio de talla de los usuarios del Metro de Madrid?. Probablemente no. En este caso echaríamos mano de otra medida de centralización: la mediana.
Mediana
Para calcular la mediana ordenamos los valores de talla de menor a mayor y tomamos el que ocupa el centro de la lista (tabla 3). Si tuviésemos 15 medidas, la mediana sería el valor de la número 8 (deja 7 por arriba y 7 por abajo). Al ser par, la mediana se calcula como la media aritmética de los dos valores centrales. En nuestro caso 169 + 172 = 170,5 cm, con toda probabilidad bastante más cercano al de la población y muy próximo al del vagón que paramos en el primer ejemplo.
Vemos, pues, que la media resume muy bien los datos cuando éstos se distribuyen de forma simétrica, pero que si la distribución está sesgada la mediana nos dará una idea más acertada del centro de la distribución.
Media geométrica y media armónica
Cuando la distribución está muy sesgada podemos emplear otros dos parámetros que son primos de la media aritmética: la media geométrica y la media armónica.
Para calcular la media geométrica calculamos el logaritmo neperiano de todos los valores, obtenemos su media aritmética y hacemos la transformación inversa exponencial con base e (el número e).
Para la media armónica se calculan los valores recíprocos (1/valor), se calcula la media aritmética y se hace la transformación inversa (que nadie se asuste por la matemática del asunto, los programas de estadística calculan esta clase de cosas casi sin que tengamos que pedírselo). Estas dos medias son muy útiles cuando la distribución está muy sesgada por tener la mayor parte de los valores alrededor de un número y una distribución o cola larga hacia la derecha.
Por ejemplo, si montamos un control de alcoholemia en carretera un lunes a las seis de la mañana, la mayor parte de los conductores estarán muy cerca del cero, pero siempre habrá algunas determinaciones de valores más altos (los que se han acostado tarde y los que prefieren desayunar fuerte). En estos casos cualquiera de estas dos medias daría un valor más representativo que la media aritmética o la mediana.
Moda
Un último apunte sobre otra medida de centralización. Si nos fijamos en los pantalones de nuestros viajeros de metro y vemos que 12 visten vaqueros, ¿qué medida usaríamos para informar de cuál es la prenda de vestir preferida?. En efecto: la moda. Es el valor que más se repite en una distribución y puede ser muy útil cuando estamos describiendo variables cualitativas en lugar de cuantitativas.
Nos vamos…
De todas formas, no hay que olvidar que para resumir adecuadamente una distribución no solo hay que elegir la medida de centralización correcta, sino que hay que acompañarla de una medida de dispersión, de las que también disponemos de unas cuantas. Pero esa es otra historia…
Y hay más y son muy interesantes para evitar el efecto «selección de baloncesto»: media recortada, media winsorizada, estadístico de Huber de localización de la distribución,…