sábado, 20 de noviembre de 2021

56 B/SS. Elogio de los logaritmos

Tras leer mi post de ayer, a Juanjo Gibaja, profesor de Econometría en la Universidad de Deusto, que corrió la 56 B/SS, acompañando a su hija Ainhoa, en 1:39:15 (tiene 1:36.36 de 2019), le faltó tiempo para ponerme un whatsapp con este texto: 'Me puedes pasar en un excel solo la columna de los tiempos de los llegados a meta? No me interesan ni nombres ni nada de nada... Es para ver si la distribución es normal o no. Si incluyes además el género del corredor, mucho mejor. Yo diría que tiene que tratarse de una mixtura de dos campanas de Gauss, una por género, que al agregarlas, da esa distribución.'

Hoy, a media mañana, he recibido varios whasapps, tipo ametralladora: 'Hola, Gabriel' 'Tienes correo' 'Ya me dirás qué te parece' 'Me lo he pasado como un cochino en el barro' 'He procurado escribirlo 'con manzanas'' 'Pero hay alguna cosa que, igual, no es TAN fácil de entender' 'Ya me dirás' 'Por cierto, con los datos da para mucho análisis' 'Además de la normalidad o no de los datos, que es bastante anecdótica' 'Por ejemplo, el análisis de los tiempos por género y categoría, lleva a cosas obvias: los chicos más rápido que las chicas y los mayores más lentos que los más jóvenes, pero...' 'Me ha llamado la atención algo que, a lo mejor, merece echarle un vistazo: la enorme variabilidad de los tiempos de los veteranos más mayores' ' Hay veteranos de la categoría VET4 que corren MUY rápido'.

Bueno, tras este preambulo, allá va lo que nos cuenta alguien que sabe de verdad de datos. Empieza con una pregunta:

¿Siguen los tiempos de llegada en la BSS de 2021 una distribución normal?

En primer lugar, cambiamos el formato de los tiempos de llegada a meta para expresarlo en segundos. De esa forma podemos trabajar con mayor comodidad.

A continuación, calculamos la media aritmética y la desviación estándar de los tiempos de llegada para el conjunto de corredores.

• Media aritmética: 6337,493 segundos, es decir, 1:45:37
• Desviación estándar (qué tan dispersos están los datos con respecto a la media): 926 segundos, es decir, 0:15:26

La hipótesis a contrastar es, por tanto, que los tiempos de llegada de los corredores siguen una distribución normal de media 6337,493 segundos y desviación estándar 926 segundos.

Para contrastar esta hipótesis vamos a comparar dos valores para cada uno de los 19424 corredores llegados a meta:

• El cuantil de la muestra, que no es otra cosa que su tiempo efectivo de llegada a meta.
• El cuantil teórico. Para calcular el cuantil teórico debemos realizar algunos cálculos intermedios:

o Debemos calcular qué proporción de corredores terminó la carrera en un tiempo inferior o igual al de dicho corredor. Llamemos k a dicha proporción.
o Debemos consultar las tablas de la distribución normal (la famosa campana de Gauss) para determinar qué tiempo debería haber hecho un corredor que hubiera sido superado por el k% de corredores si la distribución de los tiempos de llegada fuera normal, con la media y desviación estándar indicadas más arriba.

Por ejemplo, para el corredor anónimo que terminó la carrera en 1:39:16 en la posición 6872 de 19424 corredores, los cálculos son los siguientes:

• El cuantil de la muestra es 1:39:16, en segundos, 5956 segundos.
• El cuantil teórico supone realizar los siguientes cálculos:

o Como el corredor llegó en la posición 6872 de 19424 corredores, la proporción de corredores que terminaron la carrera en un tiempo igual o inferior al de dicho corredor fue 0,3538 (o 35,38%).
o A continuación, consultando las tablas de la distribución normal (campana de Gauss) encontramos que el tiempo en segundos que debería realizar un corredor que es superado por el 35,38% de los corredores bajo el supuesto de una distribución normal de media 6337,493 segundos y desviación estándar de 926 segundos es de 5990 segundos, es decir, 1:39:50. Este dato lo podemos encontrar mediante la función de Excel =INV.NORM(0.3538;6337.493;926).

• En definitiva, el corredor realizó un tiempo de 1:39:16 cuando un corredor que ocupara su posición debería haber corrido en 1:39:50 bajo el supuesto de una distribución normal de la media y desviación estándar especificadas.

Si repetimos estos cálculos para el conjunto de los 19424 corredores y representamos gráficamente los resultados alcanzados, obtenemos el siguiente Q-Q plot (gráfico cuantil-cuantil).
Si los tiempos reales coincidieran perfectamente con los tiempos teóricos, no habría evidencia en contra de la hipótesis de que los datos siguen una distribución normal. En ese caso, los puntos del gráfico estarían perfectamente alineados sobre la recta trazada (que indica igualdad entre el tiempo previsto bajo una distribución normal y el tiempo efectivamente realizado). Sin embargo, se aprecia que claramente, ese no es el caso:

• Por una parte, entre los corredores más rápidos (los situados en la parte inferior izquierda del gráfico), con tiempos teóricos y reales de llegada a meta muy bajos, se observa que los tiempos realizados son superiores a los que esperaríamos en el caso de que la distribución fuera normal (los puntos se encuentran “por encima” de la recta). De hecho, bajo el supuesto de una distribución normal esperaríamos que los primeros dos o tres corredores llegaran a meta en un tiempo inferior a los 3000 segundos (50 minutos) lo que, por ahora, parece muy poco verosímil.

• Por otra parte, entre los corredores más lentos (los situados en la parte superior derecha del gráfico), con tiempos teóricos y reales de llegada a meta muy altos, se observa también que los tiempos efectivamente realizados son superiores a los que esperaríamos en el caso de que la distribución fuera normal. Por ejemplo, el tiempo teórico más alto no llega a los 10000 segundos, pero el tiempo efectivo más alto los supera sobradamente.

En definitiva, los datos presentan fuerte evidencia en contra de la distribución normal de los tiempos de llegada.

Pero, ¿qué ocurre si transformamos los datos?

Si realizamos una transformación de los datos, las cosas cambian de forma bastante radical. Si en lugar de considerar el tiempo de llegada a meta en segundos, calculamos su logaritmo neperiano ocurre lo siguiente:

Variable a estudiar: logaritmo neperiano del tiempo de llegada efectivo de los corredores

• Media aritmética: 8,7436 (Cuidado, no es el logaritmo neperiano de la media de los tiempos originales sino la media de los logaritmos neperianos de los tiempos originales).
• Desviación estándar: 0,1460 (Cuidado, no es el logaritmo neperiano de la desviación estándar de los tiempos originales sino la desviación estándar de los logaritmos neperianos de los tiempos originales).

Para ver si los logaritmos neperianos de los tiempos de llegada siguen una distribución normal, deberíamos seguir los mismos pasos que en el caso anterior. Tomemos de nuevo el caso del corredor anónimo que llegó a meta en 1:39:16 en la posición 6872 de 19424 corredores.
• Cuantil de la muestra: ln(5956)=8,692
• Cuantil teórico: 8,688. Este dato se puede conseguir con la función de Excel =INV.NORM(0.3538;8.7436;0.1460).

En definitiva, el logaritmo neperiano del tiempo de llegada de este corredor fue de 8,692 (equivalente a 1:39:16) cuando el logaritmo neperiano de su tiempo de llegada bajo el supuesto de una distribución normal de la media y desviación estándar especificadas debería ser 8,688 (equivalente a 1:38:56).

Si repetimos los cálculos con los 19424 corredores llegados a meta y representamos gráficamente los resultados obtenidos, llegamos a lo siguiente:


En este caso, aunque existen pequeñas desviaciones respecto de la recta que indica la total igualdad de valores teóricos y reales (sobre todo en los corredores más rápidos y más lentos), éstas son muy inferiores a las detectadas en el caso de trabajar con valores originales (sin logaritmos). Podemos por tanto decir que es razonable pensar que los logaritmos de los tiempos de llegada siguen una distribución normal o, lo que es equivalente, que los tiempos de llegada de los corredores siguen una distribución log-normal (para más detalles, ver https://en.wikipedia.org/wiki/Log-normal_distribution).

NB: Aunque existen múltiples test para contrastar la hipótesis de normalidad en los datos (Jarque-Bera, Kolmogorov-Smirnov, Shapiro-Wilks,…) se ha decidido seguir un enfoque gráfico-exploratorio, ya que el gran tamaño de muestra hace que la capacidad de estos tests de detectar pequeñas desviaciones de la normalidad nos lleve a concluir que las distribuciones no son normales.

Estoy seguro de que los frikis de los números (como yo, que, por cierto, me veo representado en la media: 1:45:37, porque terminé en 1:45:26), habréis disfrutado como cochinos en el barro (Juanjo Gibaja dixit). Y los demás, los normales, quizá hayáis sentido la tentación de desempolvar los logaritmos.

Y si Juanjo se anima, igual nos sigue sorprendiendo e instruyendo. Yo ya estoy salivando.


No hay comentarios:

Publicar un comentario