5/23/2017

Defensa contra las artes oscuras: guía para que no te engañen los datos


Cada vez que alguien usa estadísticas para respaldar sus afirmaciones, es realmente difícil que no haya deslizado algún tipo de engaño (voluntario o no) en lo que aparenta ser la validación definitiva de lo que afirma.
El espíritu crítico es una herramienta imprescindible para separar la verdad de la falsedad, y para hacer frente a las amenazas constantes con las que nos enfrentamos. Para vencer al mal y la falsedad, tenemos que estar bien entrenados, como los estudiantes de Howgarts, en la defensa contra estas artes oscuras de la estadística.
Unas veces esos datos que con falsedades se transmiten con buena voluntad, sin malicia: los datos han engañado a alguien en primer lugar, y con mezclas iguales de buena voluntad y desconocimiento, los asumes como verdaderos y, no dudan en compartir su nueva falsa verdad con el mundo. 
Otras veces la falsedad es intencionada. Se trata de intentos deliberados de engañarnos, de darnos gato por liebre.
El ciudadano de a pie, lo mismo que el analista, tiene que aprender a defenderse de los ataques maliciosos y de los ingenuos por igual. Veremos cómo va a ser necesario aprender a chequear unas cuantas cosas antes de aceptar cualquier estadística. En este post nos centramos en:
1.    Correlación no implica causalidad
2.    Ley de los números pequeños
En realidad, deberíamos hacer una lista más completa que incluyera los engaños deliberados (con y sin gráficos) o los relacionados con la ignorancia de otros datos. Conformémonos aquí con estos dos puntos, que dan para un ratito de lectura.

1. Correlación no implica causalidad

La amenaza de esta falacia lógica es constante. Nos la encontramos por todas partes.
Si tenemos dos variables (A y B), decimos que existe correlación, si al disminuir los valores de A lo hacen también los de B y al revés. Cuando la correlación es positiva, si aumenta la frecuencia de una variable, entonces el mismo cambio se refleja en la otra. Por otro lado, en una correlación negativa, las frecuencias exhiben características inversas (una variable aumenta y otra disminuye).
Este es el primer ejemplo que pongo en los cursos para ilustrar qué es una correlación. Imaginemos que pesamos (eje vertical – Y) a un grupo de personas que comen diferentes cantidades de chocolate (eje horizontal – X) por semana. En el gráfico inventado de abajo vemos la correlación. Cuanto mayor es el consumo de chocolate, mayor es el peso de los individuos. Están correlacionados. Por cierto, aunque en estadística usamos muy a menudo el verbo “correlar”, no lo encuentro en el diccionario de la Academia. 

Consumo de chocolate y peso. Un ejemplo inventado. 
Muchas pruebas estadísticas calculan correlaciones entre variables. Cuando dos variables se correlacionan, es tentador asumir que esto demuestra que una variable causa la otra.
De hecho, la práctica más habitual es colocar la variable predictora en el eje de las X y la variable objetivo en la Y. Es decir, en el ejemplo de arriba, se insinúa que el consumo de chocolate (eje X) es la causa del sobrepreso (eje Y). Pero no deberíamos saltar a conclusiones precipitadas. Por el hecho de que aparezcan juntos no podemos lógicamente inferir que entre ambos hay una relación causa y efecto. Existen otras posibilidades que deberíamos considerar antes.
Un ejemplo de causalidad es decir que fumar causa cáncer, mientras que un ejemplo de correlación sería decir que el fumar está relacionado con el alcoholismo. Para establecer una relación causal, tiene que existir correlación. Pero no al revés.

1)    Podría ser que un tercer factor desconocido que sea realmente la causa de la relación entre A y B. Lo que llamamos una variable oculta.

Si constatamos, por ejemplo, que los que entran en la empresa por medio de anuncios tienen peores resultados que los que acceden a un puesto de entre la plantilla de la empresa, ¿tenemos que dejar de publicar anuncios porque ese canal de contratación nos trae peores empleados? ¿Es el canal de contratación realmente la causa? Podría ser. Pero podría haber otras causas diferentes.
En el caso anterior, podría ser verdad o no que el canal sea la causa. Pero podría ser también que sólo ponemos anuncios cuando el puesto es más difícil de cubrir. Si es así, la causa de no encontrar regularmente buenos empleados sería un tercer factor, lo que llamamos una variable oculta: puestos difíciles de cubrir, como analista de RRHH, hacen que tengamos que recurrir a anuncios. Pero como hay tan poca gente preparada en el área, muy a menudo, el desempeño de los que contratamos (que vienen por anuncio) no es bueno. 

-Antes creía que la correlación implicaba causalidad. Entonces me apunté a un curso de estadística. Y ahora ya no lo creo. -Parece que el curso te ayudó. -Bueno, puede ser. http://imgs.xkcd.com/comics/correlation.png
Pero además de la causa oculta, aunque hay más posibilidades para explicar una correlación, vamos a explicar las dos más importantes.

2.    Que B sea la causa de A.

Observamos que los que llevan más tiempo en su puesto tienen un rendimiento menor. ¿Deberíamos entender a partir de estos dos eventos que el rendimiento decae con el tiempo y que, por tanto, hay que mover a la gente de puesto con más frecuencia? ¿Y si fuera al revés, es decir, que el rendimiento menor sea la causa real de que esas personas no cambien de puesto?

“Fumar es bueno para ti”

El médico australiano Dr. William Whitby publicó en 1978 Smoking is good for you). Gran parte de su libro se dedica no sólo a desacreditar la creencia de que fumar causa cáncer de pulmón (o cualquier otra cosa), y el miedo al tabaquismo pasivo, sino también a declarar que fumar es un tratamiento eficaz de muchas quejas en el pecho, incluyendo bronquitis y asma.
Mr. Whitby no duda en desacreditar a la estadística:
¿Cuál es la causa contra el tabaco? La respuesta, parece ser, NINGUNA - al margen de una presunta relación estadística, si vamos a darle algún crédito a las estadísticas. Ya hemos visto lo poco confiable que son las estadísticas. La relación [entre fumar y el cáncer de pulmón] en la mayoría de los casos suele ser sólo aparente debido a que muchos enfermos de cáncer, así como la mayoría de las personas con afecciones en el pecho, fuman para aliviar la tos. Culpar al fumar por el cáncer es poner el carro delante del caballo. 
Desde el campo de la estadística también había voces que apuntaban a la causalidad inversa.
Sir Ronald Fisher, el estadístico más reputado del siglo XX y en los 50 del siglo pasado, escribió:
"La supuesta consecuencia (el cáncer de pulmón) es en realidad la causa, es decir, lo que lleva al sujeto a fumar. Un cáncer incipiente o una condición precancerosa con una inflamación crónica es el factor que induce a fumar cigarrillos". 
Una cosa más, ya en los cincuenta había suficientes estudios que había probado la inequívoca relación de causalidad entre tabaco y cáncer.
Aunque probablemente no sea relevante para juzgar nuestro caso, Sir Ronald Fisher estaba a sueldo de la industria tabaquera en los 50, cuando escribió estas perlas de causalidad inversa.
3.    Que la relación sea tan compleja y numerosa que los hechos sean simples coincidencias.
Para ilustrar estas coincidencias, nada mejor que acudir al sitio de SPURIOUS CORRELATIONS (http://www.tylervigen.com/spurious-correlations). Allí encontramos algunas divertidas correlaciones que nos costaría creer que no fueran puras casualidades.
Seleccionamos tres, pero encontraréis muchas más:
  1. Durante 10 años los suicidios por ahorcamiento se correlacionan con el gasto de EEUU en ciencia.

2. El número de personas que han muerto por caer en una piscina se correlacionan con el número de películas en las que ha aparecido Nicolas Cage entre 1999 y 2009. 

3. Importaciones de petróleo desde Noruega correlacionan con el número de muertos en accidente por choques con trenes.    

4. La paradoja de Simpson y la causalidad

La paradoja de Simpson (el fenómeno fue descrito por vez primera por Edward H. Simpson en un artículo técnico de 1951) sucede cuando una tendencia que aparece en varios grupos de datos desaparece cuando estos grupos se combinan y en su lugar aparece la tendencia contraria para los datos agregados. O sea que parece una cosa al ver los datos en agregado pero que resulta ser la contraria cuando analizamos los datos.
La paradoja de Simpson desaparece cuando se analizan las relaciones causales.

Discriminación por género en la contratación en Berkeley


Por si cabe alguna duda: Homer Simpson no tiene nada que ver en realidad con la paradoja de Simpson, el nombre es por Edward H. Simpson.
Una de los ejemplos mejor conocidos de la paradoja de Simpson ocurrió cuando se presentó una demanda contra la Universidad de California, Berkeley por discriminación contra las mujeres que habían solicitado su ingreso al posgrado. Los resultados de las admisiones para el verano de 1973 mostraban que los hombres solicitantes tenían mayor posibilidad de ser elegidos que las mujeres y que la diferencia era tal que no era posible que fuera debida al azar.

Sin embargo, al examinar los departamentos de forma individual, se encontró que en ningún departamento existía un sesgo contra las mujeres. De hecho, la mayoría de los departamentos había presentado un "pequeño pero estadísticamente significativo sesgo en favor de las mujeres". Los datos de los seis mayores departamentos se listan debajo.

http://vudlab.com/simpsons/
La conclusión fue que las mujeres solían presentar solicitudes en campos competitivos con bajo porcentaje de admisiones (tales como el departamento de lengua inglesa) mientras que los hombres solían presentar en departamentos con menor competencia y mayor porcentaje de admisiones. Las condiciones bajo las cuales los datos de frecuencia de las admisiones de departamentos específicos constituyeron una defensa contra los cargos de discriminación.

Entonces, ¿cómo se demuestra la causalidad?

Para considerar que existe una relación causal entre dos variables, tenemos que demostrar que una es responsable de la aparición de la otra.
El método estándar para poder demostrar una relación de causalidad existe entre dos variables correlacionadas es realizar un experimento controlado. Este artículo de Khan Academy lo explica muy bien. Las personas que participan en el test se asignan al azar al grupo que recibe el tratamiento bajo investigación (la posible causa) o a un grupo que recibe tratamiento estándar (o tratamiento con placebo) como grupo de control.
# 2 Una muestra demasiado pequeña: la ley de los números pequeños
La creencia en la ley de los números pequeños describe la fuerte tendencia que todos tenemos a creer que la información obtenida en una pequeña muestra, será representativa de la población total. Daniel Kahneman (premio nóvel de economía) y Tversky inventaron este nombre. Hacían una parodia de la conocida ley de los números grandes.
Según la ley de los números grandes en un dado equilibrado hay 1/6 de posibilidades de que aparezca un número en concreto (el 5 por ejemplo) cada seis tiradas. Si lanzamos el dado solo seis veces (aquí está nuestro número pequeño), hay bastantes posibilidades de que uno de los números (el 2 por ejemplo), o bien de que no salga, o de que salga dos veces o incluso tres.
Pero si seguimos lanzando el dado y efectuamos cientos o miles de tiradas, cada número irá progresivamente ajustándose al 1/6 de probabilidades que le corresponde. Esa es la ley de los grandes números.
A la ley de los números pequeños se le conoce por otros nombres también, como la generalización apresurada, falacia de la muestra insuficiente o simplemente saltar a una conclusión.
Imaginemos:
1.    Aureliano es alto y supera la media de ventas de la empresa
2.   Remedios es alta y supera la media de ventas de la empresa.
Por lo tanto, todas las personas altas son mejores vendedores. Al menos en mi empresa.

Os va a costar aceptar esta demostración de que los números pequeños engañan SIEMPRE.

Supongamos que tenemos un bote 100 bolas. Sabemos que exactamente la mitad son rojas y la mitad verdes (50 y 50 por tanto).
Imaginemos que nos dedicamos a sacar 4 bolas elegidas aleatoriamente del bote. Contamos los resultados y las devolvemos al bote. Repetimos este proceso miles de veces. Yo mismo hago con cierta frecuencia el experimento de las bolas (sólo en las clases) y os voy a enseñar cómo hacerlo un poco más abajo. No os preocupéis que sólo se necesitan 20 segundos para hacerlo.
¿Si tomamos una muestra aleatoria de cuatro bolas, que probabilidad existe de que obtengamos muestras que incluyen 2 bolas rojas y 2 verdes?
He hecho esta pregunta docenas de veces en mis cursos. La respuesta casi universal, si exceptuamos algún “resabiao”, es “el 50%”.
Y no es así. La respuesta correcta es de 37.5 %.
 Adelanto que os va a costar aceptarlo. El mismo Kahneman llega a confesar que a él mismo le costó superar esta intuición errónea.
Miremos esto que llamamos el espacio muestral (“sample space”). En la teoría de probabilidades, el espacio muestral consiste en el conjunto de todos los posibles resultados de un experimento aleatorio.

Espacio muestral para "tiradas" de 4 bolas con reposición
Sólo el 37.5% de las veces sacamos en realidad 2 bolas rojas y 2 verdes. No el 50% como nos pide el cuerpo responder. El 50% de las veces son tres de cada color y el 12.5%.

Podéis hacer este experimento en casa, sin peligro!

Una vez solo llevé a un bote equivalente al de la demostración a un curso, sólo que lleno de caramelos rojos y verdes, en lugar de bolas. Fue la primera y la última vez. Clara Cabañas iba sacando caramelos de 4 en 4. El experimento fue un poco caótico, la verdad. Y además nada práctico. Porque, ¿cómo se repite una prueba de esta miles de veces en menos de 5 minutos, que es el tiempo que le correspondía a este experimento fallido. 
Para empeorar las cosas, al acabar el curso, la gente de la empresa no dudó en ir comiéndose a hurtadillas las evidencias científicas del bote (los caramelos). De los 100 caramelos originales pasaron pronto a 90, 80… Un último caramelo de menta, el de la vergüenza, sobrevivió durante casi un año en el bote casi vacío que nos miraba melancólico desde mi mesa. Conservo el bote en mi casa y estoy pensando en donarlo a la ciencia cuando muera.
Así que para el siguiente curso preparé un script que simulaba el mismo proceso con R. Se puede ejecutar cuantas veces queráis para simular 1000, 10.000 o 100.000 “tiradas” en la línea 6 (while i < 1000).
Comprobaréis que los resultados son los del espacio muestral. Podéis hacer el experimento cuantas veces queráis.

Cómo ignorar la ley de los números pequeños le costaron 1.7 billones de dólares a Bill y Melisa Gates

Esta es la historia de cómo la Fundación Bill y Melisa Gates desperdició 1.7 billones de dólares porque no tuvo en cuenta la ley de los números pequeños. Podéis leer el caso en el primer capítulo del libro Picturing the Uncertain World de Howard Wainer (gratuito).

La urbanización que caracterizó el siglo XX en Estados Unidos dio lugar al abandono del estilo de vida rural y, con ello, al aumento del tamaño de las escuelas. En el mayorirtariamente paisaje urbano las pequeñas escuela rurales fueron reemplazados por grandes escuelas, a menudo con más de mil estudiantes.
Sin embargo, durante el último cuarto del siglo XX, creció la insatisfacción con las escuelas grandes y cada vez más gente comenzó a preguntarse si las escuelas más pequeñas podrían proporcionar educación de mejor calidad.
Desde finales de los años noventa, la Fundación Bill y Melinda Gates empezó a apoyar a las escuelas pequeñas. En 2001, la Fundación había otorgado donaciones a proyectos de educación por un total aproximado de 1.700 millones de dólares. La disponibilidad de grandes cantidades de dinero para implementar una política de escuelas más pequeñas produjo un aumento proporcional de la presión para transformar grandes escuelas en escuelas pequeñas.
Era bastante intutivo pensar que cuando las escuelas son más pequeñas, los resultados de los estudiantes mejoran. Ya sabéis, la atención personalizada y todo eso.
Pero es que además existían estudios que “demostraban” que las escuela pequeñas obtenían mejores resultados que las grandes.
Tomemos un ejemplo de estos estudios. Si examinamos las puntuaciones medias de las 1662 escuelas de Pensilvania en sus calificaciones de lectura del quinto grado, encontramos que de las cincuenta escuelas top (el 3% de las mejores), seis de ellas eran del grupo de escuelas pequeñas. Esto significaba que había una sobre-representación por un factor de cuatro. Si el tamaño de la escuela no estaba relacionado con los resultados, se esperaría que solo el 3% de las escuelas pequeñas estuviera en este grupo selecto, y encontramos el 12%.

¿Debemos extraer de aquí la conclusión de que las escuelas pequeñas son 4 veces mejores que las grandes?
Por lo visto los Gates así lo creyeron. Pero, ¡un momento! Si echamos un vistazo a las 50 peores escuelas, las que tienen las puntuaciones más bajas, Nueve de ellas (el 18%) eran de las escuelas más pequeñas: 6 veces más de lo que les corresponde.
Mirad el gráfico de abajo donde los cuadrados representan a las escuelas pequeñas con los mejores resultados y los círculos a los peores.

Picturing the Uncertain World de Howard Wainer.
Lo que sucede aquí es que las escuelas más pequeñas tienen una varianza más alta y, por lo tanto, están sobre-representadas en ambos extremos. Pero es que además la línea de regresión muestra una pendiente positiva significativa, que nos dice que cuanto mayor es el número de estudiantes de una escuela (eje horizontal), los resultados mejoran (eje vertical).
¡¡¡¡Oooopsss!!!
En octubre de 2005, La Fundación Gates anunció que se alejaba de su énfasis en convertir grandes escuelas secundarias en escuelas más pequeñas. Los líderes de la Fundación dijeron que habían llegado a la conclusión de que el tamaño no era importante. El portavoz concluyó:
"Me temo que hemos hecho un pésimo servicio a los niños".
Ignorar esta ley salió un tanto caro.
==============================================================
People Analytics Pro es el primer máster que enseña a los profesionales de RRHH a dominar las técnicas analíticas necesarias para evaluar y resolver problemas de sus área de desempeño como reclutamiento, gestión del talento, compensación o retención.