Encuestas en RRHH: guía de 3 pasos para tener datos más válidos y fiables ~ Analyze It. Data Science and analytics

Es muy sensato y saludable dudar de los resultados de las encuestas que hacemos en RRHH. Veremos cómo podemos hacer estudios más válidos y fiables, siguiendo una guía de 3 pasos. =======================================================NOTA: si, por alguna razón, eres del perfil impaciente o super-práctico, y quieres llegar cuanto antes la guía de 3 pasos, haz scroll hacia abajo. Un rato más bien largo. Porque entre estas líneas y la guía se interponen unos cuantos párrafos que hablan de conceptos sensatos como la reproducibilidad y el escepticismo científico o Kahneman, junto a otros más ligeros como el de Descartes y los Expedientes X. Os reconozco que tengo cierta tendencia al exceso locuaz, seguramente por mi turbio pasado de humanista. Los contenidos que son propiamente de la guía los identificarás rápidamente por los números que preceden a cada título. Resumiendo, si quieres ir al grano, haz scroll, hasta encontrar el punto 1 de la guía: 1. Busquemos datos que puedan contradecir los resultados de la encuesta. ======================================================

Encuestas 360º y otros estudios

Muchísimas personas que trabajan en los departamentos comparten su escepticismo acerca de la fiabilidad de todas esas evaluaciones 360º y otras encuestas similares.

Los grados de los 360º, por si no estáis familiarizados con la jerga, se distribuyen así:

90º = Evaluación de jefes inmediatos

180º= Jefe + Colegas (“inter pares”)

270º = Jefes + Colegas + Subordinados

360º = Jefes + Colegas + Subordinados + Clientes

http://blog.peoplenext.com.mx/hubfs/evaluacion_360_grados-1.png?t=1493135032584

Y no será porque estas encuestas no tengan éxito:

El 90% de las empresas que están en la lista de Fortune 500 aplican algún tipo de evaluación de 360 grados

Pero tranquilos porque no estamos solos. Las mismas dudas se sienten a menudo, sobre los resultados de otras encuestas y tests: las encuestas políticas, las de opinión, los resultados de los exámenes, etc. 

Y, por si fuera poco, la duda llega a los estudios científicos más sesudos. Incluyendo los de biomedicina.

Mal de todos…

Veamos por qué no nos falta razón al dudar.

Motivos para dudar: el proyecto de Reproducibilidad

La reproducibilidad se refiere a la capacidad de un experimento de ser reproducido o replicado por otros estudios científicos. La reproducibilidad es uno de los pilares del método científico. El procedimiento para comprobar si los resultados de un experimento son generalizables es volverlo a hacer: otros investigadores independientes repiten el mismo experimento por sí mismos, basándose en la descripción del experimento original, y comprueban si su nuevo experimento tiene resultados similares a los comunicados por el experimento original.

Dentro del campo de la Psicología, que es el que más se aproxima a la materia sobre la que trabajan muchas de las encuestas a personas, fijaos en las conclusiones del Proyecto de Reproducibilidad.

Investigadores de la Universidad de Virginia buscaron replicar 100 estudios sobre psicología publicados en 2008. El proyecto extrajo estos estudios de tres prestigiosas revistas del área:  Psychological Science, Journal of Personality and Social Psychology y Journal of Experimental Psychology: Learning, Memory, and Cognition

 En las publicaciones originales, tal y como se publicaron en las revistas, 97 de estos 100 estudios afirmaron tener resultados estadísticamente significativos.

Para ser capaces de reproducir los experimentos de la manera más fiable posible, el grupo de investigadores del Proyecto Reproducibilidad se tomó muy en serio el permanecer fieles a los estudios originales, a menudo incluso consultaron a los autores originales de los experimentos.

Pues bien, a pesar de todas las medidas adicionales adoptadas para asegurar las mismas condiciones, sólo el 36,1% de los estudios se pudieron replicar. Y entre los que se pudieron reproducir, sus efectos fueron más pequeños que los estudios iniciales.

De los 100 estudios analizados por el Proyecto de Reproducibildiad, sólo el 36,1% de ellos fueron capaces de replicar sus resultados. Y los estudios que replicaron resultados, lo hicieron con valores más pequeños que en los originales.

¿De dónde viene el problema?

Entre los autores del Proyecto de Reproducibilidad se encuentra John Ioannidis, que es el autor de "Why Most Published Research Findings Are False" (¿Por qué la mayoría de los estudios publicados son falsos?), la publicación científica más descargada de la revista PLoS Medicine. Ioandinis es además la referencia contemporánea de la disciplina de la meta-investigación (Meta-Research), que busca mejorar la veracidad de los estudios científicos, investigando la validez de sus resultados. Tal y como lo expresa él mismo:

"La ciencia es lo mejor que les ha pasado a los seres humanos…pero podemos hacerlo mejor". John Ioandinis.

Ioandinis apunta varios factores que contribuyen a la falsedad de las conclusiones en estudios científicos, como como la apofenia, la tendencia a ver patrones en información en lo que en realidad son resultado aleatorios, el sesgo de confirmación, la tendencia a enfocarse en evidencia que está en línea con las propias expectativas, o el sesgo restrospectivo, que considera predecible un evento solamente después de que este ha ocurrido, es decir, que sucede cuando, una vez que se sabe lo que ha sucedido, se tiende a modificar el recuerdo de la opinión previa a que ocurrieran los hechos, en favor del resultado final. Es como decimos en el refrán: hablar a toro pasado.

Pero aún hay más…

Descartes nos explica el porqué de los Expedientes X

Descartes, el padre de la duda sistemática y antecesor del método científico, nos explicaba ya en el siglo XVII el porqué de las pintorescas conclusiones que nos encontramos en, por ejemplo, en The X-Files (en España: Expediente X y en Latinoamérica: Los expedientes secretos X).

En realidad solo deberíamos señalar a Fox Mulder y su poster de “I want to Believe” que luce inquietante en su despacho. Porque la pareja de protagonista de la serie tenía dos personajes bien opuestos: Dana Scully, una científica escéptica y una experimentada doctora en Medicina. Mientras que Fox Mulder es el creyente en el fenómeno ovni, a quien sus colegas apodan «siniestro» (spooky, en la versión original).

El poster de “I want to believe” del despacho de Fox Mulder en los Expedientes X

Descartes sostiene que si uno sólo hiciera juicios sobre lo que entiende clara y meridianamente y se abstuviera de hablar sobre cosas que no sabe, entonces el error se evitaría por completo.

Nos cuenta el filósofo y matemático francés que la finitud del intelecto junto con esta aparente infinitud de la voluntad de llegar a todas partes es la fuente del error humano. Dicho de otra manera: 

Sabemos poco, los caminos del conocimiento son lentos y pesados, pero no nos conformamos con ello, y aspiramos a entenderlo todo. Y por eso saltamos a conclusiones precipitadas: queremos creer para entender

Meterse en camisa de once varas

Se aplicaría aquí un poco el refrán ese de meterse en camisa de once varas. Meterse en una situación complicada. Por cierto, el dicho, según la Wikipedia, tiene su origen se sitúa en la Edad Media, en la ceremonia de adopción de un niño. El padre debía meter al niño por la manga de una camisa grande hecha para la ocasión. Luego lo sacaba por la cabeza o el cuello de la prenda y el padre le daba un fuerte beso en la frente como prueba de la aceptación de la paternidad. Y como a los de People Analytics nos va lo de medir y lo de dudar, añadiré que el dicho refleja una exageración en las dimensiones de la camisa, la cual no podía medir once varas, ya que una vara son unos 84 centímetros. Así, la camisa mediría 9,24 metros. Como un edificio estándar de planta baja, primero y segundo piso. No creo yo que fabricaran camisas así en la Edad Media, si no es con la ayuda de los personajes mágicos que abundaban, según parece, en la época.

Daniel Kahneman lo confirma: nos pierden las explicaciones rápidas

Daniel Kahneman es un psicólogo israelí que ganó el Premio Nobel de Economía por sus estudios que relacionan la economía y la toma de decisiones.

Kahneman dedica buena parte de su libro  Pensar rápido, pensar despacio a desenmascarar los sesgos, es decir, los errores sistemáticos del pensamiento humano.

Nuestro cerebro, afirma Kahneman, tiene dos sistemas muy diferentes de funcionamiento. El sistema 1 es el del pensamiento rápido, con el sistema 1 tomamos las decisiones inmediatas e intuitivas, las que surgen de forma automática y sin esfuerzo. El sistema 2 requiere más esfuerzo y es más lento, reflexivo y lógico.

En muchos experimentos psicológicos, Kahneman nos demuestra que a los humanos lo que nos gusta es saltar rápidamente a conclusiones, pensar con el sistema 1, con el pensamiento rápido y que estamos tan tozudamente convencidos de la validez de nuestras decisiones erróneas que incluso cuando nos demuestran lo ilógico y equivocado de nuestra opción nos negamos a aceptar la evidencia.

Los humanos tenemos una confianza excesiva en lo que creemos que sabemos y nos cuesta enormemente aceptar que el mundo es realmente más complejo de lo que nos gustaría que fuera.

Como dijo H.L. Mencken, un periodista americano que defendió con pasión la libertad de conciencia y de los derechos civiles y puede ser considerado como uno de los principales escépticos americanos del siglo xx:

"Para cada problema complejo hay una respuesta clara, simple y equivocada". H. L. Mencken

Seamos escépticos: queremos saber, no creer.

El escepticismo es una herramienta imprescindible para separar la verdad de la falsedad. El escepticismo nos exige que toda la información esté sustentada por la evidencia.

Un científico escéptico evalúa cualquier afirmación basándose en la verificabilidad, falsabilidad y reproducibilidad en lugar de aceptar afirmaciones o teorías basadas en fe, anécdotas, fuentes poco veraces o confiar en hechos/afirmaciones que no se pueden refutar.

Como dijo el viejo Descartes:

“Si buscas realmente la verdad, será necesario que al menos una vez en la vida dudes, tanto como sea posible, de todas las cosas” Descartes, El discurso del método (1637)

O incluso un poco más allá, deberíamos mantenernos permanentemente alerta para no aceptar como acierto aquello que no lo es.

Ahora sí, por fín, podemos empezar con la guía de 3 pasos guía para tener datos más válidos y fiables

1. Busquemos datos que puedan contradecir los resultados de la encuesta

En este territorio lleno de confusión resulta muy recomendable acudir a la segunda regla de supervivencia de Zombieland en busca de orientación. Zombieland es una comedia estadounidense de zombis. El protagonista, Columbus (el segundo por la izquierda en la foto de abajo) maneja una lista de normas de supervivencia creadas por él a partir de su experiencia de superviviente.

Nuestra guía de 3 pasos, igualmente, se basa en casos reales. Personalmente, pienso que la mitad del valor que aporto a los equipos de datos en los que trabajo viene de mi tendencia natural y reforzada por años de cuestionarlo casi todo, de ser un “dudador” sistemático, como nos propone Descartes.

En Zombiland, la segunda norma de supervivencia de Columbus nos enseña algo que tiene muchísimo sentido tanto en el mundo postapocalíptico de la película y como en nuestro mundo de People Analytics: 

#2 Matar y rematar. En los momentos en los que no estés seguro […], no racanees con las balas.

https://www.youtube.com/watch?v=O6RhEsoC-xk

Dos enfoques para aplicar esta regla que nos invita a la confirmación de los resultados:

1.1. Busquemos evidencias que contradigan los resultados o resulten sospechosos. Aplicando nuestro escepticismo a los resultados de las encuestas, deberíamos seguramente preguntarnos por otras evidencias que pueden contradecir los resultados obtenidos. Busquémoslas. Por ejemplo ¿Es el grupo con mejores puntuaciones en desempeño el que mejores ratios de rentabilidad obtiene? ¿Y al revés? ¿Hay intereses evidentes en algún grupo respecto al tipo de respuestas que encontramos?

1.2.Reproducibilidad. El procedimiento para comprobar si los resultados de un experimento son generalizables es volverlo a hacer. O al menos una variante metodológica que nos confirme los resultados. ¿Podríamos hacer un panel para obtener datos que confirmen o refuten los hallazgos de la encuesta?

2. Comprobamos matemáticamente la fiabilidad del test midiendo la consistencia de las respuestas

Para entender plenamente lo que hace una buena medida, es necesario hacer referencia a algunas ideas centrales relacionadas con la teoría de la medición de la encuesta.

La teoría de la medición sostiene (entre una serie de cosas) que una medida tiene dos ideas clave vinculadas a ella: un "constructo" (también llamado “variable latente”) y un "indicador" (Abreu, 2012).

El constructo es una construcción teórica, un objeto conceptual, que se desarrolla para resolver un cierto problema científico. Se consideran constructos, entre otros, el “Talento”, el “Engagement” o la “Capacidad de aprendizaje”.

A diferencia de lo que ocurre en otros campos de la ciencia, muchos de los conceptos manejados en el ámbito de la psicología y los Recursos Humanos no son directamente observables (son “constructos”), por lo que, para medirlas, requieren del apoyo de indicadores indirectos.

En Recursos Humanos, es muy común tratar de medir algo que no puede medirse fácilmente, como la “motivación”, “el alineamiento con la cultura de la empresa”, «talento», el «compromiso» o el «liderazgo». Por desgracia, no se trata de una medida visible. En su lugar, debe evaluarse lo que se puede medir directamente, como por ejemplo respuestas a una pregunta de una encuesta, y luego medir cuán estrechamente se piensa que esas medidas directas reflejan realmente lo que trata de medirse.

Al tratar de medir una cualidad no directamente observable como la motivación, la alineación con la cultura de la empresa o el talento en una población de sujetos en una organización, se miden en realidad n índices que sí son observables (las respuestas a un cuestionario de los responsables) de cada uno de los sujetos.

El Alfa de Cronbach

Lee Joseph Cronbach, un psicólogo estadounidense conocido por sus trabajos de psicometría y sobre todo por la medida de fiabilidad que lleva su nombre: el coeficiente Alfa de Cronbach.

Se toma como suposición que los índices están relacionadas con la magnitud inobservable de interés (talento, motivación, …). Para poder validar estos índices, deben contener mediciones estables y consistentes, con un elevado nivel de correlación entre ellos.

El alfa de Cronbach permite cuantificar el nivel de validez de una escala de medida para un concepto inobservable construido a partir de los n indicadores observados. Desde SPSS es un análisis muy fácil de llevar a cabo.

El coeficiente Alfa de Cronbach es un modelo de consistencia interna, basado en el promedio de las correlaciones entre los ítems. Entre las ventajas de esta medida se encuentra la posibilidad de evaluar cuánto mejoraría (o empeoraría) la validez de la prueba si se excluyera un determinado ítem.

El alfa de Cronbach no es un estadístico al uso, por lo que no viene acompañado de ningún p-valor que permita rechazar la hipótesis de validez en la escala. No obstante, cuanto más se aproxime a su valor máximo, 1, mayor es la validez de la escala. Además, en determinados contextos y por tácito convenio, se considera que valores del alfa superiores a 0,7 o 0,8 (dependiendo de la fuente) son suficientes para garantizar la validez de la escala.

En realidad, las escalas tenderán a situarse entre 0 y 1.

Tabla 1 - Interpretación del alfa de Cronbach

3. Juzgamos a los jueces. Comprobamos matemáticamente la validez de sus juicios.

Los 18 jueces de la Corte Penal Internacional. Los he contado y están todos.

En los tests que sirven de fuente de datos para el análisis, los empleados no son los que se evalúan a sí mismos. En su lugar los jefes, sus compañeros de equipo o los clientes los que evalúan a cada sujeto. Las calificaciones obtenidas, por tanto, están sujetas a error y a variabilidad. Los jueces podrían ser muy parciales.

Una estimación de la fiabilidad del evaluador puede revelar qué proporción de sus calificaciones es "real", es decir, que representa realmente el constructo subyacente que se está evaluando.

La investigación con el algoritmo Intra-Class Correlations lleva a responder a la pregunta:

¿Hasta qué punto están de acuerdo los evaluadores en sus evaluaciones?

 Si los evaluadores no están de acuerdo en los índices de talento que asignan a sus compañeros, entonces no pueden considerarse sus índices como válidos.

Por cierto, el algoritmo ICC (Intra-Class Correlations) tiene las mismas siglas en inglés que la Corte Penal Internacional de la Haya. La International Criminal Court - ICC , tiene jurisdicción para juzgar los crímenes de genocidio, crímenes contra la humanidad y crímenes de Guerra. Tiene 18 jueces. Los de la foto de más arriba al comienzo de este párrafo.

Para aplicar ICC con SPSS, os recomiendo la guía Computing Intraclass Correlations (ICC) as Estimates of Interrater Reliability in SPSS.

Veréis, que, en realidad, trabajar con ICC para evaluar a los jueces nos requiere elegir entre seis fórmulas diferentes de entre la que hay que elegir la que se ajusta al contexto sobre el que hay que evaluar a los jueces.

·     ICC (1). Un número fijo de evaluadores a los que se les asigna un número aleatorio de casos. Es poco común. Es muy útil sólo con tareas de codificación masivas.

·     ICC (2). Un número aleatorio de evaluadores a los que se les asignan todos los casos.

·     ICC (3). Número fijo de evaluadores que evalúan todos los casos. Es el caso de Talent Plus. 

Hay una segunda decisión que debe tomarse en la selección del estimador ICC: es posible evaluar la fiabilidad de un solo evaluador, o la media de todos ellos.

Interpretación del ICC

La evaluación más comúnmente aceptada es la siguiente:

·     Menos de 0.40-Pobre.

·     Entre 0,40 y 0,59-Aceptable

·     Entre 0,60 y 0,74-Bueno.

·     Entre 0,75 y 1,00-Excelente.

Quizás algún día podamos revisar paso a paso casos reales en que hemos hecho aplicando el Alpha de Cronbach e ICC. Basta con que lo pidáis.

==============================================================

People Analytics Pro es el primer máster que enseña a los profesionales de RRHH a dominar las técnicas analíticas necesarias para evaluar y resolver problemas de sus área de desempeño como reclutamiento, gestión del talento, compensación o retención.

Menu

Analyze It. Data Science and analytics

A Blog about Data Science, Data, and Business. By Eduardo Valencia

5/16/2017

Encuestas en RRHH: guía de 3 pasos para tener datos más válidos y fiables

Encuestas 360º y otros estudios

Motivos para dudar: el proyecto de Reproducibilidad

¿De dónde viene el problema?

Descartes nos explica el porqué de los Expedientes X

Meterse en camisa de once varas

Daniel Kahneman lo confirma: nos pierden las explicaciones rápidas

Seamos escépticos: queremos saber, no creer.

1. Busquemos datos que puedan contradecir los resultados de la encuesta

2. Comprobamos matemáticamente la fiabilidad del test midiendo la consistencia de las respuestas

3. Juzgamos a los jueces. Comprobamos matemáticamente la validez de sus juicios.

Interpretación del ICC

About Me

Descargar Data Coaching

Google Analytics Individual Qualification

Inbound Certified

Web Analytics Certificate

SEO Certificate

CRO Certificate

Contacta con Eduardo

Post Populares