9/22/2015

¿Qué es Big Data? La definición definitiva


(Extraído de Data Coaching. Un librito sobre datos y beneficios)

En el famosísimo y mencionadísimo BIG DATA (con letras grandes) hay una GRAN falta de consenso acerca de lo que es el BIG. Y me gustaría añadir mi propio granito de confusión al montón que ya existe.

Dan Ariely, el autor de Predictably Irrational ya ese estado de confusión cuando dijo en 2011 (http://on.fb.me/1PpQcYG).

Big Data es como el sexo en la adolescencia: todo el mundo habla de él, nadie sabe cómo hacerlo, todos creen que los demás lo están haciendo y, claro, todos dicen que lo hacen. 

Big Data es como el sexo en la adolescencia: todo el mundo habla de él, nadie sabe cómo hacerlo, todos creen que los demás lo están haciendo y, claro, todos dicen que lo hacen.

Descripción: Macintosh HD:Users:eduardovalencia:Dropbox:datacoaching:manuscript:images:adolescentes.jpg
Me voy a la Wikipedia y encuentro:

Datos masivos es un término que hace referencia a una cantidad de datos tal que supera la capacidad del software habitual para ser capturados, gestionados y procesados en un tiempo razonable.

Las negritas las he puesto yo. Porque ¿de qué habla cuando dice software habitual? ¿Habitual cuándo? Peligro, piso deslizante. ¿Qué es lo habitual en software? En general se quieren referir, sin atreverse a mencionarlo, a las Bases de Datos Relacionales que son a menudo incapaces de gestionar “grandes” conjuntos de datos (datasets). En la misma línea de más allá de la HABITUALIDAD, algún autor llega a decir que el Big Data empieza cuando Excel no tiene capacidad para gestionar esos datos.

En esta línea de definición, Big Data se define por la tecnología que se utiliza para su captura, almacenamiento y análisis. Big Data aparece asociado a nombres como HadoopNoSQLMachine LearningMapReduce y muchos más.

La definición más frecuente que se lee por ahí, arranca de 2001y asocia el BIG a volumen, velocidad y variedad de los conjuntos de datos (las tres uves).  (Laney, Douglas. "3D Data Management: Controlling Data Volume, Velocity and Variety" PDF). Ha llovido mucho desde 2001 y lo que era gran volumen, velocidad y variedad entonces ya no lo es ahora. Así que seguimos un poco en las mismas.

Big Data resuelto de una vez por todas

Para resolver la situación de una vez por todas, el departamento de Data Science de Berkeley publica en su blog datascience@berkeley un esclarecedor “What is Big Data?”. En sus propias palabras, el propósito del estudio es:

“para resolver la cuestión de una vez por todas se lo preguntamos a 40 expertos”

Sé que voy a parecer mezquino, pero lo digo sin una pizca de maldad y sólo por la gracia que tiene en el contexto de DATA SCIENCE, pero en el post se recogen 43 definiciones, no 40. Seguramente lo de 40 era por redondear y está bien así. También podría ser que las 3 que sobran se añadieron más tarde y a alguien se le olvidó actualizar el número. O bien, incluso, que 43 era un número demasiado grande para ser procesado por el software habitual.

Big Data sigue siendo las 3 uves

Muchos de ellos mantienen la definición original de volumen, velocidad y variedad y lo relacionan con software “no-habitual”.

Seth Grimes, Alta Plana Corporation: El término “Big Data” ha sido vapuleado en los últimos años bajo la acusación de que los de Marketing y los Analistas han estirado y comprimido el término para llevarlo a cubrir multitud de problemas, tecnología y productos. Sin embargo en esencia Big Data sigue siendo lo mismo que planteó Doug Laney en 2001, las tres Uves, Volumen, Velocidad y Variedad y sigue señalando desafíos que exigen recursos y procesos de computación no-habituales. 

Big Data, una palabra de moda

Por supuesto, los hay como yo, que ven que hay mucho humo detrás de la la palabra.
Ryan Swanstrom, Data Science 101: Big Data solía significar datos que no puede procesar una sola máquina. Ahora Big Data se convertido en una palabra de moda que significa cualquier cosa relacionada con analítica o visualización"6.

Big Data es recoger datos, ya analizaremos después

Algunos expertos asocian Big Data con la recogida de datos masivos que analizaremos más adelante..
Rohan Deuskar, CEO and Co-Founder, Stylitics:

Big Data se refiere al procedimiento de “recoger ahora, organizar más tarde”… es decir capturas y almacenas datos de interacciones y transacciones diversas continuamente, para encontrar el significado más tarde.

En esta definición, se diferencian, por tanto, Big Data (recoger y almacenar datos masivos) del proceso de extraer valor de los datos, que a menudo se le llama analítica.

Va a resultar que el que se compró la báscula y apunta su peso con frecuencia, sin ningún tipo de acción adicional para perder peso, está haciendo Big Data. El proceso de analítica comenzará cuando se ponga a descubrir el tipo de alimentos que le engordan y haga algún tipo de acción para conseguir bajar peso.
Descripción: Macintosh HD:Users:eduardovalencia:Dropbox:datacoaching:manuscript:images:peso.jpg

También según esta definición, lo que hacen muchas empresas cuando colocan el código de seguimiento de Google Analytics en las páginas de su sitio web, para que vaya mandando datos de las interacciones de los usuarios a los servidores en la nube de Google, con la intención de analizarlos más adelante, es un ejemplo de BIG DATA.

Aviso para los que deciden analizar más adelante

Aunque siempre insisto en extraer valor económico de los datos, si por problemas de recursos (tiempo, dinero o personas) habéis decidido recoger datos ahora y analizar más tarde, debéis saber que no os va a bastar con colocar el código de seguimiento y poneros a esperar a que engorden los datos. Si no se configura Google Analytics o la herramienta de captura y análisis de datos que utilicéis, cuando a los meses o años llegue el momento de la verdad y alguien por fin decida
ver qué se le puede sacar a esos datos, encontrará que buena parte del valor que podía haber sacado, se ha esfumado ya porque no se configuró bien al principio.

Si hacéis eso de poner el código de seguimiento y sentaros a esperar, os pasará como al de la báscula, que apuntó su peso con frecuencia, pero se olvidó de apuntar qué ha comido ese día y qué grado de actividad física ha tenido. Cuando por fin se puso a analizar los datos no fue capaz de descubrir qué le engorda, porque sólo tenía mediciones de peso.

Así que, si habéis apostado por medir ahora y analizar después, dedicad un par de semanas a configurar bien la herramienta de medición al comenzar el proceso. Incluso sin necesidad de analizar los datos, chequead de vez en cuando que la recogida va bien, para no encontrar sorpresas desagradables cuando os pongáis por fin a recoger el valor de los datos.

Big Data es analizar datos para extraer su valor

Varios de los expertos que han respondido a la encuesta de Berkeley, ven en Big Data justo lo contrario, la extracción de valor por medio de procesos analíticos. Big Data es para ellos casi un sinónimo de analítica.

John Akred, Fundador y CTO, Silicon Valley DataScience:

“Big Data” se refiere a la combinación de un enfoque orientado a guiar la toma de decisiones, con descubrimientos analíticos que se extraen de los datos8.

Datos a secas

Lo mismo que dice Roy Batty, el replicante rubio de Blade Runner, cuando está a punto de morir al final de la película, he visto usos del término “Big Data” que no creeríais.

Roy Batty, el replicante rubio de Blade Runner

Resulta evidente además que todas estas definiciones basadas en “software habitual” tienen una validez muy limitada. El BIG de Big Data se me queda siempre pequeño y obsoleto.
Tanto es así que si me lo preguntara datascience@Berkeley, respondería:

Eduardo Valencia, autor del librito “Data Coaching”:

Me alegro de que me hagan esa pregunta. Big Data me parece un término confuso. El BIG de Big Data es tan inapropiado como cuando en el siglo XXI algunos siguen hablando de “NUEVAS Tecnologías” para referirse a Internet y otros entornos digitales. ¿Sigue siendo nuevo, después de tantos años? Big Data se usa ahora para significar casi cualquier cosa relacionada con datos, tanto lo referido a captura y almacenamiento como con el proceso analítico que lleva a extraer valor económico de los datos. Así que yo prefiero hablar de “Datos” a secas y no de Big Data. Del mismo modo que hablo de Tecnología y nunca de Nuevas Tecnologías.

Y digo “prefiero” porque en realidad vais a ver lo de “Big Data” empleado por mí mismo con mucha frecuencia. Porque, como solía decir mi entrañable amigo Gotzon Zaratiegi, mientras soltaba una de sus carcajadas contagiosas, “Compañero, todos tenemos nuestras contradicciones”.



(Extraído de Data Coaching. Un librito sobre datos y beneficios)