A pesar de que ya llevamos unos cuantos años manejando el término “Big Data”, no siempre está claro a qué nos referimos con él, realmente.

De hecho, es habitual pensar que “Big Data” es equivalente a “muchos datos”, pero esto no es completamente cierto. Es verdad que el Big Data implica la recopilación, almacenamiento y explotación de muchos datos, pero no basta con eso para que podamos hablar de Big Data.

Existe un cierto consenso acerca de que, para que podamos decir que un entorno es un entorno de Big Data, tiene que reunir cuatro características. Como los nombres de las cuatro empiezan por la letra “v”, solemos hablar de “las 4V del Big Data”.

Veamos en qué consiste cada una de las cuatro V:

Volumen

No es extraño escuchar comentarios como que Big Data no es más que Business Intelligence “a lo bestia”.

Sin embargo, una mayor cantidad de datos no es suficiente para que podamos hablar, sin más, de Big Data. Como ya hemos dicho, Big Data implica cantidades ingentes de datos, pero manejar cantidades ingentes de datos no es suficiente para estar hablando de Big Data.

Sin las otras V, seguiríamos hablando de un esfuerzo de inteligencia de negocio “tradicional”, sólo que con volúmenes mucho mayores.

Y, por supuesto, tampoco debemos pensar que las iniciativas de Big Data están todas encuadradas en el área de Business Intelligence. Big Data es un concepto que no está limitado o definido por los objetivos que se persiguen con la iniciativa, sino por las características de los datos y del entorno en el que nos movemos, resumidas en estas “4V”.

Variedad

Las 4V del Big Data: volumen, variedad, velocidad y veracidadHoy por hoy, podemos apoyar nuestras decisiones en orígenes de datos tan heterogéneos como podamos imaginar.

Cada acción de nuestros clientes, competidores o proveedores genera una miríada de información de los tipos más diversos: desde datos estructurados y relativamente fáciles de gestionar hasta información no estructurada en forma de documentos, vídeos o mensajes de email.

Cada tipo de información requerirá un tratamiento distinto y, probablemente, herramientas específicas (p. ej. – primero convertimos las llamadas al contact center en texto, para poder tratarlo de forma más cómoda). Además, ciertos tipos de datos (típicamente, el vídeo) implican unas necesidades de almacenamiento y procesamiento mucho mayores que los demás, lo que también es un reto.

Veracidad

Desde mi visión, esta V se refiere tanto a la calidad del dato como a su predictibilidad.

Mejor dicho, se refiere a la variabilidad de su calidad y de su disponibilidad.

La Variedad afecta a la Veracidad: la Veracidad es la variable menos uniforme a lo largo de los distintos tipos de dato que manejamos.

En un entorno de analítica de negocio tradicional, los orígenes de datos son mucho más reducidos en número y tipo (menor Variedad) y la organización suele tener más control sobre ellos y mucho más conocimiento sobre su volumen y calidad (mayor Veracidad).

En un entorno Big Data, la mayor Variedad implica, necesariamente, mayor incertidumbre sobre la calidad de cada dato y su disponibilidad futura, así como sobre las nuevas fuentes de datos con las que tendremos que contar más adelante.

Velocidad

Seguramente, la Variedad y la Veracidad no serían tan relevantes ni supondrían tanto estrés al afrontar una iniciativa de Big Data si no fuera por el elevado Volumen de información que hay que manejar y, sobre todo, por la Velocidad con la que ocurre todo: tanto la generación de información (grandes volúmenes en poco tiempo) como la velocidad con la que es necesario analizarla y, sobre todo, reaccionar.

La parte del input supone un reto, principalmente, para el área de tecnología, que ha de ser capaz de almacenar y digerir ingentes cantidades de información en lo que llamamos “tiempo casi real”.

Sin embargo, la parte del output, de las decisiones y reacciones a los eventos detectados, implica más a las áreas de operaciones afectadas (ya sea logística, ventas, marketing…) y a sus personas y sus procesos, que han de trabajar a la velocidad de reacción necesaria para extraer el valor de negocio desde los datos analizados antes de que pase la ventana de oportunidad.