Importancia de la elección de las fuentes de datos
Las fuentes de datos en big data son la materia prima para analizar la información y obtener resultados de forma que, cualquier decisión que se tome a través del big data, vendrá dada por los datos que han sido elegidos previamente para su análisis. En la minería de datos, no se necesita una cantidad específica de datos, pero sí que éstos sean relevantes.
En un mundo que está saturado de información, es importante diferenciar qué datos pueden ser útiles de los que simplemente no pueden ser utilizados.
Las cinco “V’s del big data
El big data se rige a través de cinco “V”s que definen cómo deben ser los datos y la importancia de la fuente de los mismos:
- Volumen: hace referencia al gran tamaño de generación de datos diarios, ya sean generados por parte de usuarios o a través de una empresa.
- Velocidad: hace referencia a la rapidez en la que fluyen los datos a la par que el tiempo de procesamiento en tiempo real.
- Variedad: dado que los datos provienen de distintas fuentes (datos estructurados, datos semiestructurados y datos no estructurados), en función del tipo de fuente, los datos son más complejos para almacenarse a la vez que el análisis de los mismos.
- Veracidad: dada la cantidad de datos que se generan, éstos deben ser analizados para garantizar la autenticidad y fiabilidad para la posterior toma de decisiones.
- Valor: Hace referencia a la selección de aquellos datos que sean útiles para poder rentabilizarlos y generar ventajas competitivas.
¿Podría usarse el dark data como fuente de datos?
Según una encuesta llevada a cabo por Splunk, el 60% de los datos que genera una empresa son del tipo dark (datos oscuros) es decir, información que no saben que existen o que no saben cómo utilizar. Hay que saber diferenciar qué datos del dark data pueden ser utilizados y cuáles no, sobretodo si son datos confidenciales o relacionados con otras cuestiones legales. Sin embargo, datos como la forma de comunicación entre empleados dentro de una misma empresa pueden ser utilizados para identificar referentes de conocimiento o relaciones dentro de la empresa.