El término Deep Data o Datos Profundos hace referencia a extraer la información de valor de un conjunto de datos y descartar aquella no relevante o sin importancia.
Las empresas generan a diario millones de datos pero pocas saben cómo utilizarlos para obtener valor de los mismos. Esto no quiere decir que algunos datos no tengan valor sino que una parte de este conjunto no proporcionará ningún tipo de valor en función del objetivo actual, pudiendo ser de utilidad para lograr cualquier otro propósito. Los datos deben ser recopilados, organizados, limpiados y transformados para conseguir extraer conocimiento de los mismos.
Lo que el Deep Data desea explicar es que no por tener más datos se conseguirán mejores resultados. En un proyecto con un volumen muy alto de datos puede haber información redundante o muy poco útil (lo cual es muy probable) que lo único que hará es proporcionar ruido al modelo y distorsionar los resultados obtenidos.
Además, conviene añadir que para hacer un buen uso del Deep Data es esencial que se tenga un alto porcentaje en la calidad de los datos. Para cumplir con este propósito se debe garantizar que los datos cumplan los siguientes requisitos:
- Exactitud.
- Accesibilidad.
- Relevancia.
- Coherencia.
- Integridad.
- Actualización.
- Presentación apropiada.
- Confiabilidad.
Deep Data vs Big Data
Cuando hablamos de Big Data hacemos referencia a conjuntos de datos cuyo tamaño (volumen), complejidad (variabilidad) y velocidad en la transmisión de los datos dificultan su captura, almacenamiento, procesamiento, análisis y gestión mediante herramientas y tecnologías tradicionales. Sin embargo, este conjunto de datos debe generar un valor para la empresa y es justo en este momento donde entra en juego el término Deep Data. Se podría resumir como que el Big Data se encarga de toda la parte de recopilación, almacenamiento, gestión y procesamiento de los datos, mientras que el Deep Data se encarga de buscar información específica que genere valor dentro de esa gran cantidad de datos ya almacenada durante el desarrollo Big Data.