Big Data hace referencia a conjuntos de datos tan grandes y complejos como para que hagan falta aplicaciones informáticas no tradicionales de procesamiento de datos para tratarlos adecuadamente.
También se conoce como macrodatos y datos masivos.
Big Data estructurados y no estructurados
Los datos que se analizan se pueden dividir en dos grandes categorías:
Datos estructurados: Aquellos que tienen longitud y formato (fechas) y que pueden ser almacenados en tablas.
Datos no estructurados: Son los que no tienen formato determinado y no pueden ser almacenados en tablas,( los que generan los usuarios en foros, redes sociales, archivos de audio, video).
El objetivo principal del Big Data es convertir datos en información para que facilite la toma decisiones incluso en tiempo real.
¿De donde vienen los datos?
Su origen se remonta a los años 60 y 70, cuando se establecieron los primeros centros de datos y el desarrollo de bases de datos relacionales.
El 90% de los datos se generó en los últimos años. El grueso de los grandes datos generados proviene de tres fuentes principales:
-
- datos sociales
-
- datos de máquinas
-
- y datos transaccionales
Otra distinción es si los datos se generan internamente o si vienen de fuera de la empresa.
Los datos sociales
El interés por el Big Data aumentó con el uso exponencial de las redes sociales Facebook y YouTube. Hoy en día, todos somos productores de datos, dando Me gusta, Tweets y Retweets, Comentarios o subiendo videos e imagenes que publicamos y compartimos a través de las plataformas de redes sociales.
Este tipo de datos proporciona información muy valiosa sobre el comportamiento y el sentimiento del consumidor. Por ello, son muy relevantes en el análisis de marketing.
La web pública es otra buena fuente de datos sociales, y herramientas como Google Trends pueden usarse con buenos resultados para aumentar el volumen de big data.
Los datos de la máquina
El Internet de las cosas es otro impulso de para el uso de Big Data. En estos caso, hablamos de información generada por equipos industriales, sensores instalados en maquinaria e incluso registros web que rastrean el comportamiento del usuario.
Se espera que este tipo de datos crezca exponencialmente a medida que el IoT se esta implementando en las Smart Cities y en las empresas. Los sensores tales como dispositivos médicos, medidores inteligentes, cámaras de carretera, satélites, juegos y el Internet de las Cosas son una de las fuentes clave del Big Data y su importancia seguirá creciendo.
La fuente de los datos transaccionales
Este tipo de datos se genera a partir de las transacciones diarias que tienen lugar tanto online como en físico. Las facturas, las órdenes de pago, los registros de almacenamiento, los recibos de entrega,se caracterizan como datos transaccionales. Estos datos por sí solos casi no tienen sentido, y la mayoría de las organizaciones se enfrentan al reto de dar sentido a los datos que están generando y cómo sacarles provecho.
Big Data y las 3 V: Volumen, Velocidad y Variedad
Big data son datos que contienen una mayor variedad y que se presentan en volúmenes crecientes y a una velocidad superior. Esto se conoce como «las tres V»
Gartner
-
- Volumen
-
- Velocidad
-
- Variedad
Las nuevas V: Valor y veracidad
Mientras que las 3 V definidas por Gartner siguen siendo relevantes, en los últimos años se han sumado otras dos características. Estos son el valor y la veracidad de los datos.
-
- Valor
-
- Veracidad
Casos de uso
El Big Data se utiliza en la mejora de la operativa empresarial, incluyendo la innovación y detección de amenazas y oportunidades. Perminte determinar las causas de origen de fallos, problemas y defectos casi en tiempo real. Estos son casos de uso de Big Data
-
- Fraude
-
- Experiencia de cliente
-
- Desarrollo de producto
Frameworks de software para Big Data
Hadoop
Hadoop es un framework open source de Apache Foundation, que se desarrolló para resolver los nuevos retos asociados al surgimiento de la disciplina Data Science. En concreto, se utiliza para almacenar, procesar y analizar grandes volúmenes de datos. Además, permite ejecutar aplicaciones en clusters de hardware básicos.
Spark
Apache Spark se define como un motor de análisis unificado para el procesamiento de datos a gran escala.
Spark se ejecuta en Hadoop, Apache Mesos, Kubernetes, en forma independiente o en la nube. Puede acceder a diversas fuentes de datos.