El big data y las bases de datos
Una base de datos hace referencia a un conjunto de datos que pertenece a un mismo contexto y que se encuentran almacenados de forma sistemática. En otras palabras más sencillas, una base de datos es básicamente, un almacén de información.
Dado que el área del big data hace uso de las bases de datos como fuente de información, éstas tienen que cumplir ciertas características que van totalmente ligadas a las cinco V’s del big data que explicábamos en el post ¿por qué es importante la elección de las fuentes de datos?, por lo tanto, tienen que ser sistemas capaces de ofrecer acceso rápido a las aplicaciones en tiempo real, ordenar los datos en formatos no tradicionales o evitar los costes y tiempos necesarios para el desarrollo de un esquema de base de datos convencional.
Es por ello que los tipos de bases de datos ideales para el big data son las bases de datos de tipo NoSQL.
Las bases de datos NoSQL son un tipo de bases de datos que difieren principalmente de las bases de datos convencionales, en que no hacen uso del lenguaje SQL como principal lenguaje de consultas.
Tipos de bases de datos NoSQL para utilizar en proyectos de big data
A continuación, se presentan algunas bases de datos de tipo NoSQL muy utilizadas en proyectos relacionados con el big data:
- MongoDB: su nombre viene de la palabra inglesa humongous, que quiere decir en español enorme. Se trata de una de las bases de datos más conocidas en la actualidad. Hace uso de ficheros de tipo BSON para el almacenamiento de la información junto con un esquema dinámico, lo que hace que la integración de los datos en algunas aplicaciones sea más rápida y sencilla.
- Cassandra: desarrollada por Facebook y propiedad en la actualidad de Apache, Cassandra es un tipo de base de datos NoSQL orientada a columnas. Está especialmente diseñada para el almacenamiento masivo, entornos donde la escalabilidad y disponibilidad suele ser una de las principales preocupaciones para los equipos técnicos.
- CouchDB: almacena los datos en ficheros de tipo JSON permitiendo generar vistas. La interfaz se basa en peticiones HTTP a través de una API donde el lenguaje para interactuar es JavaScript. Además, facilita el desarrollo de aplicaciones web y hace posible servir aplicaciones directamente desde la base de datos.
¿Qué tipo de base de datos utiliza Google para almacenar sus datos?
Aunque para muchos suene extraño dado la gran cantidad de proyectos conocidos que hacen uso de bases de datos relacionales, Google hace uso de una base de datos desarrollada por ellos de tipo NoSQL denominada BigTable.