Tipos de fuentes de datos. Ficheros
Los ficheros o también llamados comúnmente archivos, hacen referencia a un conjunto de bytes almacenados en un dispositivo. Se identifican a través de un nombre y una extensión, que lo definirá .
Por lo general, los ficheros cumplen el principio CRUD, que son las operaciones que se pueden aplicar a las bases de datos:
- Create (Crear): los ficheros pueden ser creados.
- Read (Leer): los ficheros pueden ser leídos.
- Update (Actualizar): los ficheros pueden ser modificados y actualizados.
- Delete (Eliminar): los ficheros pueden ser borrados.
Ser inundado con información no quiere decir que tengamos la información correcta o que estemos en contacto con las personas correctas. Bill Gates.
Ficheros como fuentes de datos
He aquí algunos de los tipos de ficheros que pueden ser utilizados como fuentes de datos para proyectos de big data:
- Tipo Excel (.xlsx): se caracterizan por representar los datos a través de filas y columnas, donde los datos se almacenan en celdas. Las celdas pueden contener datos de tipo numéricos, datos de tipo texto, datos de tipo fecha y/o hora, datos de tipo booleanos (es decir, verdadero o falso) y fórmulas. Son ampliamente utilizados por aquellas empresas que no poseen herramientas de tipo ERP para almacenar sus datos.
- Tipo Access (.mdb o .accdb): se caracterizan por mantener una interfaz parecida a los ficheros de tipo Excel pero con características más similares a una base de datos relacional. Sobre ellos, se pueden llevar a cabo tablas, vistas y consultas SQL para mostrar los datos en función de la necesidad. Al igual que los ficheros Excel, los ficheros Access son ampliamente conocidos ya que ambos son propiedad de la compañía Microsoft.
- Tipo JSON (.json): son altamente utilizados en el mundo del desarrollo de aplicaciones. Sus siglas hacen referencia a JavaScript Object Notation y se caracterizan por tener una estructura del tipo clave – valor, donde la clave indica el nombre del campo y el valor contiene el dato en sí. Se utilizan para el intercambio de datos entre aplicaciones.
- Tipo XML (.xml): son la versión previa de los ficheros JSON, comparten la finalidad, es decir, el intercambio de datos, pero varían en su estructura, siendo los XML más complejos ya que los datos se representan a través de una estructura de árbol informático. Utilizan etiquetas de marcado del estilo de HTML.
- Tipo BSON (.bson): son principalmente utilizados por la base de datos MongoDB. Proviene de la abreviatura de Binary JSON y son una serialización codificada en binario de documentos similares a JSON.