• 0
      1. Tu carrito está vacío.
    • artículo(s)0,00

¿Qué es un datawarehouse y un data lake?

May 7, 2020

Data warehouse, ¿qué es?

Un data warehouse o almacén de datos, según Bill Inmon, es una colección de datos que se encuentra dentro de una determinada área donde los datos almacenados deben guardarse de manera segura, fiable, fácil de recuperar y administrar y se caracteriza por ser no volátiles, integrados, temáticos e históricos. 

  • No volátil: la información es permanente, es decir, el almacén de información de un datawarehouse existe para ser leído pero no modificado. 
  • Integrado: los datos guardados deben estar integrados a través de una estructura consistente, por lo que las inconsistencias existentes entre distintos sistemas operacionales deben ser eliminadas. Además, la información se debe estructurar en diferentes niveles de detalle en función de las necesidades de los usuarios. 
  • Temático: los datos deben encontrarse organizados por temáticas para facilitar su acceso y entendimiento a los usuarios finales.
  • Históricos: en sistemas operacionales, los datos reflejan siempre la información del presente. En cambio, en los sistemas datawarehouse, los datos toman distintos valores en función de una variable en el tiempo. Esto permite llevar a cabo comparaciones y analizar tendencias.

Consideraciones de un datawarehouse

En el funcionamiento de los datawarehouse, es muy importante tener en mente la separación de los datos utilizados en operaciones diarias de los datos utilizados en el datawarehouse para propósitos como la ayuda en la toma de decisiones ya que al tener objetivos finales, podrían generar confusión. Además, se deben tener descripciones globales y análisis comprensivos de toda la organización el los datawarehouse. 

Data lake, ¿qué es?

Un data lake se define como un repositorio de almacenamiento centralizado que contiene big data de varias fuentes en un tipo de formato conocido como “en crudo” o “raw”. Esto significa que no ha sido procesado. Este tipo de repositorio permite almacenar tanto datos estructurados, semiestructurados como no estructurados, lo que hace que los datos puedan ser conservados en un formato más flexible para su uso futuro. 

Ventaja del uso de un data lake

La principal ventaja de un data lake es que funciona a través de un tipo de estructura denominada schema-on-read o también llamado esquema contra escritura. Dicho concepto significa que los datos no deben seguir un esquema predefinido para ser guardados. Esto hace que se ahorre una gran cantidad de tiempo dedicada a la definición de la estructura. 

Principales diferencias entre un datawarehouse y un data lake

Las principales diferencias entre un datawarehouse y un data lake se encuentran en que un data lake no tiene una estructura predefinida mientras que un datawarehouse sí. Además, dado que en un data lake los datos no se encuentran organizados en un formato simplificado antes de ser almacenados, requieren de expertos que comprendan perfectamente los distintos tipos de datos junto con sus relaciones para poder ser leídos. En cambio, un datawarehouse es fácilmente accesible tanto para técnicos como para usuarios finales gracias a su esquema bien definido. 

Related articles and trainings:

Decision Trees

Ecommerce trends for 2020

Data Literacy: What is Data Literacy

 

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.

Get in Touch
newsletter

Subscribe to the newsletter on ecommerce and digital transformation

Trends, guides
and latest news in ecommerce
technologies.

Además, te regalamos el primer capítulo del libro
«Conecta tu negocio. La transformación digital de los canales de venta»

newsletter
Get in Touch
Contact
connect-logo-white-retinue

Product

Info

Support

Connect your business.

Branding

In HUB 360 you will find all the technology and services for your e-commerce strategy.

Ecommerce

Integra tu ecommerce con tu ERP sistema de gestión y todos tus canales para vender online.

Analytics

BI Studio dashboards are your next generation business intelligence tool.

922-014-341

Proyecto Cofinanciado por el Fondo Europeo de Desarrollo Regional. Beneficiario: Conecta Software Soluciones SLU. Nº expediente: EATIC2019010001. Inversión Aprobada: 173.800,00 €. Comienzo: 01/04/2019. Finalización: 30/09/2020. El presente proyecto tiene como objetivo el desarrollo de una capa de usuario multilingüe y dashboards para entornos web y windows de solución de Business Intelligence.

Project co-financed by the European Regional Development Fund. Beneficiary: Conecta Software Soluciones SLU. File number: PI2019010001. Approved Investment: 6,444.80 Start date: 17/10/2018. Completion: 16/10/2019. The present project aims at developing a connector software that automates the generation of virtual catalogues so that the company can offer in its Online Store products with a wide description and with images that make the user experience richer and more complete.

2020 ALL RIGHTS RESERVED. CONNECT SOFTWARE

Contact
English (UK)
English (UK) Español Deutsch