La misión de un almacén de datos es publicar los activos de datos de la organización para apoyar de la manera más efectiva la toma de decisiones. La palabra clave en esta declaración de misión es publicar. Así como el éxito de una publicación convencional, como una revista, comienza y termina con sus lectores, el éxito de un almacén de datos comienza y termina con sus usuarios finales. Dado que el almacén de datos es un sistema de soporte de decisiones, nuestro principal criterio de éxito es si contribuye efectivamente a los procesos de toma de decisiones más importantes en la organización. Aunque los costos de hardware, software, mano de obra, servicios de consultoría y mantenimiento deben gestionarse cuidadosamente, los costos ocultos de no apoyar las decisiones importantes de una organización son potencialmente mucho mayores. Los costos tangibles de un almacén de datos, gestionados por TI, son tácticos, pero los costos y beneficios más importantes del soporte de decisiones son estratégicos.
Las aplicaciones de bases de datos de transacciones han estado penetrando en el mundo corporativo durante más de 30 años. Aunque hemos ingresado datos en aplicaciones de transacciones dedicadas durante décadas, se ha vuelto evidente que extraer los datos de estos sistemas para fines analíticos es demasiado difícil. Se han gastado miles de millones de dólares en aplicaciones de bases de datos, y sus datos permanecen prisioneros dentro de ellas. Se invierte una cantidad incalculable de tiempo intentando obtener datos de sistemas de transacciones, pero, como navegar a través de un laberinto, la mayor parte de ese tiempo se gasta en llegar a callejones sin salida. El sistema ETL debe desempeñar un papel importante en entregar los datos a las aplicaciones finales del usuario en una forma utilizable.
Construir un almacén de datos integral y fiable es una tarea significativa que gira en torno a un conjunto de componentes estándar.
Qué es un Almacén de Datos o Data Warehouse
El almacenamiento de datos es el proceso de tomar datos de sistemas de bases de datos de transacciones y legados y transformarlos en información organizada en un formato amigable para el usuario, con el fin de fomentar el análisis de datos y respaldar la toma de decisiones empresariales basada en hechos. El proceso que implica transformar los datos desde su formato original a un almacén de datos dimensional representa al menos el 70 por ciento del tiempo, esfuerzo y gasto de la mayoría de los proyectos de almacenes de datos.
Después de implementar muchos almacenes de datos, hemos determinado que un almacén de datos debería tener la siguiente definición:
Un almacén de datos es un sistema que extrae, limpia, conforma y entrega datos de origen en un almacén de datos dimensional y luego respalda e implementa consultas y análisis con el propósito de tomar decisiones.
Hemos llegado a esta definición para aliviar la confusión acerca de los costos de implementación de almacenes de datos. Históricamente, la parte más visible de un proyecto de almacén de datos es la porción de acceso a datos, generalmente en forma de productos, y se presta cierta atención al modelo dimensional. Pero al destacar solo esas partes, se deja un gran vacío en el ciclo de vida del almacén de datos. Cuando llega el momento de hacer realidad el almacén de datos, la herramienta de acceso a datos puede estar en su lugar y se puede crear el modelo dimensional, pero desde ese punto, pasan muchos meses hasta que el almacén de datos es realmente utilizable porque aún se necesita completar el proceso ETL.
Al prestar atención a la construcción del componente de gestión de datos de la sala de atrás, los patrocinadores de almacenes de datos están mejor posicionados para visualizar el valor real del almacén de datos, para respaldar la toma de decisiones por parte de los usuarios finales, y asignar presupuestos realistas para la construcción de almacenes de datos.
Qué no es un Almacén de datos o Data Warehouse
Lo que constituye un almacén de datos a menudo es malinterpretado. Hasta el día de hoy, puedes preguntar a diez expertos para definir un almacén de datos, y es probable que obtengas diez respuestas diferentes. La mayor disparidad suele estar en describir exactamente qué componentes se consideran parte del proyecto de almacén de datos. Para aclarar cualquier malentendido, cualquiera que vaya a ser parte de un equipo de almacén de datos, especialmente en el equipo ETL, debe conocer sus límites.
El entorno de un almacén de datos incluye varios componentes, cada uno con su propia suite de diseños, técnicas, herramientas y productos. Lo más importante a recordar es que ninguna de estas cosas por sí sola constituye un almacén de datos. El sistema ETL es un componente principal del almacén de datos, pero se requieren muchos otros componentes para una implementación completa. A lo largo de nuestras experiencias implementando almacenes de datos, hemos visto a miembros del equipo luchando una y otra vez con los mismos malentendidos. Las cinco principales cosas con las que se confunde el almacén de datos son las siguientes:
- Un producto. Contrariamente a muchas afirmaciones de los proveedores, no puedes comprar un almacén de datos. Un almacén de datos incluye análisis de sistemas, manipulación y limpieza de datos, movimiento de datos y, finalmente, modelado dimensional y acceso a datos. Ningún producto único puede lograr todas las tareas involucradas en la construcción de un almacén de datos.
- Un lenguaje. No se puede aprender a codificar un almacén de datos de la manera en que se aprende a implementar XML, SQL, VB o cualquier otro lenguaje de programación. El almacén de datos está compuesto por varios componentes, cada uno probablemente requiere uno o más lenguajes de programación o especificación de datos.
- Un proyecto. Un almacén de datos correctamente implementado consta de muchos proyectos (y fases de proyectos). Cualquier intento de implementar un almacén de datos como un único proyecto casi con certeza fracasará. Los almacenes de datos exitosos planifican a nivel empresarial pero implementan data marts dimensionales manejables. Cada data mart se considera típicamente un proyecto separado con su propio cronograma y presupuesto. Un factor crucial es que cada data mart contiene dimensiones conformadas y hechos estandarizados de modo que cada uno se integra en una única unidad cohesiva: el almacén de datos empresarial. El almacén de datos empresarial evoluciona y crece a medida que se completa cada proyecto de data mart. Una mejor manera de pensar en un almacén de datos es como un proceso, no como un proyecto.
- Un modelo de datos. Un modelo de datos por sí solo no hace un almacén de datos. Recuerda que el almacén de datos es un proceso integral que, por definición, debe incluir el proceso ETL. Después de todo, sin datos, incluso el modelo de datos mejor diseñado es inútil.
- Una copia de tu sistema de transacciones. Un error común es creer que copiar tu sistema operativo en un sistema de informes separado crea un almacén de datos. Así como el modelo de datos por sí solo no crea un almacén de datos, tampoco lo hace ejecutar el proceso de movimiento de datos sin reestructurar el almacén de datos.