La metodología Data Vault 2.0 no solo toma la técnica de modelado, sino que proporciona una metodología completa para todos los proyectos de Almacén de Datos. El modelado de la bóveda de datos de Indellient see es un enfoque muy viable para satisfacer las necesidades de los proyectos de almacenamiento de datos, donde tanto el seguimiento histórico como la auditabilidad son dos factores importantes.

Durante muchos años, los proyectos de inteligencia de negocios (BI) han estado operando y continúan operando bajo un modelo en cascada. Se define por una secuencia larga de cada fase que exige una lista exhaustiva de requisitos iniciales, un diseño de modelo de datos completo seguido de la codificación de todas las reglas de negocio duras y blandas en los procesos ETL. La capa de visualización se construye secuencialmente y se presenta a los usuarios finales durante meses o incluso años desde la fecha de inicio original.

Con bastante frecuencia, también vemos que los equipos adoptan una versión de» alcance reducido » de waterfall que tiene como objetivo dividir las grandes iniciativas de BI en proyectos más pequeños. Si bien esto ayuda a reducir la complejidad general, este enfoque, cuando se aplica a la BI, sigue siendo bastante arriesgado debido a dos preocupaciones principales:

  • los requisitos de negocio ahora están cambiando más rápido que la capacidad de entrega;
  • y los titulares de presupuestos no están dispuestos a gastar en proyectos a largo plazo sin resultados materializados a corto plazo.

Las razones anteriores son por las que hemos visto un cambio en las metodologías de proyectos de cascada al enfoque iterativo ágil de ágil, que reconoce y proporciona algunas respuestas a estos problemas.

Dentro del dominio de análisis de datos, agile por sí solo no aborda los desafíos significativos que encontramos en los niveles más detallados de almacenamiento de datos o proyectos de BI. Estos incluyen:

  • iteración sobre modelado de datos
  • minimización de la refactorización
  • diseño de rutinas ETL o ELT que permiten una respuesta rápida a cambios en la lógica de negocio o nuevas adiciones de datos
  • un enfoque para recopilar requisitos de negocio que se vinculará estrechamente con la entrada requerida para las decisiones de diseño

En respuesta a estos desafíos, Daniel Linstedt, autor de Building Scalable Data Warehouse with Data Vault 2.0, define una metodología que se centra en aprovechar al máximo las prácticas ágiles con otras disciplinas y técnicas probadas para ofrecer lo que parece ser el enfoque más iterativo de BI hasta la fecha.

Presentación de Data Vault

Contrariamente a la creencia popular, Data Vault (DV) no es solo una técnica de modelado, es una metodología completa para proyectos de data warehouse. Une aspectos de agile, recopilación de requisitos de HAZ, CMMI, TQM, Six Sigma y Modelado de Bóveda de datos para definir un enfoque dirigido a mejorar la velocidad y la calidad de los proyectos de BI. Me refiero a él como el» enfoque de misiles guiados», ya que promueve tanto la adaptación como la precisión.

DV también incluye métodos ágiles de estimación de proyectos de DW y dimensionamiento ágil de tareas para determinar la complejidad o el esfuerzo de trabajo que tradicionalmente se pasan por alto en los componentes comunes de DW. En los niveles inferiores, también presenta un enfoque muy conciso e iterativo para abordar los entregables técnicos comunes (dentro del mundo de la BI) con solicitudes de características nuevas o cambiantes. Estos incluyen procesos pensados, repetibles, paso a paso y ágiles para realizar tareas frecuentes.

Estas tareas incluyen (pero no se limitan a) agregar atributos de datos, segmentos, fuentes nuevas, fuentes aumentadas, seguimiento histórico, fuentes obsoletas y cambios en la estructura de fuentes tanto en la fase ETL como en la fase de modelado.

El modelo DV, en pocas palabras, es una capa que existe entre el modelado dimensional regular (OLAP, Esquema Star) y la puesta en escena que proporciona escalado con los crecientes requisitos comerciales y sirve para desglosar las complejidades del modelado y el ETL. Está compuesto por hubs (entidades de negocios), enlaces (relaciones) y satélites (atributos descriptivos) que se modelan en algún lugar entre el esquema 3NF y star. El modelo se coloca dentro de la capa de integración de datos del almacén de datos, comúnmente conocido como Almacén de datos sin procesar, y se usa efectivamente en combinación con el modelo de Kimball.

Consejo: Si está interesado en entender el modelo y sus reglas de subrayado, le sugiero que tome una copia del libro de Dan mencionado anteriormente.

Almacén de datos 2.0 Beneficios

A continuación se presenta una descripción general de algunos beneficios clave del enfoque Data Vault 2.0:

  • Asume el peor de los casos para las relaciones de modelado de datos. N: M relaciones entre objetos de negocio para eliminar la necesidad de actualizaciones si un 1:M se convierte en un M: M. Por lo tanto, prácticamente no se requiere trabajo adicional dentro del almacén de datos cuando cambia el grado de relación.
  • Está diseñado para el seguimiento histórico de todos los aspectos de las relaciones y atributos de datos, así como de dónde se obtienen los datos a lo largo del tiempo. Los satélites, que son similares a las dimensiones, funcionan de manera similar al SCD Tipo 2.
  • Presenta un conjunto de principios de diseño & estructuras para aumentar el rendimiento de seguimiento histórico dentro de la Bóveda (foso y puente). El modelo de almacén de datos es lo suficientemente flexible como para adoptar estas estructuras en cualquier momento dentro del proceso de modelado iterativo y no requiere planificación avanzada.
  • Diseñado para separar lógicamente los espacios que contienen datos sin procesar frente a datos alterados. El almacén de datos sin procesar es la base de los datos que se pueden auditar para los sistemas de origen y el almacén empresarial proporciona un lugar para los usuarios avanzados que necesitan acceso a los datos un paso más allá del information mart.
  • Separa las reglas de negocio suaves y duras en diferentes partes de la integración de datos. Esto obliga a la reutilización de los datos en múltiples usos finales. Por ejemplo, los datos sin procesar solo se obtienen una vez dentro del almacén de datos (menos la reintegración en el almacenamiento provisional) y se pueden alimentar varias veces para satisfacer las necesidades posteriores.
  • Para cada iteración ágil, el modelo de almacén de datos, que almacena todo el seguimiento histórico de los datos, es fácilmente extensible sin tener que preocuparse por perder datos históricos. Además, el seguimiento histórico se almacena independientemente del modelo dimensional.
  • Data Vault 2.0 aboga por la implementación de claves de negocio hash para reducir las búsquedas y, por lo tanto, aumentar la paralelización de carga. Esto da como resultado dependencias de carga menos secuenciales.
  • El almacén de datos sin procesar está diseñado para ser completamente auditable.
  • En su conjunto, el procesamiento que implica pasar de la etapa al Esquema Estrella & OLAP se hace mucho más fluido & iterativo con Data Vault.
  • Proporciona un enfoque muy pensado para combinar datos con múltiples claves de negocio diferentes de fuentes de datos heterogéneas (un problema común con la integración de datos dentro del almacén a través de múltiples sistemas de origen). Las claves de negocio no siempre son 1:1 o en el mismo formato.
  • La mentalidad de modelado «justo a tiempo» es una buena combinación con el enfoque ágil.

Los inconvenientes

Si bien hay muchas ventajas en Data Vault, también tiene sus deficiencias, como:

  • Data Vault es esencialmente una capa entre el esquema de information mart / star y la puesta en escena. Hay una sobrecarga adicional que viene con el desarrollo de esta capa, tanto en términos de desarrollo de ETL como de modelado. Si el proyecto es a pequeña escala o la vida útil del proyecto es corta, puede que no valga la pena seguir un modelo de almacén de datos.
  • Uno de los principales factores que impulsan el uso de Data Vault es tanto para fines de auditoría como de seguimiento histórico. Si nada de esto es importante para usted o su organización, puede ser difícil consumir los gastos generales necesarios para introducir otra capa en su modelado. Sin embargo, hablando de requisitos a largo plazo, puede ser una inversión que valga la pena por adelantado.
  • Data Vault representa un enfoque descompuesto de las relaciones, las claves de negocio y los atributos y, por lo tanto, el número de tablas que se crean es alto en comparación con las estructuras desnormalizadas, como el esquema star. Sin embargo, tenga en cuenta que el almacén de datos complementa el esquema de estrellas, por lo que esta comparación es solo para fines de contraste. Por esta razón, se requieren muchas uniones para ver datos dentro del DV.
  • En el momento de escribir esto – los recursos de DV son limitados. Los proyectos complejos que utilizan DV 2.0 no son información generalizada.
  • El enfoque de modelado, en general, puede ser muy poco convencional para aquellos que han estado operando bajo los modelos de Kimball y (menos) Inmon.

¿Debería Buscar Data Vault?

La respuesta depende de algunas variables.

Vemos el modelado de la bóveda de datos como un enfoque muy viable para satisfacer las necesidades de los proyectos de almacenamiento de datos, donde tanto el seguimiento histórico como la auditabilidad son dos factores importantes.

Además, si las relaciones entre entidades de negocio evolucionan constantemente en sus datos (ejemplo 1:M a M:M ), Data Vault simplifica la captura de esas relaciones y le permite centrarse más en ofrecer valor real.

Si su organización planea almacenar datos de PII dentro del almacén y está sujeta al RGPD, HIPPA u otras regulaciones, Data Vault le ayudará con las auditorías de datos y la trazabilidad.

Será importante aprovechar tanto los beneficios como los inconvenientes enumerados anteriormente para ayudar a elegir si un enfoque de almacén de datos es ventajoso para su caso de uso.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.

lg