La metodologia Data Vault 2.0 non richiede solo la tecnica di modellazione, ma fornisce un’intera metodologia per tutti i progetti di Data Warehouse. Il Data Vault modeling di Indellient see è un approccio molto valido per soddisfare le esigenze dei progetti di data warehousing, in cui sia il monitoraggio storico che la verifica sono due fattori importanti.

Per molti anni, i progetti di business intelligence (BI) hanno e continuano ad operare sotto un modello a cascata. È definito da una lunga sequenza di ogni fase che richiede un elenco esaustivo di requisiti iniziali, una progettazione completa del modello di dati seguita dalla codifica di tutte le regole aziendali rigide e morbide nei processi ETL. Il livello di visualizzazione viene creato in sequenza e presentato agli utenti finali per mesi di disconnessione o addirittura anni dalla data di inizio originale.

Abbastanza spesso vediamo anche i team adottare una versione “a portata ridotta” di waterfall che mira a suddividere le grandi iniziative di BI in progetti più piccoli. Mentre questo aiuta a ridurre la complessità complessiva, questo approccio, quando applicato alla BI, è ancora abbastanza rischioso a causa di due preoccupazioni primarie:

  • i requisiti aziendali stanno ora cambiando più velocemente della capacità di fornire;
  • e i titolari di budget non sono disposti a spendere in progetti a lungo termine senza risultati a breve termine materializzati.

I motivi di cui sopra sono il motivo per cui abbiamo visto un cambiamento nelle metodologie di progetto da cascata nell’approccio iterativo agile di agile – che riconosce e fornisce alcune risposte a questi problemi.

All’interno del dominio di analisi dei dati, agile da solo non affronta le sfide significative che incontriamo ai livelli più dettagliati di Data warehousing o progetti di BI. Questi includono:

  • iterazione di modellazione dei dati
  • riducendo al minimo il refactoring
  • progettazione di ETL o ELT routine che permettono una rapida risposta alle modifiche della logica di business o nuove aggiunte di dati
  • un approccio alla raccolta requisiti di business che sarà strettamente legata all’input necessari per prendere decisioni di progettazione

In risposta a queste sfide, Daniel Linstedt, autore di Building Scalable Data Warehouse con i Dati del Vault 2.0, definisce una metodologia che si concentra su come ottenere il massimo dalle pratiche agili con altre discipline e tecniche collaudate per fornire quello che sembra essere l’approccio più iterativo alla BI ancora.

Presentazione di Data Vault

Contrariamente alla credenza popolare, Data Vault (DV) non è solo una tecnica di modellazione, è un’intera metodologia per i progetti di data warehouse. Lega insieme aspetti di agile, BEAM requirements gathering, CMMI, TQM, Six Sigma e Data Vault Modelling per definire un approccio mirato a migliorare sia la velocità che la qualità dei progetti di BI. Mi riferisco ad esso come “approccio missilistico guidato” poiché promuove sia l’adattamento che la precisione.

DV comprende anche metodi agili sulla stima del progetto DW e il dimensionamento agile delle attività per determinare la complessità tradizionalmente trascurata o lo sforzo di lavoro coinvolto nei componenti DW comuni. Ai livelli più bassi, presenta anche un approccio molto conciso e iterativo per affrontare i risultati tecnici comuni (all’interno del mondo BI) con richieste di funzionalità nuove o in evoluzione. Questi includono processi ponderati, ripetibili, step-by-step e agili per eseguire attività frequenti.

Queste attività includono (ma non sono limitate a) l’aggiunta di attributi di dati, sezioni, nuove fonti, fonti aumentate, tracciamento storico, deprecazione delle fonti e modifiche alla struttura delle fonti sia nelle fasi ETL che di modellazione.

Il modello DV, in poche parole, è un livello che esiste tra la modellazione dimensionale regolare (OLAP, Schema a stella) e la Staging che fornisce il ridimensionamento con crescenti requisiti aziendali e serve a scomporre le complessità sia della modellazione che dell’ETL. È composto da hub (entità aziendali), collegamenti (relazioni) e satelliti (attributi descrittivi) che sono modellati da qualche parte tra lo schema 3NF e star. Il modello è posizionato all’interno del livello di integrazione dei dati del data warehouse, comunemente indicato come Data Vault raw, ed è efficacemente utilizzato in combinazione con il modello di Kimball.

Suggerimento: Se sei interessato a comprendere il modello e le sue regole di sottolineatura, ti suggerisco di prendere una copia del libro di Dan menzionato sopra.

Data Vault 2.0 Vantaggi

Ecco una panoramica di alcuni vantaggi chiave dell’approccio Data Vault 2.0:

  • Assume lo scenario peggiore per le relazioni di modellazione dei dati. N: M relazioni tra business objects per eliminare la necessità di aggiornamenti se un 1: M si trasforma in un M:M. Quindi non richiede praticamente alcun lavoro aggiuntivo all’interno di Data Vault quando il grado di relazione cambia.
  • È progettato per il monitoraggio storico di tutti gli aspetti dei dati – relazioni e attributi, nonché dove i dati vengono provenienti da nel corso del tempo. I satelliti, che sono simili alle dimensioni, funzionano in modo simile al tipo SCD 2.
  • Propone una serie di principi di progettazione & strutture per aumentare le prestazioni di tracciamento storico all’interno del Vault (FOSSA e ponte). Il modello Data Vault è abbastanza flessibile da adottare queste strutture in qualsiasi momento all’interno del processo di modellazione iterativa e non richiede una pianificazione avanzata.
  • Progettato per separare logicamente gli spazi contenenti dati grezzi rispetto a quelli alterati. Data vault grezzi è la base per i dati che è controllabile per i sistemi di origine e il vault business fornisce un posto per gli utenti esperti che hanno bisogno di accedere ai dati un passo verso il basso dal information mart.
  • Separa le regole aziendali soft e hard in diverse parti dell’integrazione dei dati. Ciò impone la riusabilità dei dati su più usi finali. Ad esempio, i dati grezzi vengono generati una sola volta all’interno del Data Vault (meno re-integrando in staging) e possono essere alimentati più volte alle esigenze downstream.
  • Per ogni iterazione agile, il modello Data Vault, che memorizza tutto il tracciamento storico dei dati, è facilmente estensibile senza doversi preoccupare di perdere i dati storici. Inoltre, il tracciamento storico viene memorizzato indipendentemente dal modello dimensionale.
  • Data Vault 2.0 sostiene l’implementazione della chiave hash delle chiavi aziendali per ridurre le ricerche e quindi aumentare la parallelizzazione del carico. Ciò si traduce in dipendenze di caricamento meno sequenziali.
  • Il Data Vault raw è progettato per essere completamente verificabile.
  • Nel suo complesso, l’elaborazione coinvolta nel passaggio dallo Staging allo schema a stella & OLAP è resa molto più fluida & iterativa con Data Vault.
  • Fornisce un approccio molto ponderato alla combinazione di dati con più chiavi aziendali diverse da origini dati eterogenee (un problema comune con l’integrazione dei dati all’interno del magazzino su più sistemi di origine). Le chiavi aziendali non sono sempre 1:1 o nello stesso formato.
  • La mentalità di modellazione “just in time” è una buona corrispondenza con l’approccio agile.

Gli svantaggi

Mentre ci sono molti vantaggi a Data Vault, ha anche i suoi difetti, come ad esempio:

  • Data Vault è essenzialmente un livello tra lo schema information mart / star e staging. C’è un sovraccarico aggiuntivo che viene fornito con lo sviluppo di questo livello sia in termini di sviluppo ETL che di modellazione. Se il progetto è su piccola scala o la vita del progetto è di breve durata, potrebbe non valere la pena perseguire un modello di Data Vault.
  • Uno dei principali fattori alla base dell’utilizzo di Data Vault è sia per scopi di controllo che di monitoraggio storico. Se nessuno di questi è importante per te o per la tua organizzazione, può essere difficile mangiare il sovraccarico necessario per introdurre un altro livello nella tua modellazione. Tuttavia, parlando da requisiti a lungo termine, può essere un investimento utile in anticipo.
  • Data Vault rappresenta un approccio scomposto alle relazioni, alle chiavi aziendali e agli attributi e quindi il numero di tabelle create è elevato rispetto a strutture denormalizzate come lo schema a stella. Tuttavia, considera che Data Vault complimenta lo schema a stella, quindi questo confronto è solo a scopo di contrasto. Per questo motivo, sono necessari molti join per visualizzare i dati all’interno del DV.
  • Al momento della scrittura di questo – Le risorse DV sono limitate. I progetti complessi che utilizzano DV 2.0 non sono informazioni diffuse.
  • L’approccio alla modellazione, in generale, può essere molto anticonvenzionale per coloro che hanno operato sotto i modelli di Kimball e (meno) di Inmon.

Si dovrebbe perseguire Data Vault?

La risposta dipende da alcune variabili.

Consideriamo la modellazione di Data Vault un approccio molto valido per soddisfare le esigenze dei progetti di data warehousing, in cui sia il monitoraggio storico che la verifica sono due fattori importanti.

Inoltre, se le relazioni tra entità aziendali sono in continua evoluzione nei dati (esempio da 1:M a M:M), Data Vault semplifica l’acquisizione di tali relazioni e consente di concentrarsi maggiormente sulla fornitura di valore reale.

Se la tua organizzazione prevede di archiviare i dati PII all’interno del magazzino ed è soggetta a GDPR, HIPPA o altre normative, Data Vault ti aiuterà con gli audit dei dati e la tracciabilità.

Sarà importante prendere sia i vantaggi che gli svantaggi elencati sopra per aiutare a scegliere se un approccio Data Vault è vantaggioso per il tuo caso d’uso.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.

lg