metodologia Data Vault 2.0 obejmuje nie tylko technikę modelowania, ale zapewnia całą metodologię dla wszystkich projektów hurtowni danych. Modelowanie magazynu danych Indellient see jest bardzo realnym podejściem do potrzeb projektów hurtowni danych, w których zarówno śledzenie historii, jak i audyt to dwa ważne czynniki.

od wielu lat projekty business intelligence (BI) funkcjonują i nadal funkcjonują w modelu waterfall. Jest on zdefiniowany przez długotrwałą sekwencję każdej fazy, która wymaga wyczerpującej listy wymagań wstępnych, pełnego projektu modelu danych, a następnie kodyfikacji wszystkich twardych i miękkich reguł biznesowych w procesach ETL. Warstwa wizualizacji jest kolejno budowana i prezentowana użytkownikom końcowym przez miesiące, a nawet lata od pierwotnej daty rozpoczęcia.

dość często widzimy również, że zespoły przyjmują wersję wodospadu „o zmniejszonym zakresie”, która ma na celu rozbicie dużych inicjatyw BI na mniejsze projekty. Chociaż pomaga to zmniejszyć ogólną złożoność, to podejście, gdy stosuje się do BI, jest nadal dość ryzykowne z powodu dwóch podstawowych problemów:

  • wymagania biznesowe zmieniają się teraz szybciej niż zdolność do realizacji;
  • i posiadacze budżetu nie chcą wydawać na długoterminowe projekty bez materializowanych wyników krótkoterminowych.

powyższe powody są powodem, dla którego zaobserwowaliśmy zmianę metodologii projektu z waterfall na iteracyjne podejście zwinne Agile-które rozpoznaje i dostarcza odpowiedzi na te problemy.

w domenie data analytics sam agile nie rozwiązuje istotnych wyzwań, jakie napotykamy na bardziej szczegółowych poziomach hurtowni danych lub projektów BI. Należą do nich:

  • iteracja nad modelowaniem danych
  • minimalizacja refaktoryzacji
  • projektowanie procedur ETL lub ELT, które umożliwiają szybką reakcję na zmiany w logice biznesowej lub nowe uzupełnienia danych
  • podejście do gromadzenia wymagań biznesowych, które będzie ściśle powiązane z danymi wejściowymi wymaganymi do decyzji projektowych

W odpowiedź na te wyzwania, Daniel linstedt, autor budowy skalowalnej hurtowni danych z Data Vault 2.0, definiuje metodologię, która koncentruje się na jak największym wykorzystaniu praktyk zwinnych z innymi sprawdzonymi dyscyplinami i technikami, aby dostarczyć to, co wydaje się być najbardziej iteracyjnym podejściem do BI jeszcze.

wprowadzenie Data Vault

wbrew powszechnemu przekonaniu, Data Vault (DV) to nie tylko technika modelowania, to cała metodologia projektów hurtowni danych. Wiąże ze sobą aspekty zwinny, wymagania wiązki zbieranie, CMMI, TQM, Six Sigma i Data Vault Modelowanie zdefiniować podejście ukierunkowane na poprawę zarówno szybkość i jakość projektów BI. Nazywam to podejściem „guided missile approach”, ponieważ promuje zarówno adaptację, jak i celność.

DV obejmuje również zwinne metody szacowania projektu DW i zwinnego doboru zadań w celu określenia tradycyjnie pomijanej złożoności lub nakładu pracy związanego z wspólnymi komponentami DW. Na niższych poziomach prezentuje również bardzo zwięzłe i iteracyjne podejście do rozwiązywania wspólnych technicznych rezultatów (w świecie BI) z nowymi lub zmieniającymi się żądaniami funkcji. Należą do nich przemyślane, powtarzalne, krok po kroku i zwinne procesy umożliwiające wykonywanie częstych zadań.

zadania te obejmują (ale nie są ograniczone do) dodawanie atrybutów danych, plasterki, nowe źródła, rozszerzone źródła, śledzenie historii, wycofywanie źródeł i zmiany struktury źródeł zarówno na etapie ETL, jak i modelowania.

model DV, w skrócie, jest warstwą istniejącą między regularnym modelowaniem wymiarowym (OLAP, schemat gwiazdy) a etapowaniem, która zapewnia skalowanie z rosnącymi wymaganiami biznesowymi i służy do przełamywania złożoności zarówno modelowania, jak i ETL. Składa się z węzłów (podmiotów gospodarczych), powiązań (relacji) i satelitów (atrybutów opisowych), które są modelowane gdzieś pomiędzy schematem 3NF i gwiazdy. Model jest umieszczony wewnątrz warstwy integracji danych hurtowni danych, powszechnie zwanej surowym skarbcem danych i jest skutecznie używany w połączeniu z modelem Kimballa.

Wskazówka: Jeśli jesteś zainteresowany zrozumieniem modelu i jego zasad podkreślania, proponuję chwycić kopię książki dana wspomnianej powyżej.

Skarbiec Danych 2.0 korzyści

oto przegląd niektórych kluczowych korzyści z podejścia Data Vault 2.0:

  • zakłada on najgorszy scenariusz dla relacji modelowania danych. Relacje N:M między obiektami biznesowymi w celu wyeliminowania potrzeby aktualizacji, Jeśli 1:m zamienia się w M: M. tym samym nie wymaga praktycznie żadnej dodatkowej pracy w skarbcu danych, gdy zmienia się stopień zależności.
  • jest przeznaczony do historycznego śledzenia wszystkich aspektów relacji danych i atrybutów, a także miejsca, z którego dane są pozyskiwane w czasie. Satelity, które są podobne do wymiarów, działają podobnie do SCD typu 2.
  • przedstawia zestaw zasad projektowania & struktur zwiększających historyczną wydajność śledzenia w skarbcu (PiT i Bridge). Model magazynu danych jest wystarczająco elastyczny, aby przyjąć te struktury w dowolnym momencie procesu modelowania iteracyjnego i nie wymaga zaawansowanego planowania.
  • zaprojektowany do logicznego oddzielania spacji zawierających surowe lub zmienione dane. Magazyn surowych danych jest podstawą danych, które można skontrolować w systemach źródłowych, a magazyn biznesowy zapewnia miejsce dla zaawansowanych użytkowników, którzy potrzebują dostępu do danych o krok w dół od centrum informacyjnego.
  • rozdziela miękkie i twarde reguły biznesowe na różne części integracji danych. Wymusza to możliwość ponownego wykorzystania danych w wielu zastosowaniach końcowych. Na przykład surowe dane są pozyskiwane tylko raz w magazynie danych (mniej ponownej integracji z etapami) i mogą być wielokrotnie przesyłane do dalszych potrzeb.
  • dla każdej iteracji zwinnej model magazynu danych, który przechowuje wszystkie historyczne śledzenie danych, jest łatwo rozszerzalny bez obawy o utratę danych historycznych. Ponadto śledzenie Historyczne jest przechowywane niezależnie od modelu wymiarowego.
  • Data Vault 2.0 zaleca implementację kluczy hashowych kluczy biznesowych w celu zmniejszenia liczby wyszukiwań, a tym samym zwiększenia równoległości ładowania. Skutkuje to mniejszą zależnością sekwencyjnego ładowania.
  • Skarbiec surowych danych został zaprojektowany tak, aby można go było w pełni skontrolować.
  • jako całość, przetwarzanie związane z przechodzeniem od etapu do schematu Gwiazdy & OLAP jest znacznie bardziej płynne & iteracyjne z magazynem danych.
  • zapewnia bardzo przemyślane podejście do łączenia danych z wieloma różnymi kluczami biznesowymi z heterogenicznych źródeł danych (częsty problem z integracją danych w magazynie w wielu systemach źródłowych). Klucze biznesowe nie zawsze są 1:1 lub w tym samym formacie.
  • mentalność modelowania „just in time”dobrze pasuje do podejścia agile.

wady

chociaż skarbca danych ma wiele zalet, ma również swoje wady, takie jak:

  • Skarbiec danych jest zasadniczo warstwą pomiędzy schematem information mart / star a inscenizacją. Istnieje kilka dodatkowych kosztów związanych z rozwojem tej warstwy zarówno w zakresie rozwoju ETL, jak i modelowania. Jeśli projekt jest na małą skalę lub jego żywotność jest krótkotrwała, może nie być warto stosować modelu magazynu danych.
  • jednym z głównych czynników wpływających na korzystanie z magazynu danych jest zarówno audyt, jak i śledzenie historii. Jeśli żadna z nich nie jest ważna dla Ciebie lub Twojej organizacji, może być trudno zjeść narzut wymagany do wprowadzenia innej warstwy do modelowania. Jednak mówiąc o długoterminowych wymaganiach, może to być opłacalna inwestycja z góry.
  • magazyn danych reprezentuje rozłożone podejście do relacji, kluczy biznesowych i atrybutów, dlatego liczba tworzonych tabel jest wysoka w porównaniu do denormalizowanych struktur, takich jak schemat Gwiazdy. Należy jednak wziąć pod uwagę, że skarbiec danych uzupełnia schemat Gwiazdy, więc porównanie to służy wyłącznie celom kontrastowym. Z tego powodu do przeglądania danych w DV wymagane jest wiele połączeń.
  • w momencie pisania this – DV zasoby są ograniczone. Złożone projekty wykorzystujące DV 2.0 nie są rozpowszechnione.
  • ogólnie podejście do modelowania może być bardzo niekonwencjonalne dla tych, którzy działali pod modelami Kimballa i (mniej) Inmona.

Czy Powinieneś Korzystać Z Magazynu Danych?

odpowiedź zależy od kilku zmiennych.

modelowanie magazynu danych postrzegamy jako bardzo realne podejście do potrzeb projektów hurtowni danych, w których zarówno śledzenie historii, jak i audyt to dwa ważne czynniki.

Ponadto, jeśli relacje między podmiotami biznesowymi stale ewoluują w Twoich danych (przykład 1:m do M:M), Usługa Data Vault upraszcza rejestrowanie tych relacji i pozwala skupić się bardziej na dostarczaniu rzeczywistej wartości.

jeśli Twoja organizacja planuje przechowywanie danych PII w magazynie i podlega przepisom RODO, HIPPA lub innym przepisom, Usługa Data Vault pomoże w audytach danych i identyfikowalności.

ważne będzie, aby skorzystać zarówno z zalet, jak i wad wymienionych powyżej, aby pomóc w wyborze, czy podejście Data Vault jest korzystne dla Twojego przypadku użycia.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.

lg