Data Vault 2.0 metodologia não leva apenas a técnica de modelagem, mas fornece uma metodologia completa para todos os projetos de Data Warehouse. Indellient see’s the Data Vault modeling as a very viable approach to meet the needs of data warehousing projects, where both historical tracking and auditability are two important factors.

por muitos anos, os projetos de inteligência de negócios (BI) têm e continuam a operar sob um modelo de Cachoeira. É definido por uma longa sequência de alongamento de cada fase que exige uma lista exaustiva de requisitos iniciais, um projeto completo de modelo de dados seguido de codificar todas as regras de negócios difíceis e suaves em processos ETL. A camada de visualização é sequencialmente construída e apresentada aos usuários finais para assinar fora – meses ou mesmo anos a partir da data de início original.

muitas vezes também vemos equipes adotarem uma versão “reduzida” da cascata que visa quebrar grandes iniciativas BI em projetos menores. Enquanto isso ajuda a reduzir a complexidade em geral, essa abordagem, quando aplicada ao BI, ainda é bastante arriscado devido a dois principais preocupações:

  • os requisitos de negócios agora estão mudando mais rápido do que a capacidade de entregar;
  • e orçamento titulares não estão dispostos a gastar em projectos de longo prazo com nenhum materializado resultados de curto prazo.

as razões acima são a razão pela qual temos visto uma mudança nas metodologias de projeto de cachoeira para a abordagem iterativa ágil – que reconhece e fornece algumas respostas para estas questões.

dentro do domínio de análise de dados, o ágil sozinho não aborda os desafios significativos que encontramos nos níveis mais detalhados de armazenamento de dados ou Projetos BI. Estes incluem::

  • iterando modelagem de dados
  • minimizar refatoração
  • concepção de ETL ou ELT rotinas que permitem a rápida resposta a mudanças na lógica de negócios ou novas adições de dados
  • uma abordagem para a coleta de requisitos de negócios que vão de perto empate para a entrada necessária para as decisões de design

Em resposta a estes desafios, Daniel Linstedt, autor de Construção Escalável Data Warehouse com Dados do Vault 2.0, define uma metodologia que se concentra em tirar o máximo partido de práticas ágeis com outras disciplinas e técnicas comprovadas para entregar o que parece ser a abordagem mais iterativa para BI ainda.

Introducing Data Vault

Contrary to popular belief, Data Vault (DV) is not just a modeling technique, it’s an entire methodology for data warehouse projects. Ele une aspectos de agilidade, requisitos de feixe de coleta, CMMI, TQM, Six Sigma e Data Vault modelagem para definir uma abordagem destinada a melhorar a velocidade e qualidade dos Projetos BI. Refiro-me a ela como a “aproximação de mísseis guiados”, uma vez que promove a adaptação e a precisão.

DV também engloba métodos ágeis de estimação de projetos DW e dimensionamento de Tarefas ágeis para determinar a complexidade tradicionalmente negligenciada ou esforço de trabalho envolvido em todos os componentes Dw comuns. Nos níveis mais baixos, apresenta também uma abordagem muito concisa e iterativa para abordar os resultados técnicos comuns (dentro do mundo BI) com pedidos novos ou em mudança de características. Estes incluem processos pensados, repetíveis, passo a passo e ágeis para realizar tarefas frequentes.

estas tarefas incluem (mas não se limitam a) a adição de atributos de dados, fatias, Novas Fontes, Fontes aumentadas, rastreamento histórico, fontes depreciativas e mudanças na estrutura de origem, tanto nas fases de ETL e modelização.

o modelo DV, em poucas palavras, é uma camada que existe entre modelagem dimensional regular (OLAP, Star Schema) e encenação que fornece escala com crescentes requisitos de negócios e serve para quebrar complexidades tanto da modelagem e ETL. É composto por hubs (entidades empresariais), links (relacionamentos) e satélites (atributos descritivos) que são modelados em algum lugar entre o esquema 3NF e star. O modelo é posicionado dentro da camada de integração de dados do data warehouse, comumente referido como o Cofre de dados Raw, e é efetivamente usado em combinação com o modelo de Kimball.

Dica: Se você está interessado em entender o modelo e suas regras de sublinhado, eu sugiro pegar uma cópia do livro de Dan mencionado acima.

Data Vault 2.0 benefícios

aqui está uma visão geral de alguns dos principais benefícios da abordagem da caixa de Dados 2.0:

  • ele assume o pior cenário para as relações de modelagem de dados. N: m relações entre objetos de negócios para eliminar a necessidade de atualizações se um 1:M se transforma em um M:M., exigindo assim praticamente nenhum trabalho adicional dentro da caixa de dados quando o grau de relacionamento muda.
  • é projetado para rastreamento histórico de todos os aspectos das relações de dados e atributos, bem como onde os dados estão sendo obtidos ao longo do tempo. Os satélites, que são similares às dimensões, operam similarmente ao SCD tipo 2.
  • apresenta um conjunto de princípios de design & estruturas para aumentar o desempenho histórico de rastreamento dentro do cofre (poço e Ponte). O modelo Data Vault é flexível o suficiente para adotar essas estruturas em qualquer momento dentro do processo de modelagem iterativa e não requer planejamento avançado.
  • concebido para separar logicamente espaços contendo dados brutos vs. alterados. O cofre de dados Raw é a base para os dados que são auditáveis para os sistemas de fonte e o cofre de negócios fornece um lugar para os usuários de energia que precisam de acesso aos dados um passo para baixo do information mart.
  • separa as regras comerciais suaves e duras em diferentes partes da integração de dados. Isto reforça a reutilização de dados através de várias utilizações finais. Por exemplo, os dados brutos só são obtidos uma vez dentro do Cofre de dados (menos re-integração na fase de preparação) e podem ser alimentados várias vezes para necessidades a jusante.
  • para cada iteração ágil, o modelo Data Vault, que armazena todo o rastreamento histórico de dados, é facilmente extensível sem ter que se preocupar com a perda de dados históricos. Além disso, o rastreamento histórico é armazenado independentemente do modelo dimensional.O Data Vault 2.0 defende a implementação chave de hash de chaves de negócios para reduzir as pesquisas e, portanto, aumentar a paralelização de carregamento. Isto resulta em dependências de carregamento menos sequenciais.
  • a caixa-Forte de dados brutos foi concebida para ser completamente auditável.
  • como um todo, o processamento envolvido com passar da fase para o esquema estelar & OLAP é feito muito mais suave & iterativo com caixa-Forte de dados.
  • ele fornece uma abordagem muito pensada para combinar dados com múltiplas chaves de negócios diferentes de fontes de dados heterogêneas (um problema comum com a integração de dados dentro do armazém em vários sistemas de fonte múltipla). As chaves de negócio nem sempre são 1:1 ou no mesmo formato.
  • a mentalidade de modelo “just in time” é uma boa combinação com a abordagem ágil.

as desvantagens

embora existam muitas vantagens para a caixa Forte de dados, também tem as suas deficiências, tais como:

  • o Cofre de dados é essencialmente uma camada entre o esquema da information mart / star e a encenação. Há algumas despesas Adicionais que vêm com o desenvolvimento desta camada tanto em termos de desenvolvimento ETL e modelagem. Se o projeto é em pequena escala ou a vida do projeto é de curta duração, pode não valer a pena perseguir um modelo de cofre de dados.
  • um dos principais factores subjacentes ao uso do Cofre de dados é tanto para fins de auditoria como de acompanhamento histórico. Se nenhum destes são importantes para você ou sua organização, pode ser difícil comer a sobrecarga necessária para introduzir outra camada em seu modelo. No entanto, falando de requisitos de longo prazo, pode ser um investimento inicial que vale a pena.
  • Data Vault representa uma abordagem decomposta às relações, chaves de negócios e atributos e, portanto, o número de tabelas que estão sendo criadas é alto quando comparado com estruturas desnormalizadas, tais como star schema. No entanto, considere que Data Vault complementa star schema para que esta comparação é apenas para fins contrastantes. Por esta razão, muitas junções são necessárias para ver os dados dentro do DV.
  • no momento da escrita, os recursos DV são limitados. Projetos complexos que utilizam DV 2.0 não são Informação generalizada.
  • a abordagem de modelagem, em geral, pode ser muito pouco convencional para aqueles que têm operado sob os modelos de Kimball e Inmon.Deve Investigar O Cofre De Dados?

    a resposta depende de algumas variáveis.Vemos a modelagem do Cofre de dados como uma abordagem muito viável para atender às necessidades de projetos de armazenamento de dados, onde tanto rastreamento histórico quanto auditabilidade são dois fatores importantes.Além disso, se as relações entre as entidades empresariais estão em constante evolução nos seus dados (Exemplo 1:M A M:M ), O Data Vault simplifica a captura dessas relações e permite-lhe concentrar-se mais na entrega de valor real.

    se a sua organização planeja armazenar dados PII dentro do armazém e está sujeita a GDPR, HIPPA ou outros regulamentos, Cofre de dados irá ajudar com auditorias de dados e rastreabilidade.

    será importante tomar os benefícios e desvantagens listados acima para ajudar a escolher se uma abordagem do Cofre de dados é vantajosa para o seu caso de uso.

Deixe uma resposta

O seu endereço de email não será publicado.

lg