데이터 볼트 2.0 방법론은 모델링 기술뿐만 아니라 모든 데이터웨어 하우스 프로젝트에 대한 전체 방법론을 제공합니다. 데이터 저장소 모델링은 데이터 웨어하우징 프로젝트의 요구 사항을 충족할 수 있는 매우 실행 가능한 접근 방식으로서 과거 추적 및 감사 기능이 두 가지 중요한 요소입니다.

수년 동안 비즈니스 인텔리전스 프로젝트는 폭포 모델에 따라 계속 운영되고 있습니다. 이는 각 단계의 긴 확장 시퀀스로 정의되며,선행 요구 사항의 완전한 목록,완전한 데이터 모델 설계 및 모든 하드 및 소프트 비즈니스 규칙을 데이터 프로세스로 성문화합니다. 시각화 계층은 순차적으로 작성되어 원래 시작 날짜로부터 몇 달 또는 몇 년 동안 로그오프 상태로 최종 사용자에게 표시됩니다.

꽤 자주 우리는 또한 팀이 큰 양방향 이니셔티브를 소규모 프로젝트로 나누는 것을 목표로하는 폭포의”감소 된 범위”버전을 채택하는 것을 봅니다. 이 방법은 전반적인 복잡성을 줄이는 데 도움이 되지만,이 방법을 적용하면 두 가지 주요 관심사로 인해 여전히 매우 위험합니다:

  • 비즈니스 요구 사항은 이제 제공 능력보다 빠르게 변화하고 있습니다.
  • 예산 보유자는 구체화 된 단기 결과없이 장기 프로젝트에 지출하기를 꺼립니다.

위의 이유는 우리가 이러한 문제에 대한 몇 가지 답변을 인식하고 제공하는 애자일의 반복적 민첩한 접근 방식으로 폭포에서 프로젝트 방법론의 변화를 본 이유입니다.

데이터 분석 영역 내에서 애자일만으로는 데이터 웨어하우징 또는 양방향 프로젝트의 보다 상세한 수준에서 발생하는 중요한 문제를 해결하지 못합니다. 여기에는 다음이 포함됩니다:

  • 데이터 모델링 반복
  • 리팩토링 최소화
  • 비즈니스 로직의 변화 또는 데이터의 새로운 추가에 대한 신속한 대응을 가능하게하는 리팩토링 루틴 설계
  • 설계 결정에 필요한 입력과 밀접하게 관련되는 비즈니스 요구 사항을 수집하는 접근 방식

이러한 과제에 대응하여 리팩토링 다니엘 린스테트,데이터 볼트와 확장 가능한 데이터웨어 하우스를 구축의 저자 2.0 은 검증된 다른 분야와 기술을 통해 애자일 사례를 최대한 활용하는 데 초점을 맞춘 방법론을 정의하여 아직 가장 반복적 인 접근 방식으로 보이는 것을 제공합니다.

데이터 볼트 도입

일반적인 믿음과는 달리 데이터 볼트는 단순한 모델링 기법이 아니라 데이터 웨어하우스 프로젝트의 전체 방법론입니다. 이 솔루션은 애자일,빔 요구 사항 수집,6 시그마 및 데이터 볼트 모델링의 측면을 결합하여 양방향 프로젝트의 속도와 품질을 모두 향상시키는 접근 방식을 정의합니다. 나는 그것을 적응과 정확성을 모두 촉진하기 때문에”유도 미사일 접근법”이라고 부른다.

낮은 수준에서,그것은 또한 새로운 또는 변경 기능 요청(양방향 세계 내에서)일반적인 기술 결과물을 태클에 매우 간결하고 반복적 인 접근 방식을 제공합니다. 여기에는 빈번한 작업을 수행하기위한 생각,반복 가능,단계별 및 민첩한 기반 프로세스가 포함됩니다.

이러한 작업에는 데이터 속성,슬라이스,새 소스,증강된 소스,이력 추적,더 이상 사용되지 않는 소스 및 모델링 단계 모두에서 소스 구조 변경이 포함됩니다(이에 국한되지는 않음).이 계층은 증가하는 비즈니스 요구 사항과 함께 스케일링을 제공하고 모델링과 이털링의 복잡성을 분해하는 역할을 합니다. 그것은 허브(비즈니스 엔티티),링크(관계)및 위성(설명 속성)으로 구성되어 있습니다. 이 모델은 일반적으로 원시 데이터 볼트라고 하는 데이터 웨어하우스의 데이터 통합 계층 안에 배치되며 킴볼의 모델과 함께 효과적으로 사용됩니다.

팁:당신이 모델과 밑줄 규칙을 이해에 관심이 있다면,나는 위에서 언급 한 댄의 책의 사본을 잡는 것이 좋습니다.

데이터 볼트 2.0 이점

다음은 데이터 볼트 2.0 접근법의 몇 가지 주요 이점에 대한 개요입니다:

  • 데이터 모델링 관계에 대한 최악의 시나리오를 가정합니다. 따라서 관계의 정도가 변경 될 때 데이터 볼트 내에서 사실상 추가 작업이 필요하지 않습니다.
  • 데이터의 모든 측면–관계 및 속성뿐만 아니라 데이터가 시간이 지남에 따라 공급되는 위치를 과거로 추적하도록 설계되었습니다. 차원과 유사한 위성은 유형 2 와 유사하게 작동합니다.
  • 볼트(구덩이와 다리)내에서 역사적 추적 성능을 높이기 위한 일련의 설계 원칙&구조물을 제시한다. 데이터 볼트 모델은 반복 모델링 프로세스 내에서 언제든지 이러한 구조를 채택할 수 있을 만큼 유연하며 고급 계획이 필요하지 않습니다.
  • 원시 데이터와 변경된 데이터를 포함하는 공간을 논리적으로 분리하도록 설계되었습니다. 원시 데이터 볼트는 소스 시스템에 감사 할 수있는 데이터의 기초이며 비즈니스 볼트는 정보 마트에서 한 단계 아래로 데이터에 액세스해야하는 고급 사용자를위한 장소를 제공합니다.
  • 은 소프트 및 하드 비즈니스 규칙을 데이터 통합의 다른 부분으로 분리합니다. 이를 통해 여러 최종 용도에 걸쳐 데이터를 재사용 할 수 있습니다. 예를 들어,원시 데이터는 데이터 볼트 내에서 한 번만 공급되며(스테이징에 다시 통합되지 않음)다운 스트림 요구에 여러 번 공급 될 수 있습니다.
  • 각 애자일 반복에 대해 모든 기록 데이터 추적을 저장하는 데이터 볼트 모델은 기록 데이터 손실에 대해 걱정할 필요없이 쉽게 확장 할 수 있습니다. 또한 히스토리 추적은 차원 모델과 독립적으로 저장됩니다.
  • 데이터 볼트 2.0 은 조회를 줄이고,따라서 로딩 병렬화를 높이기 위해 비즈니스 키의 해시 키 구현을 옹호한다. 이로 인해 순차적 로딩 종속성이 줄어 듭니다.
  • 원시 데이터 볼트는 완전히 감사할 수 있도록 설계되었습니다.
  • 전체적으로,스테이징에서 스타 스키마&올랍으로의 진행과 관련된 처리는 데이터 볼트와 함께 훨씬 더 원활하게 반복된다.
  • 이기종 데이터 소스의 여러 비즈니스 키와 데이터를 결합하는 매우 신중한 접근 방식을 제공합니다(여러 소스 시스템에서 웨어하우스 내의 데이터를 통합하는 일반적인 문제). 비즈니스 키가 항상 1:1 또는 동일한 형식은 아닙니다.
  • “제 시간에 맞춰”모델링 정신은 민첩한 접근 방식과 잘 어울립니다.

단점

데이터 볼트에는 많은 장점이 있지만 다음과 같은 단점이 있습니다:

  • 데이터 볼트는 기본적으로 정보 마트/스타 스키마와 스테이징 사이의 계층입니다. 이 계층의 개발 및 모델링과 관련하여 추가 오버헤드가 발생합니다. 프로젝트가 작은 규모이거나 프로젝트의 수명이 짧은 경우 데이터 볼트 모델을 추구 할 가치가 없을 수 있습니다.
  • 데이터 볼트를 사용하는 주요 요인 중 하나는 감사 및 기록 추적 목적입니다. 이들 중 어느 것도 귀하 또는 귀하의 조직에 중요하지 않은 경우 모델링에 다른 레이어를 도입하는 데 필요한 오버 헤드를 먹기가 어려울 수 있습니다. 그러나 장기적인 요구 사항에서 말하면 가치있는 투자가 될 수 있습니다.
  • 데이터 볼트는 관계,비즈니스 키 및 속성에 대한 분해 된 접근 방식을 나타내므로 생성되는 테이블 수는 스타 스키마와 같은 비정규 화 된 구조와 비교할 때 높습니다. 그러나 데이터 볼트가 스타 스키마를 보완하므로 이 비교는 대조 목적으로 만 사용됩니다. 이러한 이유로,많은 조인 데이터를 볼 수 있어야 합니다.
  • 이 글을 쓰는 시점에서-데브 자원은 제한되어 있습니다. 2.0 을 사용하는 복잡한 프로젝트는 널리 퍼진 정보가 아닙니다.
  • 모델링 접근 방식은 일반적으로 킴볼 및 인몬의 모델 하에서 운영되어 온 사람들에게 매우 틀에 얽매이지 않을 수 있습니다.

당신은 데이터 볼트를 추구해야합니까?

대답은 몇 가지 변수에 따라 다릅니다.

데이터 볼트 모델링은 과거 추적과 감사 가능성이 두 가지 중요한 요소인 데이터 웨어하우징 프로젝트의 요구를 충족하기 위한 매우 실행 가능한 접근 방식이라고 봅니다.

또한 비즈니스 엔터티 간의 관계가 데이터에서 지속적으로 진화하는 경우(예 1:미디엄-미디엄),데이터 볼트는 이러한 관계의 캡처를 단순화하고 실제 가치를 제공하는 데 더욱 집중할 수 있습니다.

귀사가 개인식별정보 데이터를 창고 내에 저장할 계획이고 데이터볼트,히파 또는 기타 규정의 적용을 받는 경우,데이터 볼트는 데이터 감사 및 추적성에 도움이 될 것입니다.

위에 나열된 장점과 단점을 모두 고려하여 데이터 볼트 접근 방식이 사용 사례에 유리한지 여부를 선택하는 것이 중요합니다.

답글 남기기

이메일 주소는 공개되지 않습니다.

lg