지난 몇 년 동안,나는 데이터 인프라 생태계가 얼마나 불가사의하게 복잡한 좌절 친구 및 동료들과 많은 대화를 했어. 프론트 엔드 세계만큼 나쁘지는 않지만,유행어 수프를 만들 수있을 정도로 빠르게 변화하고 있습니다.

초보자로서,그것은 바로 당신을 위해 어떤 도구를 결정하는 슈퍼 도전이다. 아파치 재단은”빅 데이터”섹션에 38 개의 프로젝트를 나열하고 있으며,이 도구들은 그들이 해결한다고 주장하는 문제에 대해 많은 중복이 있습니다. 예를 들어,플링크,삼자,스톰 및 스파크 스트리밍은”분산 스트림 처리 엔진”,에이펙스 및 빔”스트림 및 일괄 처리 통합”입니다.

이 게시물에서는 데이터 인프라 구축을 위해 설정 한 옵션을 탐색하는 데 도움이되기를 바랍니다. 이것들은 대략 제가 지난 10 년 동안의 저의 경험과 이 공간에서 일하는 동료들과의 대화를 바탕으로 오늘 따라갈 단계입니다.

프로젝트의 시작에서,당신은 아마 손에”내 데이터에서 통찰력을 얻을”의 목표보다 더 아무것도 밖으로 설정하고 있습니다. 이를 특정 기술 세트에 매핑하는 것은 매우 어렵습니다. 어떤 도구가 인기가 있는지,”스트림”또는”배치”가 무엇을 의미하는지,또는 데이터 인프라가 필요한지 여부에 대해 큰 의미가 없을 것입니다.

이 게시물에서,나는 당신이 신속하게 지상에서 얻을 데이터에서 값을 추출하는 데 도움이되는 몇 가지 지침을 제공 할 수 있도록 노력하겠습니다. 나는 가능한 한 오랫동안 일을 단순하게 유지하고 확장 성을 위해 필요한 경우에만 복잡성을 도입 할 것을 강력히 믿는다. 이 게시물은 세 단계에 걸쳐 그 호를 따릅니다. 여러 가지 방법으로,그것은 내가 지난 몇 년 동안 따라 한 데이터 인프라를 구축하는 단계를 되돌아.

데이터 인프라를 설계하는 올바른 방법은 없습니다. 이 글을 읽는 전문가의 경우 여기에 제안 된 솔루션에 대한 대안을 선호 할 수 있습니다. 즉 환상적인,그리고 우리가 요즘 가지고있는 놀라운 도구의 다양성을 강조한다. 우리는 하둡 맵리 듀스는 우리가 가진 모든 때로부터 아주 먼 길을 왔어요.

여기 있습니다:아직”빅 데이터”가 없을 것입니다. 거의 4 년 후,크리스 스투 키오의 2013 년 하둡을 사용하지 않는 기사는 여전히 중요합니다. 당신은 데이터의 5 테라바이트 미만이있는 경우,작은 시작. 이것은 당신이 아직 필요하지 않은 시스템을 유지와 운영 두통을 절약 할 수 있습니다. 그러나 이봐,만약 당신이 작업 실패에서 오전 3 시 화재 훈련을 좋아한다면,이 섹션을 건너 뛰십시오…

그렇지 않으면 시작시 모든 유행어 기술에서 벗어나 두 가지에 집중하십시오. 이들은 미래의 모든 데이터 인프라를위한”안녕하세요,세계”백본이 될 것입니다.이는 전체 조직의 데이터를 잠금 해제하기 때문에 매우 중요합니다. 가장 용맹 한 마케팅 사람에 대한 드문 예외를 제외하고,당신은 키바나,그렙 일부 로그를 배우고,또는 노스큘 데이터 스토어의 모호한 구문을 사용하는 비 기술적 인 동료를 설득하지 않을 것이다.기업 전체가 셀프 서비스 분석가가 되어 이미 확장된 엔지니어링 팀을 중요한 경로에서 벗어날 수 있습니다. 그것은 또한 당신의 데이터에 대한 무료 품질 보증 팀으로 모두를 켭니다. “이봐,이 숫자는 이상하게 보입니다…”는 데이터 및 제품에서도 버그를 찾는 데 매우 중요합니다.

기본 데이터스토어가 관계형 데이터베이스인 경우 이 작업은 매우 간단합니다. 당신은 읽기 복제본,프로비저닝 액세스를 설정할 수 있습니다,당신은 모든 설정하고 있습니다.이 예제에서는 데이터 변환에 대해 더 많은 작업을 수행해야 합니다. 데이터 세계를 처음 접하셨다면,우리는 이것을 이터 파이프라인이라고 부릅니다. 기성 솔루션을 배선하는 것은 작은 데이터 볼륨과 훨씬 적은 비용이 될 것입니다,가능한 경우이 자신을 구축하지 마십시오. 기존 인프라에 따라 활용할 수 있는 세그먼트와 같은 클라우드 공급자가 있을 수 있습니다.

자체 데이터 파이프라인을 구축해야 하는 경우 처음에는 매우 간단하게 유지하십시오. 데이터베이스에서 업데이트를 주기적으로 덤프하는 스크립트를 작성하고 쿼리할 수 있는 위치에 씁니다.

제 3 자 소스의 에틀링 데이터에 대한 이야기는 다음과 같다. 이 웹 사이트는 귀하가 웹 사이트를 탐색하는 동안 귀하의 경험을 향상시키기 위해 쿠키를 사용합니다.이 쿠키들 중에서 필요에 따라 분류 된 쿠키는 웹 사이트의 기본적인 기능을 수행하는 데 필수적이므로 브라우저에 저장됩니다.또한이 웹 사이트의 사용 방식을 분석하고 이해하는 데 도움이되는 제 3 자 쿠키를 사용합니다.

매일 크론으로 이틀에 대한 스크립트를 실행할 머신을 설정하면 종족에 진출할 수 있습니다.

바이 툴

좋은 바이 툴은 데이터를 이해하는 데 중요한 부분입니다. 고려해야 할 몇 가지 훌륭한 도구는 차트,모드 분석 및 잠망경 데이터입니다. 대부분의 경우 빠른 구성으로 이러한 도구를 데이터베이스에 직접 지정하여 대시보드를 만들 수 있습니다.

이 모든 것을 합치면 데이터 인프라의”안녕하세요,세계”가 있습니다:

1 단계:”안녕하세요,세계”작은 데이터 파이프 라인

2 단계:”중간”데이터

이 시점에서,당신은 주위에 떠있는 몇 테라 바이트보다 더있어,당신의 크론+스크립트가 꽤 유지되지 않습니다. 아마도 당신은 데이터 스토어를 증식 시켰고 다른 유형의 백엔드가 혼합되어있을 것입니다. 당신은 또한 지금 당신이에서 데이터를 수집하고 제 3 자의 소수를 가질 수있다. 마지막으로,단계 간 종속성이 있는 여러 단계를 시작할 수 있습니다.

워크플로우 관리&자동화

이 단계의 첫 번째 단계는 공기 흐름을 설정하여 파이프라인을 관리해야 합니다. 공기 흐름을 사용하면 정기적으로 작업을 예약하고 작업 간의 시간적 및 논리적 종속성을 모두 표현할 수 있습니다. 또한 인프라에서 작업 재시도를 추가하고&를 모니터링하여 작업 오류를 경고할 수 있습니다. 특정 크기 이상의 모든 시작이 자신의 워크 플로우 관리자/작업 스케줄러를 작성하는 것은 농담입니다. 다른 사람의 사이에서,스포티 파이는 루이지를 썼다,그리고 대표자는 핀볼을 썼다. 그러나,이들은 지역 사회에 있는 더 적은 기세가 있고 기류에 관하여 몇몇 특징을 결여된다.

귀사의 비즈니스가 성장함에 따라 귀사의 요구사항이 크게 바뀔 것입니다. 단일 스크립트로 더 이상 인프라스트럭처를 줄일 수 없으므로 확장성이 더 높은 인프라를 구축해야 합니다. 또한 목표는 단순히 동일한 데이터를 처리하는 다른 다운스트림 작업을 지원하는 것으로 확장될 수 있습니다.

따라서 간단한 파이프라인은

확장되지 않습니다. 여기서 가능한 솔루션의 수는 절대적으로 압도적입니다. 아파치 스파크로 시작하는 것이 좋습니다. 스파크,거대한,매우 활동적인 커뮤니티를 가지고 잘 확장,그리고 일어나서 빠르게 실행하는 것은 매우 쉽습니다. 클라우드 데이터 프록을 사용하여 스파크를 실행할 수 있습니다. 당신이 관계형 데이터베이스에서 데이터를 섭취하는 경우,아파치 스퀘어 쿱은 거의 표준입니다.이러한 단계는 원본에서 데이터를 추출하고 해당 데이터를 영구 저장소에서 표준화된 형식으로 변환한 다음 쿼리할 수 있는 데이터 저장소에 로드하는 것입니다.데이터 웨어하우스

데이터 웨어하우스

데이터 웨어하우스

데이터 웨어하우스

데이터 웨어하우스

데이터 웨어하우스

데이터 웨어하우스

데이터 웨어하우스

방금 시작한 사람들을 위해 빅 쿼리를 사용하는 것이 좋습니다. 이 응용 프로그램은 당신이 당신의 데이터를 관리 할 수 있는 가장 쉬운 방법입니다. 여기서 많은 권장 사항과 마찬가지로 빅 쿼리에 대한 대안을 사용할 수 있습니다. 나는 서버리스 디자인,적절한 보안/감사 구성의 단순성 및 복잡한 유형에 대한 지원으로 인해 적색 편이에 대한 빅 쿼리에 대한 강한 선호도를 가지고있다. 프레스토는 온 프렘에 대한 하드 요구 사항이있는 경우 고려 가치가있다.

데이터웨어 하우스 설정에 대해 생각할 때 편리한 패턴은 처리되지 않은 데이터가 테이블 세트에 직접 착륙하고 두 번째 작업은이 데이터를”더 깨끗한”테이블로 사후 처리하는 2 단계 모델을 채택하는 것입니다.

이 더 깨끗한 테이블을 비즈니스에 대한 선별 된 뷰를 만들 수있는 기회로 취급하십시오. 비즈니스의 각 주요 엔터티에 대해 해당 엔터티를 분석하는 데 자주 사용하는 모든 측정항목 및 측정기준이 포함된 테이블을 만들고 큐레이팅해야 합니다. 예를 들어’사용자’테이블에는 가입 시간,구매 횟수 및 지리적 위치 또는 획득 채널과 같은 측정기준이 포함될 수 있습니다.

이 모든 것이 끝나면 인프라는 다음과 같아야합니다:

2 단계:”중간”데이터 파이프라인

🚀 3 단계:

올바른 기초와 함께 큰 것,더 많은 성장은 고통 스러울 필요가 없습니다. 당신은 종종 단순히 증가 된 데이터 볼륨을 처리하는 문제에 하드웨어를 던져 할 수 있습니다.

이 기간에 가장 어려운 문제는 종종 원시 규모뿐만 아니라 확장 요구 사항입니다. 예를 들어,테스트 지원,기계 학습 모델 교육 또는 변환된 데이터를 탄성 검색 클러스터로 파이프해야 할 수 있습니다.

이 단계에서 고려해야 할 몇 가지 사항:

  • 거의 실시간: 당신은 아마 훨씬 나중에 당신이 생각하는 것보다 때까지 분산 큐 또는 거의 실시간 인프라가 필요하지 않습니다. 그것은 초기에 가치가없는 모든 가능한 실패 모드를 처리하기 위해 추가 복잡성이 많이 제공됩니다. 투자 수익 미적분 의미가 일단,카프카 또는 클라우드 펍/서브를 시도합니다.
  • 확장성:단일 모놀리식 스파크 클러스터를 사용하면 거의 확실하게 리소스 경합 문제가 발생할 수 있습니다. 그렇게 할 때 완전히 탄력적 인 작업 범위의 스파크 클러스터를 탐색 할 가치가 있습니다.
  • 보안&감사: 일부 시점에서는 데이터 웨어하우스 데이터에 보다 세부적인 액세스 제어를 적용할 수 있습니다. 데이터 집합 액세스를 프로비저닝하고 배포 관리자를 사용하여 해당 액세스를 프로그래밍 방식으로 관리할 수 있습니다. 또한 사용자 쿼리를 이해하기 위한 감사 로그를 제공합니다. 아파치 녹스와 아파치 센트리와 같은 다른 도구는 온 프렘 보안 솔루션을 사용할 수 있습니다.
  • 테스트:사내 테스트 및 지원 실험을 위해 불행히도 많은 기성품 솔루션이 없습니다. 데이터 웨어하우스의 테이블을 채우는 스파크 작업의 파이프라인을 구축하는 것이 가장 좋은 방법일 것입니다.
  • 기계 학습:특징 추출을 위해 스파크에서 추가 데이터 파이프라인을 구축할 수 있습니다. 모델 자체를 위해 다시 작게 시작해야합니다. 가공된 피쳐는 하나의 머신에 적합할 정도로 작기 때문에 시킷 학습 또는 텐서플로우를 사용하여 모델을 학습할 수 있습니다. 하나의 기계가 더 이상 충분하지 않으면 스파크 또는 분산 텐서 흐름을 사용할 수 있습니다.

미래

지난 10 년간 데이터 인프라스트럭처 생태계가 얼마나 개선되었는지를 보는 것은 흥미로운 일이다. 우리는지도에 우리의 데이터 처리 논리를 강요하고 어색한 자바 감소 하둡 클러스터 및 체조를 탁아에서 먼 길을 왔어요. 당시 데이터 인프라를 구축하는 것은 장난감 망치를 사용하여 마천루를 구축하려고 같은 느낌.

오늘날 우리는 놀라운 다양한 도구를 가지고 있습니다. 스파크는 분명히 하둡 맵리 듀스에 잭-중-모든 거래 교체로 지배하고있다; 텐서플로우도 기계 학습 플랫폼으로 같은 일이 일어나기 시작합니다. 거의 예외를 제외하고,당신은 요즘 사내에서 처음부터 인프라 나 도구를 구축 할 필요가 없습니다,당신은 아마 물리적 서버를 관리 할 필요가 없습니다. 마천루는 이미,당신은 당신의 페인트 색상을 선택해야합니다.

서버리스 미래-그것은 완전히이

처럼 될 것입니다 앞으로 찾고,나는 데이터 인프라와 도구가 완전히 서버리스 플랫폼으로 이동 계속 기대-데이터 브릭은 스파크에 대한 이러한 제안을 발표했다. 서버리스 인프라는 우려의 우아한 분리를 허용:클라우드 제공 업체는 자신의 기업에 고유 한(그리고 정렬)문제에 초점을 엔지니어를 가능하게 하드웨어,개발 운영 및 도구에 대해 걱정할 수 있습니다. 미래는 원사 자원 경합 하드웨어 오류,사육사의 괴물,또는 문제가없는 하나이며,정말 멋지다.

편집:압정 데이터 인프라에 대해 작성한 이전 게시물에 링크 추가:

답글 남기기

이메일 주소는 공개되지 않습니다.

lg