데이터 모델링은 종종 데이터 과학의 핵심입니다. 그러나 데이터 과학은 모델링에만 국한되지 않습니다. 데이터 모델링은 전체 데이터 과학 파이프라인의 20%에 불과합니다. 데이터에서’가치’를 추출하기 위해서는 동기 부여(실제 문제 해결)와 데이터 과학자의 가이드 힘 역할을하는 비즈니스 도메인 지식을 수집,제거 및 탐색해야합니다.

은유 적으로 데이터 과학은 마법(예측)과 추론(비교 및 해석)과 같습니다. 야심 찬 데이터 과학자로서,당신은 자동 마술 결과를 예측하고 데이터에 이전에 알려지지 않은 경향과 패턴을 식별 할 수있는 능력을 갖고 싶어 할 것입니다.

이것은 데이터 과학 파이프라인이 작동하는 곳입니다.

‘데이터 과학 파이프 라인의 작동 방식’을 이해하는 것이 실제 문제를 해결하기위한 첫 번째 단계입니다.

이 게시물에서는 최종 사용자가 사용할 수 있는 제품을 만들기 위해 수행해야 하는 데이터 과학 파이프라인과 관련된 단계에 대해 설명합니다.

  1. 문제 이해

데이터 과학 사용을 시작하기 전에 문제가 있거나 문제 설명을 정의해야 합니다. 먼저 해결하려는 문제를 정의하고 이해할 필요가 있습니다. 실행 가능한 통찰력 또는 제품은 문제의 너의 이해 단 좋을 수 있는다.

문제를 해부하려면 영역이나 사업에 대한 철저한 이해가 필요합니다.

데이터 과학 파이프라인이 끝날 때까지 구축하려는 모델은 당면한 문제에 전적으로 의존합니다. 다른 요구 사항과 목표를 위해 알고리즘을 조정해야합니다. 한 크기에 맞는 모든 접근 방식이 작동하지 않습니다.

시나리오 예:예를 들어 전자상거래 포털에 대한 권장 사항 엔진을 작성하는 경우를 생각해 보십시오. 목표는 플랫폼의 모든 신규 방문자에게 제품을 추천하는 것입니다. 비즈니스 목표는 플랫폼에 최대 시간을 보내고 그녀의 첫 번째 주문을 처음 방문자를 얻는 것입니다. 그러나 신규 방문자와 재방문자 모두를 위한 시스템을 구축하면 아무 소용이 없습니다. 그리고 추천 엔진이 신규 방문자가 다른 제품을 탐색하고 첫 번째 주문을하는 방식에 대한 패턴을 식별하지 못하면 비즈니스 조직에 아무런 가치가 없습니다. 이것이 문제와 영역을 이해하는 것이 유용한 데이터 과학 제품을 구축하는 데 중요한 이유입니다.

2. 데이터 수집

데이터는 문제에 대한 이해를 바탕으로 수집됩니다. 데이터 수집은 지루하고 시간이 많이 걸리는 프로세스입니다. 그것은 인내,에너지 및 시간을 요구합니다.

더 많은 데이터를 사용하면 더 강력한 모델을 구축 할 수 있습니다.

신뢰할 수 있는 모델을 구축하기 위해서는 정확한 데이터를 연구하는 것이 가장 중요합니다. 데이터 포인트 이상치가 너무 많은 경우 가장 세련된 모델조차도 실패 할 운명입니다.

예제 시나리오:처음 방문자와 관련된 데이터 집합과 주요 이벤트 및 작업을 수집합니다. 예를 들어,클릭 위치 또는 플랫폼에서 다양한 제품을 탐색하는 방법을 추적합니다. 당신이 반환 방문자의 데이터를 사용하는 경우,당신은 데이터에 노이즈를 추가 할 것입니다.분산 스토리지:하둡,아파치 스파크

구조화되지 않은 데이터 검색:텍스트,이미지,비디오,오디오 파일,문서,엑셀 등

3. 데이터 정리

데이터 과학 파이프라인의 이 단계에서는 일반적으로 가장 많은 시간과 노력이 필요합니다. 데이터 과학 모델의 결과 및 산출물은 사용자가 넣은 데이터만큼 좋습니다. 다음과 같은 스크립팅 언어 파이썬 과 아르 자형 데이터 청소에 사용됩니다.

수집된 데이터는 구조화된 형태로 검사,세척 및 저장됩니다. 핵심 목표는 이 단계에서 가능한 한 많은 노이즈를 제거하는 것이며,비즈니스 문제에 대한 도메인 지식과 이해는 이상값을 식별하고 제거하는 데 도움이 됩니다.

이렇게 정리된 데이터는 다음 단계에서 탐색 데이터 분석 및 모델링에 사용됩니다.

예제 시나리오:노이즈를 추가하고 비즈니스 요구 사항에 연결되지 않은 모든 데이터를 현재 문제의 문제와 관련시켜 제거해야 합니다. 데이터를 검사할 때 손상된 레코드,오류 및 결측값을 식별해야 합니다. 스크러빙 중에 오류 또는 누락된 값이 있는 데이터 세트는 폐기,교체 또는 채워집니다.

필요한 기술:

스크립팅 언어:파이썬 또는 아르 자형

데이터 논쟁 도구:파이썬 팬더,아르 자형

4. 탐색 데이터 분석

이제 깨끗한 데이터를 사용할 수있게되었으므로 탐색 할 시간입니다!

이 단계에서 목표는 통찰력을 추출하고 데이터에서 숨겨진 패턴을 식별하여 해결해야 할 비즈니스 및 특정 문제에 매핑하는 것입니다.

이전 단계에서와 마찬가지로 도메인을 잘 이해하면 데이터와 관련된 유용한 정보와 통찰력을 더 많이 발견할 수 있는 방향으로 데이터 분석을 수행할 수 있습니다.

예제 시나리오: 1 단계에서 설명한 예에서 전자 상거래 시장의 계절적 추세에 대한 이해를 바탕으로 여름 기간 동안 처음 웹 사이트 방문자의 절반이 냉장고를 확인하는 데 3 분 이상을 소비했음을 알 수 있습니다.

탐색 적 데이터 분석 중에 이상하거나 흥미로운 패턴/추세를 발견 할 수있는 감각을 실제로 개발해야합니다.

시각화 도구는 차트 및 시각화를 통해 패턴을 추출하는 데 유용하며 통계 테스트 방법은 기능을 추출하고 그래프와 분석을 사용하여 결과를 백업하는 데 유용합니다.

분석을 기반으로 필요한 경우 이 단계에서 새로운 피처를 생성할 수 있습니다.

필요한 기술:

탐색 데이터 분석에 사용되는 일반적인 시각화 라이브러리는 다음과 같습니다. 데이터 모델링

이제 기계 학습 및 딥 러닝 알고리즘을 사용하여 문제를 해결할 때입니다. 이는 전체 데이터 과학 파이프라인에서 가장 흥미로운 단계입니다.

다른 방법/알고리즘이 테스트됩니다. 예측 분석 측면에서 최상의 성능을 제공하는 방법이 선택됩니다. 이 모델은 여러 번 정제되고 평가됩니다.

모델의 예측 능력은 사용하는 피처의 품질에 따라 달라집니다.

예제 시나리오:권장 사항 엔진의 데이터 모델에서 특정 주방 가전 제품,식료품 및 그루밍 제품의 조합에서 하나 이상의 항목을 처음 방문자가 구매할 가능성이 있다고 예측할 수 있습니다.기계 학습 모델을 빌드하는 데 사용할 수 있습니다. 오늘날 사용 가능한 다양한 딥 러닝 프레임 워크 중에서 케 라스/텐서 플로우는 딥 러닝 모델을 구축하는 데 사용할 수 있습니다. 당신이 하나를 선택하기 전에 다양한 측면에서 프레임 워크를 비교.

6. 배포

이제 모델이 준비되었으므로 최종 사용자가 모델에 액세스할 수 있도록 해야 합니다.

모델은 확장 가능해야 합니다. 새 데이터를 사용할 수 있는 경우 모델을 재평가하고 업데이트할 수 있습니다.

최종 단어

데이터 과학 파이프라인은 처음부터 끝까지 견고해야 합니다. 각 단계는 중요합니다.

답글 남기기

이메일 주소는 공개되지 않습니다.

lg