단일 데이터 웨어하우스와 데이터 플랫폼의 차이
- A : 단일 클라우드 데이터 웨어하우스 기반의 아키텍처
- B : 확대된 설계 원칙을 적용한 데이터 플랫폼 아키텍쳐
- 주요 사항
- 소스 데이터 구조가 변경될 때 데이터 플랫폼 파이프라인에는 어떤 일이 벌어지는가
- 대규모 반정형 데이터가 어떤 과정을 통해서 분석이 진행되는가
- 데이터를 제공하고 분석하는 방법 관점
기업에서 조그만 리포팅 솔루션을 구축해야 한다. 관계형 데이터베이스에 저장된 캠페인 데이터와 사용자의 클릭 정보를 스트림으로 저장한 클릭 스트림 정보가 있다. 이를 통해서 사용자들이 방문한 경로가 마케팅 캠페인의 링크로 들어온 정보인지, 그들이 누구인지를 찾아내야 한다.
마케팅 캠페인 테이블에는 id, 이메일, unique_code, send_date 정보 4가지 컬럼이 있다. 클릭 스트림 데이터는 고정된 스키마가 없는 데이터이다. 클릭 시간, 방문한 페이지에 대한 세부 정보, 방문자의 브라우저와 운영 체제에 대한 정보 등이 포함된다.
이 두 가지 유형의 데이터를 비용 효율적인 방식으로 통합한 클라우드 데이터 플랫폼을 설계해야한다. 두 번째는 마케팅 팀에서 통합된 데이터 분석을 위해서 사용할 수 있도록 해야한다.
클라우드 데이터 웨어하우스만 활용한 사례
이 아키텍쳐의 중심에는 최종 사용자에게 데이터를 저장, 처리, 제공하는 역할을 하는 관계형 데이터 웨어하우스가 존재한다. 소스에서 웨어하우스로 데이터를 적재하는 ETL 프로세스도 있다.
- 관계형 데이터 - 애저 데이터 팩토리 서비스(수집) -> 애저 시냅스(데이터 스토리지와 처리)
- 클릭 스트림 데이터 - 애저 데이터 팩토리 서비스(수집) -> 애저 시냅스(데이터 스토리지와 처리)
애저 데이터 팩토리는 완전 관리형 PaaS ETL 서비스이다. 데이터를 수집하고, 파일 압축 해제하고, 파일 형식 변경 등과 같은 기본 변환을 수행한다. 종착지에 데이터를 적재해서 파이프라인을 만들 수 있게 해준다.
애저 시냅스는 MS SQL Server 기술을 기반으로 완전 관리형 웨어하우스 서비스다. 데이터베이스 서버를 직접 설치, 구성 및 관리할 필요가 없다. 컴퓨팅 크기와 스토리지만 선택해주면 된다. MS SQL Server 전문가가 아니더라도 클라우드 데이터 웨어하우스 아키텍쳐를 매우 쉽게 구현할 수 있다.
클라우드 데이터 플랫폼 아키텍처
데이터레이크와 데이터 웨어하우스가 조합된 형태다. 클라우드 데이터 플랫폼은 데이터 파이프라인의 특정 측면을 담당하는 여러 계층으로 구성된다.
- 관계형 데이터 - 애저 데이터 팩토리(수집) - 애저 블록 스토리지(저장) - 애저 데이터 브릭스 (처리) - 애저 시냅스 (서비스)
- 클릭 스트림 데이터 - 애저 데이터 팩토리(수집) - 애저 블록 스토리지(저장) - 애저 데이터 브릭스 (처리) - 애저 시냅스 (서비스)
이전 방식과의 주요 차이점은 애저 데이터 팩토리를 통해서 수집된 데이터가 애저 블록 스트로지의 랜딩 영역에 소스 데이터로 저장된다는 것이다. 이는 원천 데이터 형식을 보존할 수 있고, 데이터 다양성에 관한 여러 이점을 얻을 수 있다.
데이터가 애저 블록 스토리지에 도착하면 애저 데이터브릭스는 아파치 스파크를 사용해서 데이터를 처리한다. 스파크와 같은 분산 데이터 처리 프레임워크는 다양한 데이터 형식과 거의 무한한 데이터 볼륨을 처리하는 데 도움이 될 수 있지만, 이러한 툴은 대화형 쿼리 용도로는 적합하지 않다. 일반적을 쿼리의 응답이 몇 초 이내이기를 기대한다면 말이다. 잘 설계된 관계형 웨어하우스는 일반적으로 스파크보다 더 빠른 쿼리 성능을 제공한다. 이를 통해서 일반 사용자가 ㅅ가용하기에 용이한 방식으로 데이터를 조회한다.
-> 그러면 스파크에서 데이터를 처리하는데 걸리는 시간은 보통 얼마나 걸릴까? 스파크에서 처리하는 시간이 오래걸릴수록 관계형 데이터 베이스에 적재되는 시간이 느려지고, 사용자가 최근 데이털르 볼 때까지 기다려야하는 시간이 길어진다.
'DEV > Data Platform' 카테고리의 다른 글
데이터 플랫폼 설계와 구축 | 1장 데이터 플랫폼 소개 (0) | 2024.03.30 |
---|---|
데이터 플랫폼 설계와 구축 | 03. 빅3의 활용과 확대 | 수집, 저장, 처리, 메타데이터 계층 설계시 고려사항 (1) | 2023.11.06 |
데이터 플랫폼 설계와 구축 | 02. 데이터 웨어하우스만이 아닌 데이터 플랫폼인 이유 | 데이터 플랫폼에서의 데이터 수집,처리,엑세스 방식 (1) | 2023.11.04 |
데이터 플랫폼 설계와 구축 | 01. 데이터 플랫폼 소개 | 하둡 이후 퍼블릭 클라우드의 활용 (1) | 2023.10.31 |
데이터 플랫폼 설계와 구축 | 01. 데이터 플랫폼 소개 | 데이터 웨어하우스부터 하둡 전성기까지의 흐름 (0) | 2023.10.30 |