DEV/Data Platform 7

데이터 플랫폼 설계와 구축 | 2장 데이터 웨어하우스만이 아닌 데이터 플랫폼인 이유

2장 데이터 웨어하우스만이 아닌 데이터 플랫폼인 이유 요약 정형 데이터와 반정형 데이터를 모두 대응해야하는 경우, 데이터 플랫폼을 구성해야 한다 웨어하우스방식은 수집된 데이터를 바로 웨어하스에 저장하지만, 플랫폼 방식은 블롭 스토리지와 데이터브릭스를 사용해서 수집, 임시저장, 처리의 계층을 분리하였다 웨어하우스 방식과 달리 플랫폼 방식은 입력 스키마 변경에 자유로울 수 있다 웨어하우스 방식과 달리 플랫폼 방식은 JSON과 같은 반정형 데이터가 분석 될 때에도 모듈화, 테스트, 유지보수성을 제공할 수 있다 플랫폼 방식에서 수집, 임지 저장, 처리의 계층을 분리한 덕분에 스키마 변경에 대해서 더욱 자유로울 수 있고, 스파크와 같은 분산 데이터 처리 엔진을 사용할 수 있게 된다 데이터 플랫폼을 사용하는 사용자..

DEV/Data Platform 2024.03.31

데이터 플랫폼 설계와 구축 | 1장 데이터 플랫폼 소개

0.0. 요약 데이터 분석의 목적 : 비즈니스 행위의 방향을 결정하기 위함 데이터 웨어하우스 + 데이터 레이크 = 데이터 플랫폼 데이터 플랫폼의 3가지 문제점 : 규모, 다양성, 속도 데이터 웨어하우스 → 클라우드 데이터 플랫폼으로 전환 수집 , 스토리지 , 처리, 서비스 계층의 분리 실시간 스프림 데이터와 배치 데이터의 분리 서비스 계층의 3가지 역할 비즈니스 부서 : 보고서, 대시보드, 가공된 데이터 분석가 : SQL, (가공된) 정형 데이터 개발자 : 익숙한 프로그래밍 언어, 원시 데이터 조회 공부할 개념 수집 계층 : 카프카 커넥트 (플러그앤 플레이 수집 기능) 처리 계층 : 스파크(잘 알려진 파일 형식 파싱) 수집 계층 클라우드 데이터 웨어하우스 구글 : 빅쿼리 AWS : 레드시프트 애저 : 시..

DEV/Data Platform 2024.03.30

데이터 플랫폼 설계와 구축 | 03. 빅3의 활용과 확대 | 수집, 저장, 처리, 메타데이터 계층 설계시 고려사항

현대 플랫폼 아키텍처가 가진 계층들과 각각의 역할을 설명한다. 이와 더불어 고속/저속 스토리지, 스트리밍과 배치 방식 비교, 메타데이터 관리, ETL 오버레이 , 데이터 소비자의 개념도 설명한다. 4계층으로 구성된 데이터 플랫폼 수집 저장 처리 서비스 클라우드 데이터 웨어하우스 / APIs / 데이터 내보내기 데이터 플랫폼의 6계층 수집 : 스트리밍 데이터와 배치 데이터를 수집해서 각각 다르게 처리한다 스트리밍 데이터 : 고속 스토리지 배치 데이터 : 저속 스토리지 / 데이터 레이크에 접속해 활용 스트리밍 모드 , 배치 모드에서 다양한 데이터 소스로 보안 연결할 수 있어야 한다2 데이터 변환이나 데이터 포맷 변환 과정을 크게 거치지 않고도 소스 시스템에서 데이터 플랫폼으로 데이터를 전송할 수 있어야 하며..

DEV/Data Platform 2023.11.06

데이터 플랫폼 설계와 구축 | 02. 데이터 웨어하우스만이 아닌 데이터 플랫폼인 이유 | 데이터 플랫폼에서의 데이터 수집,처리,엑세스 방식

데이터 수집 애저 데이터 팩토리와 같은 관리형 서비스를 사요하면 데이터 플랫폼이나 데이터 웨어하우스로 데이터를 수집하는 파이프라인은 비교적 쉽게 만들 수 있다. ... 그러나 데이터 수집 파이프라인이 동작하는 방식에서 클라우드 데이터 플랫폼과 클라우드 데이터 웨어하우스 구현 간에 근본적인 차이점이 있다. 클라우드 데이터 웨어하우스만 활용한 사례 마케팅 캠페인 데이터(MYSQL) - 애저 데이터 팩토리 서비스 - 애저 시냅스 (데이터 스토리지와 처리) 클릭 스트림 로그 - 애저 데이터 팩토리 서비스 - 애저 시냅스 (데이터 스토리지와 처리) MYSQL 연동 서비스를 통해서 캐페인 데이터를 입력 받는다. DW에서 저장할 스키마에 맞게 변경한다. 입력 데이터를 그대로 유지하기도 한다. 데이터 팩토리를 출력 데..

DEV/Data Platform 2023.11.04

데이터 플랫폼 설계와 구축 | 02. 데이터 웨어하우스만이 아닌 데이터 플랫폼인 이유 | 데이터 웨어하우스와 데이터 플랫폼의 차이

단일 데이터 웨어하우스와 데이터 플랫폼의 차이 A : 단일 클라우드 데이터 웨어하우스 기반의 아키텍처 B : 확대된 설계 원칙을 적용한 데이터 플랫폼 아키텍쳐 주요 사항 소스 데이터 구조가 변경될 때 데이터 플랫폼 파이프라인에는 어떤 일이 벌어지는가 대규모 반정형 데이터가 어떤 과정을 통해서 분석이 진행되는가 데이터를 제공하고 분석하는 방법 관점 기업에서 조그만 리포팅 솔루션을 구축해야 한다. 관계형 데이터베이스에 저장된 캠페인 데이터와 사용자의 클릭 정보를 스트림으로 저장한 클릭 스트림 정보가 있다. 이를 통해서 사용자들이 방문한 경로가 마케팅 캠페인의 링크로 들어온 정보인지, 그들이 누구인지를 찾아내야 한다. 마케팅 캠페인 테이블에는 id, 이메일, unique_code, send_date 정보 4가..

DEV/Data Platform 2023.11.01

데이터 플랫폼 설계와 구축 | 01. 데이터 플랫폼 소개 | 하둡 이후 퍼블릭 클라우드의 활용

# 퍼블릭 클라우드 활용 퍼블릭 클라우드는 온디맨드, 온디맨드+프로비저닝, 사용량 기반의 요금 지불 모델을 모두 지원한다. 이 퍼블릭 클라우드로 하둡의 한계를 뛰어넘는 데이터 레이크 설계가 가능하게 됐다. 이를 통해 데이터 레이크의 유연성과 확장성을 높일 수 있는 설계가 가능하고, 필요한 자원도 크게 줄일 수 있어서 비용 효과적이다. # 퍼블릭 클라우드의 장점 1. 언제나 리소스를 추가/축소 가능하다 2. 데이터 웨어하우스와 다르게 스토리지와 컴퓨팅을 각각 증설할 수 있게 되었다. 3. 사용량에 따라 비용 지불할 수 있다 4. 자본 투자/예산/상각 방식에서 운영 비용 방식으로의 전환 5. 시스템의 운영, 지원 및 업데이트를 클라우드 서비스에서 제공한다 6. 즉시 사용 가능 최근들어 수행 성능을 높여야 하..

DEV/Data Platform 2023.10.31

데이터 플랫폼 설계와 구축 | 01. 데이터 플랫폼 소개 | 데이터 웨어하우스부터 하둡 전성기까지의 흐름

# 기본 용어 - 데이터 웨어하우스 : 여러 소스 시스템들의 데이터를 한 군데로 구조화해 모으는 저장소 -> 기업의 의사결정 체계가 직관 기반에서 데이터 기반으로 변화 - 클라우드 데이터 플랫폼 : 모든 유형의 데이터를, 거의 무제한의 장소에서 비용 효과적인 클라우드 네이티브 방식으로 수집, 통합, 변환, 분석, 관리되는 데이터 플랫폼 -> 기존 방식의 문제 3가지 3V : 데이터 규모Volume, 데이터 다양성Variety, 데이터 속도Velocity # 데이터 웨어하우스 관련 동향 1. SaaS의 활용이 폭발적으로 증가. 비정형, 반정형 유형의 데이터가 생성됨 2. 마이크로서비스 아키텍처로의 변환 3. 기존 정형 데이터 분석만으로는 얻을 수 없는 데이터를 얻기 위해 원시 데이터를 직접 액세스하는 경향..

DEV/Data Platform 2023.10.30