전체 글 87

데이터 플랫폼 설계와 구축 | 03. 빅3의 활용과 확대 | 수집, 저장, 처리, 메타데이터 계층 설계시 고려사항

현대 플랫폼 아키텍처가 가진 계층들과 각각의 역할을 설명한다. 이와 더불어 고속/저속 스토리지, 스트리밍과 배치 방식 비교, 메타데이터 관리, ETL 오버레이 , 데이터 소비자의 개념도 설명한다. 4계층으로 구성된 데이터 플랫폼 수집 저장 처리 서비스 클라우드 데이터 웨어하우스 / APIs / 데이터 내보내기 데이터 플랫폼의 6계층 수집 : 스트리밍 데이터와 배치 데이터를 수집해서 각각 다르게 처리한다 스트리밍 데이터 : 고속 스토리지 배치 데이터 : 저속 스토리지 / 데이터 레이크에 접속해 활용 스트리밍 모드 , 배치 모드에서 다양한 데이터 소스로 보안 연결할 수 있어야 한다2 데이터 변환이나 데이터 포맷 변환 과정을 크게 거치지 않고도 소스 시스템에서 데이터 플랫폼으로 데이터를 전송할 수 있어야 하며..

DEV/Data Platform 2023.11.06

데이터 플랫폼 설계와 구축 | 02. 데이터 웨어하우스만이 아닌 데이터 플랫폼인 이유 | 데이터 플랫폼에서의 데이터 수집,처리,엑세스 방식

데이터 수집 애저 데이터 팩토리와 같은 관리형 서비스를 사요하면 데이터 플랫폼이나 데이터 웨어하우스로 데이터를 수집하는 파이프라인은 비교적 쉽게 만들 수 있다. ... 그러나 데이터 수집 파이프라인이 동작하는 방식에서 클라우드 데이터 플랫폼과 클라우드 데이터 웨어하우스 구현 간에 근본적인 차이점이 있다. 클라우드 데이터 웨어하우스만 활용한 사례 마케팅 캠페인 데이터(MYSQL) - 애저 데이터 팩토리 서비스 - 애저 시냅스 (데이터 스토리지와 처리) 클릭 스트림 로그 - 애저 데이터 팩토리 서비스 - 애저 시냅스 (데이터 스토리지와 처리) MYSQL 연동 서비스를 통해서 캐페인 데이터를 입력 받는다. DW에서 저장할 스키마에 맞게 변경한다. 입력 데이터를 그대로 유지하기도 한다. 데이터 팩토리를 출력 데..

DEV/Data Platform 2023.11.04

데이터 플랫폼 설계와 구축 | 02. 데이터 웨어하우스만이 아닌 데이터 플랫폼인 이유 | 데이터 웨어하우스와 데이터 플랫폼의 차이

단일 데이터 웨어하우스와 데이터 플랫폼의 차이 A : 단일 클라우드 데이터 웨어하우스 기반의 아키텍처 B : 확대된 설계 원칙을 적용한 데이터 플랫폼 아키텍쳐 주요 사항 소스 데이터 구조가 변경될 때 데이터 플랫폼 파이프라인에는 어떤 일이 벌어지는가 대규모 반정형 데이터가 어떤 과정을 통해서 분석이 진행되는가 데이터를 제공하고 분석하는 방법 관점 기업에서 조그만 리포팅 솔루션을 구축해야 한다. 관계형 데이터베이스에 저장된 캠페인 데이터와 사용자의 클릭 정보를 스트림으로 저장한 클릭 스트림 정보가 있다. 이를 통해서 사용자들이 방문한 경로가 마케팅 캠페인의 링크로 들어온 정보인지, 그들이 누구인지를 찾아내야 한다. 마케팅 캠페인 테이블에는 id, 이메일, unique_code, send_date 정보 4가..

DEV/Data Platform 2023.11.01

데이터 플랫폼 설계와 구축 | 01. 데이터 플랫폼 소개 | 하둡 이후 퍼블릭 클라우드의 활용

# 퍼블릭 클라우드 활용 퍼블릭 클라우드는 온디맨드, 온디맨드+프로비저닝, 사용량 기반의 요금 지불 모델을 모두 지원한다. 이 퍼블릭 클라우드로 하둡의 한계를 뛰어넘는 데이터 레이크 설계가 가능하게 됐다. 이를 통해 데이터 레이크의 유연성과 확장성을 높일 수 있는 설계가 가능하고, 필요한 자원도 크게 줄일 수 있어서 비용 효과적이다. # 퍼블릭 클라우드의 장점 1. 언제나 리소스를 추가/축소 가능하다 2. 데이터 웨어하우스와 다르게 스토리지와 컴퓨팅을 각각 증설할 수 있게 되었다. 3. 사용량에 따라 비용 지불할 수 있다 4. 자본 투자/예산/상각 방식에서 운영 비용 방식으로의 전환 5. 시스템의 운영, 지원 및 업데이트를 클라우드 서비스에서 제공한다 6. 즉시 사용 가능 최근들어 수행 성능을 높여야 하..

DEV/Data Platform 2023.10.31

데이터 플랫폼 설계와 구축 | 01. 데이터 플랫폼 소개 | 데이터 웨어하우스부터 하둡 전성기까지의 흐름

# 기본 용어 - 데이터 웨어하우스 : 여러 소스 시스템들의 데이터를 한 군데로 구조화해 모으는 저장소 -> 기업의 의사결정 체계가 직관 기반에서 데이터 기반으로 변화 - 클라우드 데이터 플랫폼 : 모든 유형의 데이터를, 거의 무제한의 장소에서 비용 효과적인 클라우드 네이티브 방식으로 수집, 통합, 변환, 분석, 관리되는 데이터 플랫폼 -> 기존 방식의 문제 3가지 3V : 데이터 규모Volume, 데이터 다양성Variety, 데이터 속도Velocity # 데이터 웨어하우스 관련 동향 1. SaaS의 활용이 폭발적으로 증가. 비정형, 반정형 유형의 데이터가 생성됨 2. 마이크로서비스 아키텍처로의 변환 3. 기존 정형 데이터 분석만으로는 얻을 수 없는 데이터를 얻기 위해 원시 데이터를 직접 액세스하는 경향..

DEV/Data Platform 2023.10.30

ElasticSearch Tutorial | 05. Fileabeat 연결하기

Fileabeat 다운로드 download page link : https://www.elastic.co/kr/downloads/past-releases/filebeat-7-15-0 tar for MAC OS : https://artifacts.elastic.co/downloads/beats/filebeat/filebeat-7.15.0-darwin-x86_64.tar.gz 프로젝트 루트로 이동해서 tar 파일을 다운로드 받습니다. cd {YOUR_PROJECT_ROOT}/filebeat wget https://artifacts.elastic.co/downloads/beats/filebeat/filebeat-7.15.0-darwin-x86_64.tar.gz 압축을 해제합니다 tar -xvf filebeat..

ElasticSearch Tutorial | 04. Logstash 연결하기

Logstash 다운로드 download page link : https://www.elastic.co/kr/downloads/past-releases/logstash-7-15-0 tar for MAC OS : https://artifacts.elastic.co/downloads/logstash/logstash-7.15.0-darwin-x86_64.tar.gz 프로젝트 루트로 이동해서 tar 파일을 다운로드 받습니다. 지금은 ES를 standalone으로도 구성해보고, 뒤에서 cluster로도 구성해볼겠습니다 cd {YOUR_PROJECT_ROOT}/logstash wget https://artifacts.elastic.co/downloads/logstash/logstash-7.15.0-darwin-x8..

ElasticSearch Tutorial | 03. Kibana 연결하기

Kibana 다운로드 ElasticSearch에서 다운받았던 버전과 똑같은 버전의 Kibana를 다운로드 받습니다. download page link : https://www.elastic.co/kr/downloads/past-releases/kibana-7-15-0 tar for MAC OS : https://artifacts.elastic.co/downloads/kibana/kibana-7.15.0-darwin-x86_64.tar.gz 프로젝트 루트로 이동해서 tar 파일을 다운로드 받습니다. 지금은 ES를 standalone으로도 구성해보고, 뒤에서 cluster로도 구성해볼겠습니다 cd {YOUR_PROJECT_ROOT}/kibana wget https://artifacts.elastic.co/d..

ElasticSearch Tutorial | 02. Cluster 구성해보기

ElasticSearch Cluster 구성하기 standalone으로 구성해볼 때 사용했던 디렉토리 구조는 아래와 같습니다. ./standalone ├── elasticsearch-7.15.0 // 이 디렉토리 전체를 복사 │ ├── LICENSE.txt │ ├── NOTICE.txt │ ├── README.asciidoc │ ├── bin │ ├── config │ ├── data // 직전 실행 과정에서 남아있던 파일을 삭제 │ ├── jdk.app │ ├── lib │ ├── logs // 직전 실행 과정에서 남아있던 파일을 삭제 │ ├── modules │ └── plugins └── elasticsearch-7.15.0-darwin-x86_64.tar.gz cluster로 구성하기 위해 ela..

ElasticSearch Tutorial | 01. 무작정 시작하기

1. Easticsearch 7.* 다운로드하기 ES 7.* 버전이 아무런 설정을 하지 않아도 127.0.0.1:9200 포트로 접근이 가능합니다. download page link : https://www.elastic.co/kr/downloads/past-releases/elasticsearch-7-15-0 tar for MAC OS : https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-7.15.0-darwin-x86_64.tar.gz 프로젝트 루트로 이동해서 tar 파일을 다운로드 받습니다. 지금은 ES를 standalone으로도 구성해보고, 뒤에서 cluster로도 구성해볼겠습니다 cd {YOUR_PROJECT_ROOT}/sta..