반응형
반응형
반응형

개념부터 기업 구축 방법, DW와의 차이, 메타데이터 구성까지

데이터가 기업 경쟁력의 핵심으로 떠오르면서 "데이터레이크(Data Lake)"라는 용어를 자주 듣게 된다.

하지만 많은 사람들이 막연히 "데이터를 많이 저장해두는 곳" 정도로만 이해하고 있다.

이번 글에서는 데이터레이크를 개념→ 구성 방식 → 데이터웨어하우스와의 차이 →메타데이터 관리 까지 체계적으로 정리해본다.


1. 데이터레이크란 무엇인가?

데이터레이크(Data Lake)는 이름 그대로 모든 데이터를 원형(raw) 그대로 담아둘 수 있는 거대한 저장소다.

데이터베이스나 전통적인 DW가 "깨끗하게 다듬어진 물"이라면,

데이터레이크는 정형·반정형·비정형이 모두 흘러 들어가는 원천 호수에 가깝다.

데이터레이크의 핵심 정의

  • 기업 내부·외부에서 생성되는 모든 형태의 데이터를 대규모로 저장하는 중앙 데이터 저장소
  • 구조화되지 않은 데이터도 스키마를 적용하지 않고 바로 저장 가능
  • 저장된 데이터를 분석, 시각화, 머신러닝, AI 모델 개발 등 다양한 용도로 활용
  • 클라우드 객체 스토리지 기반(AWS S3, Azure ADLS, GCP GCS)

주요 특징

1) Schema-on-Read

데이터를 저장할 때 스키마를 정의하지 않고, 읽는 시점에 스키마를 적용한다.

→ 저장 비용·시간 절감, 모든 데이터를 보존 가능

2) 고확장성(Scalability)

페타바이트(PB)급 데이터도 저장 가능, 클라우드 기반이라 자동 확장

3) 저비용 구조

고가 스토리지가 필요 없는 객체 스토리지 기반

DW 대비 최대 수십 배 비용 절감

4) 다양한 데이터형 지원

정형(정규화된 테이블), 반정형(JSON,CSV,XML), 비정형(이미지, 음성, 영상, 로그 등) 모두 저장


2. 기업에서 데이터레이크를 구성하는 방법

데이터레이크는 단순히 데이터를 저장하는 공간이 아니라

수집→저장 →처리 →거버넌스 →분석 까지 포함하는 데이터 플랫폼이다.

일반적으로 아래와 같은 구조로 구성된다.


1) 데이터 소스 계층 (Data Sources)

기업 내 다양한 시스템에서 발생하는 데이터가 레이크로 유입된다.

  • ERP, CRM, SCM 등 업무 시스템
  • Web/App 로그
  • IoT 센서 데이터
  • SNS/외부 데이터 API
  • 데이터베이스(DB)

2) 데이터 수집(Ingestion) 계층

데이터를 실시간 또는 배치로 수집해 레이크로 옮기는 단계

  • Batch: Airflow, AWS Glue, Informatica, Talend
  • Streaming: Kafka, Kinesis, Flink

핵심: 안정적인 파이프라인 구성 & 장애 대비


3) 저장(Storage) 계층 - Data Lake Zone 구조

데이터레이크는 보통 영역(Zone)으로 나누어 체계적으로 관리한다.

◆ Raw Zone (Landing Zone)

  • 원본 데이터를 아무 가공 없이 저장하는 영역
  • 오류 포함 가능하지만 데이터 손실 방지 목적

◆ Cleansed Zone (Refined Zone)

  • 기본적인 정제·필터링을 거친 데이터
  • 중복 제거, 포멧 통일 등 품질 향상

◆ Curated Zoen (Business Zone)

  • 분석·BI·ML 목적에 맞게 구조화된 데이터
  • 데이터마트처럼 특정 분석 목적에 최적화된 형태

이런 다층 구조는 레이크에 저장된 데이터가 "무질서"해지는 것을 방지한다.


4) 처리(Processing) 계층

데이터레이크의 가장 중요한 부분 중 하나,

데이터를 분석 가능하도록 가공·변환하는 영역이다.

  • Spark, Databricks, EMR
  • Presto, Trino, Hive
  • Python 기반 ETL, ELT
  • ML/AI: SageMaker, Databricks ML

ETL/ELT 파이프라인이 이 계층에서 구현된다.


5) 보안 & 거버넌스(Governance) 계층

데이터레이크는 자유도가 높은 만큼 보안과 관리가 매우 중요하다.

  • IAM 기반 접근 제어
  • 데이터 분류(Classification)
  • 데이터 카탈로그(Data Catalog)
  • 개인정보 비식별화/마스킹
  • 규정 준수(GDPR, ISO 등)
  • 데이터 수명주기 관리(Lifecycle Policy)

거버넌스가 없으면 데이터레이크는 쉽게 "데이터 스왐프(Data Swamp)"가 된다.


6) 분석 & 활용 계층(Analytics Layer)

데이터레이크의 핵심 목적은 데이터 활용이다.

  • SQL 질의: Athena, BigQuery, Redshift Spectrum
  • BI: Power BI, Tableau, Looker
  • 데이터 사이언스: Jupyter, ML Studio
  • 실시간 대시보드: Kafka Streams, Spark Streaming

3. 데이터레이크 vs 데이터 웨어하우스(DW)

두 개념은 종종 혼동되지만 목적과 구성 방식이 완전히 다르다.


핵심 차이표

구분 데이터레이크 데이터 웨어하우스(DW)
목적 다양한 데이터 저장·활용 정형 데이터 기반 BI 분석
데이터 형태 정형 + 비정형 정형 중심
스키마  Schema-on-Road Schema-on-Write
저장 비용 매우 낮음 상대적으로 높음
확장성 PB급 이상, 무한 확장 제한적
사용자 데이터 과학자, 엔지니어 분석가, 경영진
처리 방식 ELT 중심(Extract-Load-Transform) ETL 중심(Extract-Transform-Load)
사용 사례 AI/ML, 로그 분석, 데이터 탐색 대시보드, 매출·고객 분석

요약 교훈

  • DW는 정형 분석을 위한 "정제된 창고"
  • 데이터레이크는 모든 데이터를 담아두는 "원천 호수"

둘은 경쟁 관계가 아니라 "용도"가 다르다.


4. 데이터레이크가 실제 사용되기 위한 메타데이터 구성 방법

데이터레이크를 구축했다 하더라도

메타데이터 관리가 제대로 되지 않으면

데이터를 찾을 수 없고, 신뢰할 수 없고, 활용할 수 없다.

그래서 메타데이터는 데이터레이크의 "두뇌" 역할을 한다.


메타데이터란?

데이터에 대한 설명 정보

예: 파일이 언제 생성됐는지, 누가 만들었는지, 어떤 형식인지, 어떤 테이블과 연결되는지 등


메타데이터의 유형

1) 기술 메타데이터(Techinal Metadata)

  • 파일 경로
  • 스키마 정보
  • 데이터 타입
  • 저장 형식(CSV, Parquet 등)
  • 레코드 수, 컬럼 정보

2) 업무 메타데이터(Business Metadata)

  • 데이터 의미 정의
  • 컬럼의 비즈니스 용어
  • 데이터 소유자(Owner)
  • 품질 규칙
  • 보안 등급

3) 운영 메타데이터(Operational Metadata)

  • 업데이트 주기
  • ETL/ELT 로그
  • 전처리 이력
  • 데이터 라인리지(Data Lineage: 생성→변환 →적재의 흐름)

기업에서 메타데이터를 구성하는 방법

1) 데이터 카탈로그(Data Catalog) 구축

  • AWS Glue Data Catalog
  • Google Data Catalog
  • Azure Purview
  • Collibra, Alation

카탈로그를 통해 데이터 검색성(Searchability)을 높이고 누가 어떤 데이터를 어떻게 사용하는지 추적할 수 있다.


2) 데이터 라인리지(Lineage) 설계

데이터가 어디서 왔는지, 어떻게 변환되었는지, 어디로 갔는지를 기록한다.

→ 데이터 신뢰도 확보의 핵심


3) 표준화된 데이터 네이밍 규칙

폴더명, 파일명, 테이블명, 컬럼명을 표준화하여

대규모 데이터에서도 일관성을 유지한다.


4) 품질 지표(Quality Metrics) 운영

  • Null 비율
  • 중복률
  • 이상치
  • 최신성(Freshness)

품질 기준을 측정해야 데이터레이크의 신뢰성이 유지된다.


5) 권한 및 보안 등급 관리

  • 민감도 분류: Public / Internal / Confidential / Restricted
  • 사용자 그룹별 접근 제어
  • 개인정보 비식별화 정책

마무리: 데이터레이크는 "구축"보다 "운영"이 중요하다

많은 기업이 데이터레이크를 만들었지만

메타데이터·거버넌스가 없어 실제 활용까지 이어지지 못한다.

데이터레이크는 단순 저장소가 아니라 데이터 플랫폼이며,

데이터가 "찾을 수 있고, 신뢰할 수 있고, 사용할 수 있어야"

비로소 기업의 자산이 된다.

반응형

'IT인프라' 카테고리의 다른 글

도커(Docker)  (0) 2025.12.02
패키지 매니저(Package Manager)  (0) 2025.12.01
EAI(Enterprise Application Integration)  (0) 2025.11.26
DNS(Domain Name System)  (0) 2025.11.18
Nginx(엔진 엑스)  (0) 2025.11.17

+ Recent posts