데이터 인프라란?

JEONGYUJIN·2025년 1월 8일
0

data_infra

목록 보기
1/2

데이터 인프라의 핵심 개념과 데이터 처리 방식의 변화

데이터 인프라는 현대 비즈니스에서 데이터 기반 의사결정을 가능하게 하는 핵심 요소입니다. 이 글에서는 데이터 인프라의 기본 개념, 데이터 웨어하우스, ETL/ELT, 그리고 데이터 직군의 역할을 쉽게 설명하고, 데이터 처리 방식의 변화를 살펴보겠습니다.


📌 데이터 인프라란?

"데이터 인프라는 데이터가 흐르는 제품과 조직의 발전을 위한 필수적인 기반입니다."

데이터 인프라는 다양한 기술과 오픈 소스 프로젝트를 결합해 구축됩니다. 이는 한 번에 완성되지 않고, 지속적으로 발전하는 과정입니다. 데이터 인프라를 이해하기 위해선 관련 용어와 개념을 명확히 알아야 하는데, 이 글에서는 이를 쉽게 설명합니다.

데이터 인프라의 목적

  1. 데이터 기반 의사결정: 데이터를 활용해 더 나은 비즈니스 결정을 내립니다.
  2. 운영 시스템의 발전: 데이터를 활용해 운영 시스템의 완성도를 높입니다.
  3. 데이터 흐름의 원활화: 분석 시스템과 운영 시스템 모두에서 데이터가 원활히 흐르도록 합니다.

📊 데이터 웨어하우스와 스키마


(이미지 출처 : 마이크로 소프트, 삼성 SDS)

데이터 웨어하우스는 다양한 소스의 데이터를 저장하고 통합된 분석 보고서를 작성하는 데 사용됩니다. 프로덕션 시스템과 데이터 웨어하우스는 서로 다른 스키마를 사용합니다.

구분프로덕션 시스템데이터 웨어하우스
스키마 형태노멀라이즈 스키마스타 스키마
목적데이터 무결성과 효율성데이터 분석의 용이성
구조작은 테이블로 분리팩트 테이블 + 디멘션 테이블

스타 스키마

  • 팩트 테이블: 분석의 중심이 되는 데이터 (예: 판매량, 수익).
  • 디멘션 테이블: 팩트 테이블과 연결된 추가 정보 (예: 제품, 고객, 시간).

⚙️ ETL vs ELT: 데이터 처리 방식의 변화


(이미지 출처 : AWS)

ETL (Extract, Transform, Load)

  • 과정: 데이터 추출 → 변환 → 적재.
  • 특징: 변환 과정이 복잡하고 수정이 많이 필요합니다.
  • 단점: 자동화가 어렵고, 회당 많은 수정이 필요합니다.

ELT (Extract, Load, Transform)

  • 과정: 데이터 추출 → 적재 → 변환.
  • 특징: 데이터를 먼저 적재한 후 변환합니다.
  • 장점: 추출과 적재가 자동화되며, 변환은 필요에 따라 수행됩니다.

"ELT는 현대 데이터 처리 플랫폼의 미래 방향입니다."


🛠️ 데이터 직군의 역할과 필수 기술

데이터 인프라를 구축하고 활용하기 위해선 다양한 직군이 협력합니다. 각 직군의 역할과 필요한 기술을 살펴보겠습니다.

직군역할필수 기술
데이터 엔지니어데이터 인프라 설계 및 구축프로그래밍, 데이터베이스, 데이터 레이크, ETL/ELT
데이터 분석가데이터 해석 및 비즈니스 의사결정 지원SQL, 데이터 시각화 도구 (Tableau, Power BI), 통계 기초
데이터 과학자복잡한 문제 해결 및 빅 데이터 처리파이썬, R, 머신러닝, 통계학, 데이터 모델링

📌 데이터 인프라의 흐름

데이터 인프라는 데이터 생성부터 분석까지의 모든 과정을 포괄합니다. 아래는 데이터 인프라의 일반적인 흐름입니다.

  1. 데이터 생성: ERP, CRM 등 다양한 시스템에서 데이터가 생성됩니다.
  2. 데이터 수집 및 변환: 데이터 소스에서 데이터를 추출하고 변환합니다.
  3. 데이터 저장: 변환된 데이터를 데이터 웨어하우스나 데이터 레이크에 저장합니다.
  4. 데이터 분석: 저장된 데이터를 기반으로 과거를 분석하거나 미래를 예측합니다.
  5. 결과 표시: 분석 결과를 시각화하거나 보고서로 제공합니다.

참고 영상 |
https://www.youtube.com/watch?v=g_c742vW8dQ

profile
일단 하고 보자 (펠리컨적 마인드 ㅠㅠ)

0개의 댓글