데이터 인프라는 현대 비즈니스에서 데이터 기반 의사결정을 가능하게 하는 핵심 요소입니다. 이 글에서는 데이터 인프라의 기본 개념, 데이터 웨어하우스, ETL/ELT, 그리고 데이터 직군의 역할을 쉽게 설명하고, 데이터 처리 방식의 변화를 살펴보겠습니다.
"데이터 인프라는 데이터가 흐르는 제품과 조직의 발전을 위한 필수적인 기반입니다."
데이터 인프라는 다양한 기술과 오픈 소스 프로젝트를 결합해 구축됩니다. 이는 한 번에 완성되지 않고, 지속적으로 발전하는 과정입니다. 데이터 인프라를 이해하기 위해선 관련 용어와 개념을 명확히 알아야 하는데, 이 글에서는 이를 쉽게 설명합니다.
(이미지 출처 : 마이크로 소프트, 삼성 SDS)
데이터 웨어하우스는 다양한 소스의 데이터를 저장하고 통합된 분석 보고서를 작성하는 데 사용됩니다. 프로덕션 시스템과 데이터 웨어하우스는 서로 다른 스키마를 사용합니다.
구분 | 프로덕션 시스템 | 데이터 웨어하우스 |
---|---|---|
스키마 형태 | 노멀라이즈 스키마 | 스타 스키마 |
목적 | 데이터 무결성과 효율성 | 데이터 분석의 용이성 |
구조 | 작은 테이블로 분리 | 팩트 테이블 + 디멘션 테이블 |
(이미지 출처 : AWS)
"ELT는 현대 데이터 처리 플랫폼의 미래 방향입니다."
데이터 인프라를 구축하고 활용하기 위해선 다양한 직군이 협력합니다. 각 직군의 역할과 필요한 기술을 살펴보겠습니다.
직군 | 역할 | 필수 기술 |
---|---|---|
데이터 엔지니어 | 데이터 인프라 설계 및 구축 | 프로그래밍, 데이터베이스, 데이터 레이크, ETL/ELT |
데이터 분석가 | 데이터 해석 및 비즈니스 의사결정 지원 | SQL, 데이터 시각화 도구 (Tableau, Power BI), 통계 기초 |
데이터 과학자 | 복잡한 문제 해결 및 빅 데이터 처리 | 파이썬, R, 머신러닝, 통계학, 데이터 모델링 |
데이터 인프라는 데이터 생성부터 분석까지의 모든 과정을 포괄합니다. 아래는 데이터 인프라의 일반적인 흐름입니다.