ADsP(Advanced Data Analytics Semi-Professional) 내가 보려고 만든 정리 (1과목)

Urban Jungle·2025년 1월 21일

ADsP 자격증 및 수료

자격증 및 수료

목록 보기

3/12

1과목

1. 데이터 이해

-데이터와 정보

데이터

데이터: 있는 그대로의 객관적 사실, 가공되지 않은 상태 (주문수량)
정보: 데이터로부터 가공된 자료 (주문수량 -> 베스트셀러)

데이터의 유형

(1) 정성적, 정량적
정성적 데이터: 자료의 특징을 풀어 설명 - 언어, 문자(기상특보, 주관식 설문 응답)
정량적 데이터: 자료를 수치화 - 수치, 기호 (온도, 풍속)
(2) 정형, 반정형, 비정형
정형 데이터: 정보 형태가 정해짐 (관계형 DB, 엑셀-스프레드시트, CSV)
반정형 데이터: 데이터를 설명하는 '메타데이터'를 포함 (로그, HTML, XML, JSON)
(메타데이터: 데이터의 설명서) (로그는 반정형, 비정형 모두 가능)
비정형 데이터: 형태가 정해지지 않음 (유튜브, SNS, 음원)

암묵지, 형식지간 상호작용

암묵지: 개인에게 습득되고 겉으로 드러나지 않음 (노하우)
형식지: 문서, 메뉴얼 등의 형식화된 지식
1)공통화: 암묵지를 타인에게 알려줌
2)표출화: 암묵지를 메뉴얼로 변환
3)연결화: 메뉴얼, 교재에 새 지식 추가
4)내면화: 메뉴얼, 교재에서 타인의 암묵지를 터득
-> '공표연내'

DIKW 피라미드

(1)데이터: 있는 그대로의 사실 (~대리점 핸드폰 ~~만원)
(2)정보: 데이터를 통해 패턴 인식 (~대리점이 더 싸다)
(3)지식: 패턴을 통해 예측 (~에서 사면 이득이겠다)
(4)지혜: 창의적인 산물 (~대리점의 다른 것들도 저렴할거다)

데이터 단위

KB < MB < GB < TB < PB < EB < ZB < YB

-데이터베이스의 정의와 특징

데이터베이스의 정의

(1)DB: 일정 구조에 맞게 조직화된 데이터의 집합
-스키마: DB의 구조와 제약조건에 관한 전반적 명세
-인스턴스: 정의된 스키마에 따라 저장된 값

(2)DBMS: DB를 관리, 접근 환경 제공하는 소프트웨어
  1)관계형 DBMS: 테이블(표)로 정리 (오라클, MSSQL, MYSQL, MARIA DB)
  2)객체지향 DBMS: 정보를 객체형태로 정리
  3)NoSQL DBMS: 비정형 데이터를 저장하고 처리 (HBASE, Mongo DB, Dynamo DB, Cassandra)

(3)SQL: 데이터 베이스에 접근할 수 있는 하부언어
  -정의언어(DDL): CREATE, ALTER, DROP
  -조작언어(DML): SELECT, INSERT, DELETE, UPDATE
  -제어언어(DCL): COMMIT, ROLLBACK, GRANT, REVOKE

데이터베이스의 특징 (시험에 거의 무조건 나옴)

(1)공용 데이터: 여러 사용자가 다른 목적으로 데이터 공동 이용
(2)통합된 데이터: 동일한 데이터 중복되어 있지 않음(중요)
(3)저장된 데이터: 저장매체에 저장
(4)변화되는 데이터: 새로운 데이터 추가, 수정, 삭제에도 현재의 정확한 데이터 유지(무결성)
-> '공통저변'

데이터베이스의 구성요소

-메타데이터: 데이터를 설명하는 데이터
-인덱스: 정렬, 탐색을 위한 데이터의 이름

데이터베이스 설계 절차

(1)요구조건 분석
(2)개념적 설계: 개념적 스키마 생성
(3)논리적 설계: ERD 설계
(4)물리적 설계: 저장 구조 설계
-> '개논물'

-데이터베이스 활용

기업활용 데이터베이스

-OLTP: 데이터를 수시로 갱신 (거래단위)
-OLAP: 다차원 데이터를 대화식으로 분석
-CRM: 고객과 관련있는 자료 분석, 마케팅에 활용
-SCM: 공급망 연결 최적화
-ERP: 기업 경영 자원을 효율화
-BI: 기업 보유 데이터를 정리, 분석하여 리포트 중심 도구
-BA: 통계 기반 비즈니스 통찰력
-Block Chain: 네트워크 참여한 모든 사용자가 정보를 분산, 저장
-KMS: 기업의 모든 지식을 포함

Data Ware House(DW, 큰 DB)

(1)특징
  -주제지향성: 분석목적 설정이 중요
  -데이터 통합: 일관화 된 형식으로 저장
  -시계열성: 히스토리를 가진 데이터
  -비휘발성: 읽기전용, 수시로 변하지 않음
(2) ETL(Extraction, Transformation, Load)
  -ETL을 통해 DW와 DM 등의 DB 시스템에 데이터를 적재

Data Lake

-비정형 데이터를 저장하며 Hadoop과 연계하여 처리
-Hadoop(하둡): 병렬처리 오픈소스 프레임워크
1)HDFS: 분산형 파일 저장 시스템
2)MapReduce: 분산된 데이터를 병렬로 처리

2. 데이터의 가치와 미래

-빅데이터의 이해

빅데이터 출현 배경

-인터넷 확산, 스마트폰 보급, 클라우드 컴퓨팅으로 인한 경제성 확보, 저장매체 가격하락, 하둡을 활용한 분산 컴퓨팅, 비정형 데이터의 확산

빅데이터의 3V (가트너 정의)

(1)Volume(규모): 데이터 양 증가(구글 번역 서비스)
(2)Variety(다양성): 데이터 유형 증가
(3)Velocity(속도): 데이터 생성, 처리 속도 증가
(4)그 외 5V에 포함되는 요소
-Value(가치)
-Veracity(신뢰성)

빅데이터에 대한 비유

(1)산업혁명의 석탄, 철: 산업혁명에서의 석탄, 철 같은 역할
(2)원유: 정보제공으로 생산성 향상
(3)렌즈: 현미경이 생물학 발전 영향, 산업 전반에 영향(구글 Ngram Viewer)
(4)플랫폼: 공동 활용 목적으로 구축된 구조물, 써드파티 비즈니스에 활용(페이스북)
-써드파티: 원천기술을 활용한 파생상품을 만드는 회사

빅데이터가 만들어내는 변화 (시험에 거의 무조건 나옴)

(1)표본조사 -> 전수조사
(2)사전처리 -> 사후처리
(3)질 -> 양 (이제는 양을 더 중요시 함)
(4)인과관계 -> 상관관계
-> '전후양상'

-빅데이터의 가치와 영향

빅데이터 가치 산정이 어려운 이유

(1)특정 데이터를 언제, 어디서, 누가 활용할 지 알 수 없음
(2)기존에 가치 없는 데이터도 새로운 분석기법으로 가치를 창출

-비즈니스 모델

빅데이터 활용 위한 3대 요소

-인력, 자원(데이터), 기술 (보통 오답으로 '프로세스' 출제됨)
-> '인자기'

빅데이터의 주요 분석기법

-회귀분석: 독립변수와 종속변수 관계, X가 Y에 어떤 영향을 미치는가?
(고객만족도가 높은 사람은 재방문할 확률이 높은가?)
-유형분석: A와 B는 어디에 속하는 범주 (같은 패턴을 보이는 동물)
-연관규칙: 여러 요소들 간의 규칙 상관관계 존재 (마트에서 치킨과 맥주를 같이 사는 관계)
-유전자 알고리즘: 최적화 필요한 문제의 해결책
(택배차량을 어떻게 배치, 최대 시청률 얻으려면 어떤 프로그램을 어떤 시간대에 방송?)
-기계학습: 훈련 데이터로부터 컴퓨터가 학습하고 미래를 예측 (넷플릭스 영화 추천 시스템)
-감정분석: 감정(긍정/부정) 분석 (후기를 바탕으로 원하는 것 발견)
-소셜 네트워크 분석: 사람간의 관계 (SNS상 사용자들 중 인플루언서 찾기)

-위기 요인과 통제 방안

위기 요인과 통제방안

(1)사생활 침해: SNS에 올린 데이터가 사생활 침해
  -> 제공자에서 사용자 책임으로 전환
(2)책임 원칙 훼손: 범죄 예측 프로그램으로 예측하여 체포하는 문제
  -> 결과에 대해서만 책임
(3)데이터의 오용: 분석 결과가 항상 옳은 것은 아님
  -> 알고리즘을 해석가능한 알고리즈미스트 필요

개인정보 비식별화

(1)데이터 마스킹: 홍길동 -> 홍XX
(2)가명처리: 홍길동 -> 임꺽정
(3)총계처리: A: 165, B: 170, C: 175 -> 합: 510, 평균: 170
(4)범주화: 홍길동 35세 -> 홍길동 30~40세

-미래의 빅데이터

미래의 빅데이터

(1)서비타이제이션(Servitization): 서비스와 제품의 결합, 기존-신규 서비스의 결합
(2)마이데이터: 자신의 신용 정보를 다른 제3자에게 제공하여 서비스를 제공받음
(3)딥러닝: 사람의 뇌 구조를 모방한 인공신경망을 활용하는 기계학습(머신러닝) 기법

3.가치 창조를 위한 데이터 사이언스와 전략 인사이트

-빅데이터분석과 전략 인사이트

전략 인사이트 (그럴것 같은데? 아닌거 같은데? -> 답)

-집중과 선택 (많은 데이터나 다양한 대상에 분산보다는 혅재 분석에 집중)
-업계 상황만 보지 말고 더 넓은 시야에서 봐야함
-경영진의 전략적 인사이트에 기여
-> 조직이 분석을 배우는 상태이거나 특정 문제의 범위를 해결할 때는 집중과 선택
-> 사업 상황들을 확인할 때는 넓은 시야

데이터 사이언스

-데이터와 관련된 모든 분야의 전문지식을 종합한 학문
-정형/비정형 데이터를 막론하고 데이터를 분석 (총체적 접근법)

데이터 사이언스 핵심 구성요소

(1)Analytics: 이론적 지식
(2)IT: 프로그래밍적 지식
(3)비즈니스 분석: 비즈니스적 능력
->'AI비'

-전략 인사이트 도출을 위한 필요 역량

데이터 사이언티스트의 필요역량 (시험에 거의 무조건 나옴)

(1)하드 스킬(Hard Skill): 이론적 지식(수학, 통계학, 가설감정 등), 가트너 제시 역량에 미포함
(2)소프트 스킬(Soft Skill): 스토리텔링, 리더십, 창의력, 분석 등
-> 하드스킬은 이과적, 소프트 스킬은 문과적인 느낌

-빅데이터 그리고 데이터 사이언스의 미래

빅데이터 가치 패러다임 변화

-Digitalization -> Connection -> Agency
(1)Digitalization: 아날로그 세상을 디지털화
(2)Connection: 디지털화된 정보들의 연결
(3)Agency: 연결을 효과적으로 관리
-> 'DigitalCA메라'

[참고문헌]
https://bookk.co.kr/bookStore/65c2003025cad6232f26b446

[참고영상]
https://www.youtube.com/watch?v=6h6Dsh6IMgA&t=1281s&ab_channel=IT%EC%9D%98%EB%8B%B5%EC%9D%84%ED%84%B0%EB%93%9D%ED%95%98%EB%8B%A4%2C%EC%95%84%EB%8B%B5%ED%84%B0-%EB%AF%BC%EA%B8%B0%EC%88%A0%EC%82%AC![](https://velog.velcdn.com/images/urban-jungle/post/71cd072f-2973-4950-a8a4-e0d848a8c7ac/image.png)

Urban Jungle

똑똑해지고 싶은 공학도

이전 포스트

NCA(NAVER CLOUD PLATFORM Certified Associate) 합격 후기

다음 포스트