Croot Blog

Home About Tech Hobby Archive

ADsP 1과목. 데이터의 이해

1. 데이터의 이해

1.1. 데이터

정의

데이터 = 가공되지 않은 자료. 정보= 가공된 자료

데이터 특성

  • 존재적 특성: 데이터 그대로 객관적 사실
  • 당위적 특성: 예측, 추정을 위한 근거

유형

  • 기준 별: 정성적, 정량적
  • 형태 별: 정형, 비정형, 반정형
  • 표현 별: 암묵지, 형식지

SECI 모델 (공표연내)

0Untitled.png

DIKW 피라미드

  • 데이터(Data) : 객관적 사실
  • 정보(Information) : 가공/처리 된 데이터, 데이터 간 연관 관계 속에서 의미 도출된 것
  • 지식(Knowledge) : 정보를 구조화하여 분류, 경험을 결합하여 내재화된 것
  • 지혜(Wisdom) : 지식의 축적과 아이디어가 결합된 창의적 산물

데이터 단위 (페지; PEZY)

byte → bit → KB → MB → GB → TB → PB → EB → ZB → YB

  • PB (Petabyte): 페타바이트
  • EB (Exabyte): 엑사바이트
  • ZB (Zettabyte): 제타바이트
  • YB (Yottabyte): 요타바이트

1.2. 데이터베이스

용어

  • DB (DataBase) : 체계적으로 수적.축적하여 다양한 용도로 이용할 수 있게 정리한 정보 집합체
  • DBMS (DataBase Management System) : DB를 사용자가 쉽게 사용/관리 하도록 하는 소프트웨어

DB 특징 (통저공변)

  • 통합: 데이터 중복 ❌
  • 저장: 접근 가능한 저장장치에 보관
  • 공용: 여러 사용자가 공유 가능
  • 변화: 항상 최신의 데이터 유지

트랜잭션(Tx; Transaction) 특징 (원일고지)

  • 원자성: 트랜잭션이 모두 적용 or 모두 미적용.
  • 일관성: 트랜잭션 결과는 항상 일관성을 가짐.
  • 고립성: 트랜잭션은 다른 트랜잭션에 영향이 없어야 함.
  • 지속성: 트랜잭션 성공 결과는 영구적이여야 함.

기업 DB 유형

  • OLAP (OnLine Analytical Processing) : 분석 중심
  • OLTP (OnLine Transaction Processing) : 정보 수집 및 공유 중심
  • CRM (Customer Relationship Mgmt.) : 고객 관계 관리
  • SCM (Supply Chain Mgmt.) : 공급망 관리
  • EAI (Enterprise Application Integration) : 기업 애플리케이션 통합, 중앙 집중 관리형
  • KMS (Knowledge Mgmt. System) : 지식 경영 시스템, 문제해결 능력 향상
  • ERP (Enterprise Resource Planning) : 전사 자원 통합 관리
  • BI (Business Intelligence) : 의사결정 지원 프로세스

DB 종류

  • 관계 형
  • NoSQL (키컬도그)
    • Key-value
    • Column-based
    • Document
    • Graph
  • 계층 형
  • 분산 형
  • 객체지향 형
  • 네트워크 형

DB 구성요소

  • 인스턴스 (Instance) : 하나의 객체
  • 속성 (Attribute) : 객체를 표현하기 위한 값
  • 엔티티 (Entity) : 데이터 집합. (2개 이상의 인스턴스 + 1개 이상의 속성)
  • 메타데이터 (Metadata) : 데이터를 설명하는 데이터
  • 인덱스 (Index) : 데이터 색인

SQL 유형

  • DDL (정의) : CREATE, ALTER, RENAME, DROP
  • DML (조작) : SELECT, INSERT, UPDATE, DELETE
  • DCL (제어) : GRANT, REVOKE
  • TCL (트랜잭션) : COMMIT, ROLLBACK, SAVEPOINT

1.3. 빅데이터

빅데이터 정의

기존 데이터베이스 관리도구의 능력을 넘어서는 대량의 정형, 비정형의 데이터 집합으로부터 가치를 추출하고 결과를 분석하는 기술

빅데이터 3V 특징 (볼바벨)

  • Volumn : 양
  • Variety : 다양성
  • Velocity : 속도
💡
3V에 Value(가치) 혹은 Veracity(정확성) 을 포함하여 4V라고 설명하기도 한다.

빅데이터 기능

  • 산업혁명의 석탄, 철
  • 21세기 원유
  • 렌즈
  • 플랫폼

빅데이터가 만드는 변화 (후전양상)

  • 사전처리 → 사후처리
  • 표본조사 → 전수조사
  • 질 →
  • 인과관계 → 상관관계

빅데이터 영향

  • 기업: 가치 창출
  • 정부: 환경 탐색, 상황 분석, 미래 대응
  • 개인: 삶의 질 향상, 스마트라이프

빅데이터 경영혁신 4단계 (생문의가)

  1. 생산성 향상 → 2. 문제해결 → 3. 의사결정지원 → 4. 가치창출.

빅데이터 활용 필요 3요소 (데기인)

  • 데이터: 모든 것의 데이터화
  • 기술: 진화하는 알고리즘, 인공지능, 저장장치 등
  • 인력: 데이터 사이언티스트, 알고리즈미스트

활용방안

  • 연관규칙
    • 예시) 장바구니 분석, 상품추천
  • 유형분석
    • 예시) 문서 분류, 조직 그룹, 수강생 분류
  • 유전 알고리즘
    • 예시) 택배 차량 배치, 방송 프로그램 배치, 응급실 의사 배치
  • 머신러닝
    • 예시) 미디어 추천, 스팸 필터링, 질병 진단 예측
  • 회귀분석
    • 예시) 사용자 만족도와 충성도 영향, 이웃과 규모 집값 영향, 개인 신용도 평가
  • 감정분석
    • 리뷰 분석
  • 소셜 네트워크 분석
    • 도시 공간 분석,

빅데이터 위기 및 대응 방안

  • 사생활침해
    • 예시) 구글 사용자 행동 패턴 예측
    • 대응 : 사용자 동의에서 사용자 책임제로 변경
  • 책임 원칙 훼손
    • 예시) 범죄 발생 이전에 체포
    • 대응 : 결과 기반 책임 원칙
  • 데이터 오용
    • 예시) 비행기 탑승 금지자 목록에 상원 의원 포함
    • 대응 : 알고리즘 공개 (XAI)

개인정보 비식별 기술(가총범삭마)

  • 가명처리 : 다른 값으로 변경
  • 총계처리 : 총합 or 평균으로 노출
  • 범주화 : 범위 제공
  • 삭제 : 일부 삭제
  • 마스킹 : 식별 할 수 없는 값으로 대체

1.4. 데이터 사이언스

정의

데이터로부터 의미 있는 정보를 추출해내는 학문

구성요소

  • Analytic
  • IT
  • 비즈니스 분석

데이터 사이언티스트 요구 역량

1Untitled.png

  • Hard skill
    • 이론 지식
    • 분석 기술
  • Soft skill
    • 통찰력
    • 설득력 있는 전달
    • 다 분야 협력

가치 패러다임 변화 (디연에)

  • (과거) 디지털화
  • (현재) 연결
  • (미래) 에이전시