ADsP 1과목. 데이터의 이해
카테고리 | 취미 |
---|---|
태그 | |
수정일 | May 5, 2024 |
작성일 | Jan 24, 2024 |
1. 데이터의 이해
1.1. 데이터
정의
데이터 = 가공되지 않은 자료. 정보= 가공된 자료
데이터 특성
- 존재적 특성: 데이터 그대로 객관적 사실
- 당위적 특성: 예측, 추정을 위한 근거
유형
- 기준 별: 정성적, 정량적
- 형태 별: 정형, 비정형, 반정형
- 표현 별: 암묵지, 형식지
SECI 모델 (공표연내)
Untitled.png
DIKW 피라미드
- 데이터(Data) : 객관적 사실
- 정보(Information) : 가공/처리 된 데이터, 데이터 간 연관 관계 속에서 의미 도출된 것
- 지식(Knowledge) : 정보를 구조화하여 분류, 경험을 결합하여 내재화된 것
- 지혜(Wisdom) : 지식의 축적과 아이디어가 결합된 창의적 산물
데이터 단위 (페지; PEZY)
byte → bit → KB → MB → GB → TB → PB → EB → ZB → YB
- PB (Petabyte): 페타바이트
- EB (Exabyte): 엑사바이트
- ZB (Zettabyte): 제타바이트
- YB (Yottabyte): 요타바이트
1.2. 데이터베이스
용어
- DB (DataBase) : 체계적으로 수적.축적하여 다양한 용도로 이용할 수 있게 정리한 정보 집합체
- DBMS (DataBase Management System) : DB를 사용자가 쉽게 사용/관리 하도록 하는 소프트웨어
DB 특징 (통저공변)
- 통합: 데이터 중복 ❌
- 저장: 접근 가능한 저장장치에 보관
- 공용: 여러 사용자가 공유 가능
- 변화: 항상 최신의 데이터 유지
트랜잭션(Tx; Transaction) 특징 (원일고지)
- 원자성: 트랜잭션이 모두 적용 or 모두 미적용.
- 일관성: 트랜잭션 결과는 항상 일관성을 가짐.
- 고립성: 트랜잭션은 다른 트랜잭션에 영향이 없어야 함.
- 지속성: 트랜잭션 성공 결과는 영구적이여야 함.
기업 DB 유형
- OLAP (OnLine Analytical Processing) : 분석 중심
- OLTP (OnLine Transaction Processing) : 정보 수집 및 공유 중심
- CRM (Customer Relationship Mgmt.) : 고객 관계 관리
- SCM (Supply Chain Mgmt.) : 공급망 관리
- EAI (Enterprise Application Integration) : 기업 애플리케이션 통합, 중앙 집중 관리형
- KMS (Knowledge Mgmt. System) : 지식 경영 시스템, 문제해결 능력 향상
- ERP (Enterprise Resource Planning) : 전사 자원 통합 관리
- BI (Business Intelligence) : 의사결정 지원 프로세스
DB 종류
- 관계 형
- NoSQL (키컬도그)
- Key-value
- Column-based
- Document
- Graph
- 계층 형
- 분산 형
- 객체지향 형
- 네트워크 형
DB 구성요소
- 인스턴스 (Instance) : 하나의 객체
- 속성 (Attribute) : 객체를 표현하기 위한 값
- 엔티티 (Entity) : 데이터 집합. (2개 이상의 인스턴스 + 1개 이상의 속성)
- 메타데이터 (Metadata) : 데이터를 설명하는 데이터
- 인덱스 (Index) : 데이터 색인
SQL 유형
- DDL (정의) : CREATE, ALTER, RENAME, DROP
- DML (조작) : SELECT, INSERT, UPDATE, DELETE
- DCL (제어) : GRANT, REVOKE
- TCL (트랜잭션) : COMMIT, ROLLBACK, SAVEPOINT
1.3. 빅데이터
빅데이터 정의
기존 데이터베이스 관리도구의 능력을 넘어서는 대량의 정형, 비정형의 데이터 집합으로부터 가치를 추출하고 결과를 분석하는 기술
빅데이터 3V 특징 (볼바벨)
- Volumn : 양
- Variety : 다양성
- Velocity : 속도
💡
3V에 Value(가치) 혹은 Veracity(정확성) 을 포함하여 4V라고 설명하기도 한다.
빅데이터 기능
- 산업혁명의 석탄, 철
- 21세기 원유
- 렌즈
- 플랫폼
빅데이터가 만드는 변화 (후전양상)
- 사전처리 → 사후처리
- 표본조사 → 전수조사
- 질 → 양
- 인과관계 → 상관관계
빅데이터 영향
- 기업: 가치 창출
- 정부: 환경 탐색, 상황 분석, 미래 대응
- 개인: 삶의 질 향상, 스마트라이프
빅데이터 경영혁신 4단계 (생문의가)
- 생산성 향상 → 2. 문제해결 → 3. 의사결정지원 → 4. 가치창출.
빅데이터 활용 필요 3요소 (데기인)
- 데이터: 모든 것의 데이터화
- 기술: 진화하는 알고리즘, 인공지능, 저장장치 등
- 인력: 데이터 사이언티스트, 알고리즈미스트
활용방안
- 연관규칙
- 예시) 장바구니 분석, 상품추천
- 유형분석
- 예시) 문서 분류, 조직 그룹, 수강생 분류
- 유전 알고리즘
- 예시) 택배 차량 배치, 방송 프로그램 배치, 응급실 의사 배치
- 머신러닝
- 예시) 미디어 추천, 스팸 필터링, 질병 진단 예측
- 회귀분석
- 예시) 사용자 만족도와 충성도 영향, 이웃과 규모 집값 영향, 개인 신용도 평가
- 감정분석
- 리뷰 분석
- 소셜 네트워크 분석
- 도시 공간 분석,
빅데이터 위기 및 대응 방안
- 사생활침해
- 예시) 구글 사용자 행동 패턴 예측
- 대응 : 사용자 동의에서 사용자 책임제로 변경
- 책임 원칙 훼손
- 예시) 범죄 발생 이전에 체포
- 대응 : 결과 기반 책임 원칙
- 데이터 오용
- 예시) 비행기 탑승 금지자 목록에 상원 의원 포함
- 대응 : 알고리즘 공개 (XAI)
개인정보 비식별 기술(가총범삭마)
- 가명처리 : 다른 값으로 변경
- 총계처리 : 총합 or 평균으로 노출
- 범주화 : 범위 제공
- 삭제 : 일부 삭제
- 마스킹 : 식별 할 수 없는 값으로 대체
1.4. 데이터 사이언스
정의
데이터로부터 의미 있는 정보를 추출해내는 학문
구성요소
- Analytic
- IT
- 비즈니스 분석
데이터 사이언티스트 요구 역량
Untitled.png
- Hard skill
- 이론 지식
- 분석 기술
- Soft skill
- 통찰력
- 설득력 있는 전달
- 다 분야 협력
가치 패러다임 변화 (디연에)
- (과거) 디지털화
- (현재) 연결
- (미래) 에이전시
Previous Jan 15, 2024
« Nuxt3(Nitro)환경에 Redis, FileStorage 연동
« Nuxt3(Nitro)환경에 Redis, FileStorage 연동
Jan 24, 2024 Next
ADsP 2과목. »
ADsP 2과목. »