Croot Blog

Home About Tech Hobby Archive

⚠️

이 블로그의 모든 포스트는 Notion 데이터베이스를 자동 변환하여 작성 되었습니다.
따라서 문서에 따라 깨져 보일 수 있습니다.
더 많은 내용이 궁금하시다면 👀 Notion 보러가기

ADsP 3과목. 데이터 분석

3. 데이터 분석

3.1. 탐색적 데이터분석 (EDA)

탐색적 데이터분석 정의

데이터의 분포, 통계 등을 시각화하여 데이터를 이해하고 의미있는 관계를 찾아내는 분석 기법

결측값

  • 정의 : 존재하지 않는 데이터
  • 표현 방식 : NA , null , -1
  • 대치 기법
    • 단순 대치법 : 값 삭제
    • 평균 대치법 : 평균이나 중앙값을 이용,
    • 조건부 평균 대치법 : 회귀분석을 통해 좀 더 신뢰성이 높음
    • 단순확률 대치법 : k-NN
    • 다중 대치법 : 여러 번 대치 시행, (대치 → 분석 → 결합)

이상값

  • 정의 : 다른 데이터와 비교 했을 때 극단적으로 크거나 작은 값
  • 판단 기법
    • ESD : 평균으로부터 표준편차 * 3
    • 사분위수 : IQR 기반

      0Untitled.png

3.2. 통계 분석

통계 분석 용어 및 기초

  • 기대값 : 확률변수 X가 취할 수 있는 값의 평균 값
  • 공분산(Covariance) : 확률변수 X, Y의 상관 정도

    표현식: $\text{Cov}(X, Y)$

  • 상관계수(Correlation) : 공분산을 X, Y의 표준편차 모두로 나눈 값

    표현식: ${r_x}_y$

  • 독립사건: 서로 영향을 주지 않는 두 개의 사건
  • 배반사건: 두 사건이 교집합이 없는 경우
  • 확률변수: 특정확률로 발생하는 각 변수를 수치값으로 표현하는 변수
    • 연속확률변수: 구간 내 모든 값을 취하는 확률변수
    • 이산확률변수: 셀 수 있는 확률변수

왜도(Skewness)와 첨도(Kurtosis)

1Untitled.png

2Untitled.png

왜도 : 실수 값 확률변수의 확률 분포 비대칭성을 나타내는 지표

- **Negative** : 음수 값이며 왼쪽 긴꼬리를 가짐
	- mean(평균) < median(중위값) < mode(최빈값)
- **Zero** : 0으로 표현하며 좌우 대칭적
	- mean(평균) = median(중위값) = mode(최빈값)
- **Positive** : 양수 값이며 오른쪽 긴꼬리를 가짐
	- mean(평균) > median(중위값) > mode(최빈값)

첨도 : 분포의 중심에서 뾰족한 정도를 나타내는 값

- 0(k=3)보다 크면 뾰족, 작으면 완만

통계 분석 표본추출

  • 유형
    • 복원 추출 : 모집단 복원
    • 비복원 추출 : 추출 데이터 제외
  • 기법 (단계클층)
    • 단순랜덤
    • 계통 추출법 : K=N/n
    • Cluster 추출법 : Cluster 내 이질적 Data
    • 층화 추출법 : cluster 내 동질적 Data, 비례(분포반영), 불비례(분포미반영)

측정과 척도 (명순구비)

구분 유형 특징 예시
질적 척도 명목 척도 어느 집단에 속하는지 나타내는 자료 성별, 지역 등
  순서(서열) 척도 명목척도 이면서 서열 관계를 갖는 자료 선호도, 신용도, 학년 등
양적 척도 구간(등간) 척도 속성의 양을 측정할 수 있고 구간 사이에 의미가 있는 자료 온도, 지수 등
  비율 척도 구간척도이면서 절대기준(0)이 존재하여 연산이 가능한 자료 신장, 무게, 점수, 가격 등
💡
비율 척도가 가장 정보량이 많음.

기술통계와 추리통계

  • 기술통계 : 표본 제차의 속성이나 특징을 파악하는 데 중점을 두는 데이터 분석 통계
    • 모집단의 특성을 유추하는데 사용 (최소값, 최댓값, 중위수 등)
  • 추리통계 : 수집한 데이터를 바탕으로 추론 및 예측하는 통계 기법
    • 모수를 확률적으로 추정 (미래 사건 예측)
  • 편차(difference) : 평균과의 차이
    • $d(X)$
  • 분산(variance) : 편차 제곱하여 모두 합한 뒤 데이터 개수로 나눔.
    • $Var(X)=E(X^2)-{E(X)}^2$
  • 표준편차(Standard Deviation) : 단위를 일치 시키기 위해 분산에 루트를 씌워서 구함.
    • $sd(X) = √\overline{Var(X)}$
  • 기댓값 : 확률변수 X가 취할 수 있는 값의 평균 값
    • 이산확률변수의 기댓값 : $E(X) = \Sigma xf(x)$
    • 연속확률변수의 기댓값 : $E(X) = \Sigma xf(x)dx$
  • 공분산(Covariance) : 확률변수 X, Y의 상관 정도
    • $Cov(X, Y)$
  • 상관계수(Correlation) : 공분산을 X, Y의 표준편차 모두로 나눈 값
    • ${r_x}_y$

확률

  • 이산확률분포
    • 베르누이 분포

      $P(X = k) = p^k(1 - p)^{1-k}$

    • 이항 분포 : n번의 베르누이 시행 결과의 확률분포 (ex: 동전던지기)

      $P(X = k) = \binom{n}{k} p^k (1 - p)^{n - k}$

    • 기하 분포 : 처음 성공하기까지 의 확률분포

      $P(X = k) = (1 - p)^{k-1} p$

    • 다항 분포 : 3가지 이상의 결과에 대한 확률분포 (ex: 주사위)

      $P(X_1 = x_1, X_2 = x_2, \ldots, X_k = x_k) = \frac{n!}{x_1! \cdot x_2! \cdots x_k!} p_1^{x_1} p_2^{x_2} \cdots p_k^{x_k}$

    • 포아송 분포 : 특정 시간/공간 안에 성공하는 횟수의 확률분포

      $P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}$

  • 연속확률분포
    • 균일 분포 : 모든 독립변수가 동일한 확률을 가지는 분포
    • 정규 분포 : 평균과 표준편차를 가지는 종 모양 그래프
    • t-분포 : 평균이 0, 모평균 검정 및 집단 간 평균 비교
      • 모평균 검정, 집단 평균 비교 계산에 이용.
    • 카이제곱 분포 : 정규분포를 따르는 확률 변수들의 제곱을 합하여 얻는 분포
      • 분산 추정, 독립성 검정, 적합도 검정 등에 사용
    • F 분포 : 두 모집단의 분산이 같은지를 비교하기 위한 분포
      • 분산분석(ANOVA) 에서 사용

추정

  • 점 추정: 모평균을 하나의 특정 값이라고 예측하는 것
  • 구간 추정: 모평균을 특정 구간 안에 존재한다고 예측하는 것

가설검정

  • 귀무가설($H_0$) : 기각하고자 하는 가설
  • 대립가설($H_1$) : 증명하고자 하는 가설
  • 제1종 오류 : 귀무가설이 맞지만 기각하는 오류
  • 제2종 오류 : 귀무가설이 거짓이지만 채택하는 오류
  • 검정통계량 : 귀무가설을 판단할 수 있는 값
  • 기각역 : 귀무가설을 기각하게 될 검정통계량의 영역
  • 유의수준 : 제1종오류의 최대허용한계 (보통 0.05)
  • 유의확률 (p-value) : 귀무가설 지지 확률
  • 모수검정 : 표본이 정규성을 가진다는 모수적 특성을 이용하는 통계 방식
  • 비모수 검정 : 모수적 특성을 이용하지 않은 통계 방식
구분 모수 검정 비모수 검정
적용 유형 등간척도, 비율척도 명목척도, 서열척도
검정 대상 평균 중앙값
상관계수 피어슨 상관계수 스피어만 순위상관계수
사용예시 t-test, ANOVA 부호검정, 프리드만 검정, 연속성 검정, 순위 합 검정, 크러스컬-월리스 검정 등

3.3. 비교 분석 기법

t-test

  • 정의 : 하나의 모집단의 **평균값**을 특정값과 비교하는 분석 기법.
  • 유형
    • 단일표본(one sample) : 하나의 모집단 평균값과 특정 값 비교
      • 단측(one way) : 모수값이 한쪽으로만 방향성을 갖는 경우 (~ 보다 크다, 작다)
      • 양측(two way) : 방향성이 없는 경우 (~이다, 아니다)
    • 독립표본(independent sample) : 서로 독립적인 두 집단의 모수값 비교
      • 단측(one way) : 두 집단 간 대소가 있는 경우 (~이 ~보다 크다, 작다)
      • 양측(two way) : 두 집단 간 대소가 없는 경우 (두 집단이 같다, 다르다)
    • 대응표본(paired) : 동일 대상의 두가지 관측치를 비교
  • 결과 해석

3Untitled.png

ANOVA(분산분석)

  • 정의 : 세 개 이상의 모집단 평균을 비교
  • 가정사항: 정규성, 등분산성, 독립성
  • 유형
    • one-way : 독립변수와 종속변수 모두 한 개인 경우
    • two-way : 독립변수가 2개 이상인 경우
      • 교호작용 여부에 따라 반복실험
  • 결과 해석

4Untitled.png

Summary Df (자유도) 제곱 합 제곱 평균 F-value p-value
처리 (집단 명) 집단 수 - 1 SSR MSR MSR / MSE 유의 확률
잔차 전체 데이터 - 집단 수 SSE MSE - -
합계 전체 데이터 - 1 SST - - -

SSR : 평균과 회귀값의 차이들의 제곱의 합
SSE : 잔차들의 제곱의 합
SST : 편차들의 제곱의 합 (SSR + SSE)
MSR : 평균 제곱 회귀 (Mean Squares Regression)
MSE : 평균 제곱 오차 (Mean Squares Error)

교차분석

  • 정의 : **카이제곱 검정통계량**을 이용하여 **범주형 자료(명목,서열)** 간 관계 분석
  • 교차분석표

    5Untitled.png

  • 활용
    • 적합도 검정: 관측값과 예상**값 일치 여부**
    • 독립성 검정: 두 변수 간 **관계가 독립적**인지 판단
    • 동질성 검정: **정해진 범주 내**에서 관측값이 비슷한지 여부

상관분석

💡
상관분석의 귀무가설 : “두 변수는 아무 관계 없다”
  • 정의 : 변수 간 선형적 관계 존재 분석 기법, **상관계수** 활용
  • 종류
    • 피어슨
      • 선형적 상관관계
      • 모수적 방법으로 등간척도, 비율척도 시 사용
    • 스피어만 (스비서)
      • 비선형적 상관관계
      • 비모수적 방법으로 서열척도 시 사용
    구분 피어슨 스피어만
    자료 형태 모수 비모수
    자료 척도 등간척도, 비율척도 서열척도
    결과값 피어슨 상관계수 스피어만 상관계수
  • 결과 해석

6Untitled.png

3.4. 회귀 분석 기법

회귀 분석 정의

하나 이상의 독립변수가 종속변수에게 미치는 영향을 추정하는 기법.

회귀 분석 종류

  • 단순 회귀 : 1개의 독립변수, 직선 관계
  • 다중 회귀 : k개의 독립변수, 선형 관계
  • 다항 회귀 : 4개의 독립변수, 2차함수 이상 관계
  • 비선형 회귀 : 지수함수, 로그함수, 삼각함수 등

회귀 분석 전제조건 (정등독선)

  • 정규성 : 오차항이 정규분포 형태를 띄어야한다.
    • 검증 : 히스토그램, QQ plot, 샤피로 검정, 앤더스-달링 검정, 하르케-베라 검정
  • 등분산성 : 오차들이 고르게 분포해야한다.
  • 독립성 : 독립변수들 간에 상관성이 없어야 한다, 오차항은 독립변수로부터 독립성을 가져야 한다.
  • 선형성 : 독립변수와 종속변수가 선형적이여야 한다.

분산분석표

요인 제곱 합 Df (자유도) 제곱 평균 F-value
회귀 SSR k MSR = SSR/k MSR / MSE
잔차 SSE n-k-1 MSE = SSE/(n-k-1) MSR / MSE
SST = SSR + SSE n-1 - MSR / MSE

단순선형회귀에서는 k = 1 이다.

7Untitled.png

회귀분석 결과 해석

8Untitled.png

단순선형회귀분석

  • 계수 추정: 최소제곱법 (오차를 제곱해 더한 값)
  • 적합성
    • 통계적 유의성 검증 = F 검정 (분산 차)
    • 회귀계수 유의성 검증 = t-검정
    • 설명력 검증 = 분산분석 후 결정계수($R^2$)가 1에 가까울수록 좋음

다중선형회귀분석

  • 다중공선성
    • 정의: 독립변수 간 강한 상관관계가 나타나는 문제
    • 진단
      • 회귀식의 설명력 높지만 각 독립변수 p-value 큰 경우
      • 분산팽창요인(VIF)가 10 이상 인 경우
    • 해결
      • 문제변수 제거
      • 차원축소(PCA, LDA, t-SNE, SVD)
      • 주성분개수 선택 (scree plot 이용)

최적 회귀방정식

  • 정의: 모델 성능향상을 위해 종속변수에 유의미한 영향을 끼치는 독립변수를 선택하는 과정
  • 변수 선택법
    • 유형
      • 부분집합법 : 모든 가능한 모델을 고려
      • 단계적 변수선택법 : 일정한 단계를 거치는 방식
        • 전진선택법 : 가장 많은 영향을 줄 것 같은 변수부터 추가
        • 후진제거법 : 가장 적은 영향을 주는 변수부터 제거
        • 단계선택법 : 전진선택법 + 후진제거법 에 패널티 값을 부여
    • 성능지표
      • AIC : MSE에 변수 수만큼 페널티를 주는 지표 // 단점: 표본이 커질 때 부정확함
      • BIC : AIC 단점을 보완한 지표, 표본이 커지면 더 큰 페널티 부여
      • 멜로우 Cp : Cp값은 최소자승법으로 사용

고급회귀분석

  • 정규화 선형회귀
    • 정의 : 과적합 시 계수의 크기가 과도하게 증가하는 걸 방지하기 위해 **계수 크기 제한**하는 방법
    • 유형 :
      • Lasso (L1 penalty) : 가중치 **절댓값의 합**을 최소화
      • Lidge (L2 penalty) : 가중치들의 **제곱합**을 최소화
      • Elastic Net : 라쏘 + 릿지
  • 일반화 선형회귀
    • 구성요소
      • 확률요소 : 종속변수의 확률분포를 규정하는 성분
      • 선형예측자 : 종속변수의 기댓값을 정의하는 독립변수들 간의 선형 결합
      • 연결함수 : 확률 요소와 선형예측자를 연결하는 함수
    • 종류
      • 로지스틱 회귀
      • 포아송 회귀
  • 더빗 왓슨 검정 : 회귀분석에 있어 자기상관성이 존재하는지 검정하는 방법.
    • 통계량 값이 2에 가까울수록 좋음.
    • 0에 가까울수록 양의 상관관계
    • 4에 가까울수록 음의 상관관계

회귀분석 평가지표

  • MAE(Mean Absolute Error) : 평균 절대 오차

    $\frac{1}{n} \sum_{i=1}^{n} y_i - \hat{y}_i $
  • MSE(Mean Squared Error) : 평균 제곱 오차

    $\frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2$

  • RMSE(Root Mean Squared Error) : 평균 제곱근 오차

    $\sqrt{MSE}$

  • MSLE(Mean Sequared Log Error) : MSE에서 타깃값에 로그를 취한 값

    $\frac{1}{n} \sum_{i=1}^{n} (\log(1 + y_i) - \log(1 + \hat{y}_i))^2$

  • RMSLE(Root Mean Sequared Log Error) : MSLE에 제곱근을 취한 값

    $\sqrt{MSLE}$

  • MAPE(Mean Absolute Percentage Error) : 평균 절대 비율 오차

    $\frac{1}{n} \sum_{i=1}^{n} \left \frac{y_i - \hat{y}_i}{y_i}\right \times 100\%$
  • R2 (R square) : 실제 값의 분산 대비 예측값의 분산 비율

    $1-\frac{SSE}{SST}$

3.5. 다변량 분석 기법

다차원 척도법(MDS ;Multidimensional Scaling)

9Untitled.png

  • 정의 : **데이터 축소**를 목적으로 **유클리디안 거리행렬**을 사용하여 객체 간의 **근접성을 시각화**하는 통계기법
  • 측도: stress 척도를 사용하며 낮을수록 적합도가 높다고 평가함.
    • $\text{stress} = \sqrt{\frac{\sum(\text{실제거리}-\text{추정거리})^2}{\sum\text{실제거리}^2}} $
    • 0 ~ 0.05 = 적합도 좋음 , 0.15 ~ 1 = 적합도 나쁨
  • 종류

    구분 계량적 MDS 비계량적 MDS
    대상 구간척도, 비율척도 서열척도
    거리 유클라디안 거리 행렬 서열 → 거리 속성 변환
    R 함수 Cmdscale isoMDS

주성분분석

  • 정의 : 서로 상관성이 높은 변수들의 선형 결합으로 새로운 변수(주성분)을 만들어 요약 및 축소하는 분석 방법.
  • 목적 :
    • 축소하여 모델의 **설명력 높임**
    • 분산이 큰 축을 이용하기 때문에 **다중공선성 문제 해결**
    • 모형의 성능 향상
  • 특징
    • 데이터 손실 발생
    • 계산이 간단, 정렬되지 않은 데이터 처리 가능
💡
평균 고유값 방법 : 고유값이 평균보다 작은 값인 주성분을 제거하는 방식.

3.6. 시계열 분석

시계열 분석 정의

일정 시간 간격으로 기록된 자료들의 특성을 파악하여 미래를 예측하는 분석방법

시계열 자료의 정상성 조건

  • 일정한 평균 : 모든 시점에 대해 평균이 일정해야 함.
    • 차분을 이용하여 정상화
    • 차분: 현 시점 자료 값에서 이전 시점 자료 값을 빼는 것.
  • 일정한 분산 : 모든 시점에 대해 분산이 일정해야 함.
    • 변환(지수, 로그)을 통해 정상화
  • 시차에만 의존하는 공분산 : 공분산은 특정 시점에 의존하지 않음
💡
공분산 : 두 확률변수의 선형관계이며 정규화를 하면 상관계수가 된다.

시계열 분석의 자기상관계수

  • 자기상관계수(ACF ;Autocorrelation Function)
    • 두 시계열 확률변수 간 상관관계를 보여준다.
    • 시계열 자료의 무작위성 확인
  • 부분자기상관계수(PACF ;Partial ACF)
    • 두 시계열 확률변수 간에 다른 시점의 확률변수 영향력을 통제한 상관관계를 보여준다.

정상 시계열

  • 평균이 일정 모든시점에 일정함
  • 정상 시계열은 항상 평균값으로 회귀하려함, 평균값 주면 변동은 일정폭을 갖음
  • 백색잡음(White Noise)이 대표적인 예시
    • 정규분포로부터 추출된 데이터, 오차항에 해당
    • 가우시안 백색잡음 : 평균이 0이면서 분산이 일정한 정규분포

분해(비정상) 시계열

  • 정의 : 분석 목적에 따라 특정 요인만 분리해 분석하거나 제거하는 작업.
  • 구성요소
    • 추세 : 장기간 일정 방향 상승 또는 하락하는 경향을 보이는 요인
    • 주기 : 반복 운동하는 형태
    • 계절성 : 일정한 주기를 가지는 상하 반복의 규칙적인 변동
    • 랜덤(불규칙) : 규칙성 없이 우연히 발생하는 예측 불가능한 변동
  • 확률보행(random work)이 대표적인 예시

시계열 분석 기법

  • 이동평균법 : 일정 기간별로 자료를 묶어 평균을 구하는 방법
  • 지수평활법 : 이동평균법에 최근 데이터일수록 큰 가중치를 부여하는 방법

시계열 모형

  • 자기회귀(AR) : 이전시점 자료 선형 결합
  • 이동평균(MA) : 이전시점 백색잡음 선형 결합
  • 자기회귀누적이동 평균(ARIMA) : 비정상 시계열 자료 모형.

3.7. 데이터 마이닝

데이터 마이닝 정의

방대한 양의 데이터 속에 숨겨진 패턴, 규칙 등을 찾아 예측, 의사결정 지원에 활용하는 기술

데이터 마이닝 분류

방식 별 분류

- 지도학습
	- 회귀(연속형) : Linear regression, SVR, 신경망, Ridge, Lasso
	- 분류(범주형) : Logistic Regression, Decision Tree, K-NN, Ensemble, SVM, 나이브 베이즈
- 비지도학습
	- 군집 : k-means, SOM, DBSCAN
	- 연관 : Apriori
	- 차원축소 : PCA(주성분분석), LDA(선형판별분석), SVD(특잇값 분해), MDS(다차원 척도법)

목적 별 분류

- 분류 : Logistic Regression, Decision Tree, Ensemble, 신경망, k-NN
- 군집 : 병합, 분할, K-means
- 연관 : Apriori

데이터 마이닝 프로세스

  1. 목적 정의
  2. 데이터 준비
    • 데이터셋 분할 유형
      • 훈련(5):검증(3):평가(2)
      • 훈련(6):검증(2):평가(2)
  3. 데이터 가공
  4. 데이터 마이닝 기법적용
  5. 검증
    • 검증 기법
      • Holdout : 전체데이터 → 학습(80), 검증(20)
      • K-fold Coss : k개 집단, 과적합(과소적합)예방
      • LOOCV : 전체 N개 데이터셋을 K개 집단으로 분할, 매우 느림
      • Bootstrap : 복원추출, 신뢰성 평가, 과적합 예방
      • 계층별 k-fold cross : 불균형 데이터 분류 시 사용, k-fold 와 동일

데이터마이닝 vs 통계분석

구분 데이터 마이닝 통계분석
표본 불필요 필요
가설 검정 선택적 필수적
분석유형 상향식 하향식

3.8. 분류분석

로지스틱 회귀 분석

  • 독립변수가 연속형이면서 종속변수(y)가 범주형 변수일 때 사용
  • 변수가 3개 이상이면 다중 로지스틱 회귀분석
  • 알고리즘 유형 :
    • Odds : 성공할 확률이 실패할 확률의 몇 배인지 나타내는 값

      $\frac{P}{1-P}$ (P = 성공확률)

    • Logit 변환 : Odds에 로그를 취한 값

      $log(Odds) = \text{log}\frac{P}{1-P}$ (P = 성공확률)

    • Sigmoid : 대표 활성화 함수, 로짓 함수와 역함수 관계

      $p = \frac{1}{1+e^{-(\beta_0+\beta_1X)}}$ (P = 성공확률)

의사결정나무

10Untitled.png

정의 : 특정 분리 규칙을 찾아내어 몇 개의 소집단으로 분류하는 분석 방법

특징 : 집단 내 동질성↑, 집단 간 이질성↑

- 장점 : 직관적, 정규화 불필요, 이상값
- 단점 : 과적합 발생, 경계선 오차

구성요소

- Root Node : 가장 최상위 마디
- Child Node : 하나의 마디로부터 나온 2개 이상의 하위 마디
- Parent Node : 모든 자식마디의 바로 상위 마디
- Terminal Node : 자식마디가 없는 최하위 마디
- Intermediate Node : 부모마디와 자식마디를 모두 보유한 마디
- Branch : 부모마디와 자식마디를 연결하는 선
- Depth : 뿌리마디를 제외한 중간마디 수

활용 : 세분화, 분류, 예측, 차원축소, 교호작용

분석과정

1. 성장 : 분리기준(불순도) 와 정지규칙 이용
	- 분리기준 :
		- 이산형 : 카이제곱(CHAID), 지니지수(CART),엔트로피 지수 (C4.5)
		- 연속형: ANOVA-F 통계량(CHAID 이용), 분산감소량(CART 이용)
2. 가지치기 : 과적합 및 과소적합 방지 목적
3. 타당성 평가 : 검증 데이터, 이익 도표, 평가 지표 활용하여 평가
4. 해석 및 예측 : 예측 적용 및 해석 단계

앙상블

정의 : 여러 개의 모형을 생성 및 조합하여 예측력이 높은 모형을 만드는 기법

종류 :

- **Bagging** : 복원추출(부트스트랩) → 분류기 → Voting
- **Boosting** : 복원추출(부트스트랩) → Weight 적용추출(부트스트랩)
- **Random Forest** : 복원추출(부트스트랩) → 비복원추출(표본) → 분류기 → Voting
💡
OOB(Out of Bag) Score : 부트스트랩 생성 시 선택되지 않은 데이터

인공신경망

11Untitled.png

정의 : 인간의 뇌를 모방하여 만들어진 학습 및 추론 모형

특징

- 장점
	- 잡음에 민감하지 않음
	- 비선형적 문제 분석에 유용
- 단점
	- 복잡한 모형은 오랜 시간 소요
	- 추정 가중치의 신뢰도 낮음
	- 은닉층, 은닉노드 수 결정 어려움

종류

- 단층 퍼셉트론 : 은닉층 1개 or 없음
- 다층 퍼셉트론 : 은닉층 2개 이상

12Untitled.png

활성함수 유형

- **Step** : 0 or 1을 반환하는 이진형 함수
- **Sign** : -1 or 1을 반환하는 이진형 함수
- **Sigmoid** : 0~1 사이의 값을 반환
- **Tanh** : 시그모이드의 확장형으로 -1 ~ 1 사이 값을 출력
- **RELU** : 입력값과 0 중 큰 값을 반환
- **Softmax** : 표준화지수 함수, 각 범주에 속할 확률값을 반환

학습 단계

1. 순전파 알고리즘
2. 오차확인
3. 역전파 알고리즘
4. 가중치 업데이트

구조유형

- RNN : 순환 신경망, 주로 언어/음성인식에 활용
- CNN : 합성곱 신경망, 이미지에 주로 사용
- LSTM : 장단기 메모리 신경망
- GRU : LSTM 장기 메모리 소실 문제 개선
- YOLO : 이미지를 수십 개의 박스로 나누어 객체 탐지
- GAN : 생산적 적대 신경망

나이브 베이즈

베이즈 이론 정의 : 확률을 해석하는 이론 중 하나

베이지안 확률 정의 : 사전확률과 우도확률을 통해 사후확률을 추정

13Untitled.png

나이브 베이즈 정의 : 베이즈 정리를 기반으로 한 지도학습 모델

나이브 베이즈 활용 : 스팸메일 필터링, 텍스트 분류

K-NN

14Untitled.png

  • 지도학습에 속하지만 군집의 특성도 있어 Semi(준)-지도학습으로 분류하기도 함

SVM

15Untitled.png

  • 분류 성능이 뛰어나 자주 사용

분류 모형 성과평가

평가 기준

- **일반화** : 다른 데이터에서도 안정적인지 여부
- **효율성** : 계산 양 대비 모형 성능 고려
- **분류 정확성** : 분류 결과 정확성

오분류표 (혼동행렬)

16Untitled.png

  • 정의 : 실제값과 예측칭의 값에 대한 옳고 그름을 표로 나타낸 것
  • 구성
    • 정확도(Accuracy) : 전체 관측치 중 올바르게 예측한 비율
    • 오분류율(Error Rate) : 전체 관측치 중 잘못 예측한 비율
    • 민감도=재현율(Sensitivity) : 실제 True 중 올바르게 찾아낸 비율
    • 특이도(Specificity) : 실제 False 중 올바르게 찾아낸 비율
    • 정밀도(Precision) : 예측 True 중 올바르게 찾아낸 비율
    • F1-Score : 정밀도와 재현율의 조화평균 값

      \[\text{F1-score}=2 \times \frac{Precision \times Recall}{Precision + Recall}\]
    • FRR(False Positive Rate) : 실제 Negative 중 잘못 분류한 비율

ROC curve

17Untitled.png

  • 정의 : 분류 분석 모형의 평가를 쉽게 비교할 수 있도록 시각화한 그래프

이익도표(Lift chart)

  • 정의 : 모델의 성능을 판단하기 위해 작성한 표

향상도 곡선(Lift curve)

  • 정의 : 랜덤 모델과 비교하여 해당 모델의 성과가 얼마나 향상되었는지 구간별로 파악하기 위한 그래프

3.9. 군집분석

군집분석 정의

데이터 간 유사성을 측정하고 몇 개의 군집(Cluster)로 묶고 각 국집에 대한 특징을 파악하는 기법

군집분석 거리측도

  • 연속형 변수
    • 유클리디안(Euclidean) : 두 점 사이의 가장 짧은 거리 계산
    • 맨하튼(Manhattan) : 길을 따라 갔을 때의 거리
    • 체비셰프(Chebychev) : 거리 차이 중 최댓값
    • 표준화(Standardized) : 유클라디안 거리를 표준편차로 나눔
    • 마할라노비스 : 표준화 거리에 변수 간 상관성까지 고려한 거리
    • 민코프스키 : 유클리디안 거리와 맨하튼 거리를 한번에 표현
  • 범주형 변수
    • 단순 일치 계수 : 두 객체 간 상이성을 불일치 비율로 계산
    • 자카드 거리 : 두 집합 사이의 유사도를 측정 (다르면 1, 같으면 0)
    • 코사인 유사도 : 크기가 아닌 방향성을 측정하는 지표 (다르면 -1, 같으면 1)
    • 순위 상관계수 : 순서척도인 데이터 사이의 거리를 측정하기 위한 지표 (스피어만 상관계수 이용)

계층적 군집분석

유형

- **병합적** : 가까운 데이터부터 순차적으로 병합하는 방법
- **분할적** : 각 데이터가 종료조건이 만족할 때까지 순차적으로 분할하는 방법

군집 간 거리측정

18Untitled.png

  • 단일연결 : 최단연결법, 군집 간 가장 가까운 데이터 거리 계산
  • 완전연결 : 최장연결법, 군집 간 가장 먼 데이터 거리 계산
  • 평균연결 : 군집 내 평균 데이터로 거리 계산
  • 중심연결 : 군집의 중심점을 기준으로 거리를 계산
  • 와드연결 : 생성된 군집과 기존의 데이터들의 거리를 군집 내 오차가 최소가 되는 데이터로 계산

비계층적 군집분석

정의 : 군집의 수를 사정에 정의해 정해진 군집의 수만큼 생성하는 방법

K-means

  • 정의 : 군집 수(k)를 사전 정의한 뒤 집단 내 동질성과 집단 간 이질성이 높게 군집하는 알고리즘
  • 특징
    • 단순하고 빠름
    • 초기값 K 설정 어려움
    • 이상값에 민감함
  • 단계 (반복)
    1. K개의 seed 설정
    2. 데이터 seed 할당
    3. 중앙값계산
    4. seed 재설정
    5. 군집 재할당

DBSCAN

  • 정의 : 개체들이 밀집한 정도에 기초하여 군집을 형성하는 밀도 기반 군집분석 방법

혼합분포 군집

정의 : 확률분포에서 추출된 데이터끼리 군집화하는 분석 기법

EM 알고리즘

  • 정의 : 확률모델의 최대가능도를 갖는 모수와 함께 가중치를 추정하는 알고리즘
  • 단계 : E-stepM-step 단계로 구성
    1. [E-step] 파라미터(모수) 설정
    2. [E-step] Z 기대값 계산
    3. [M-step] 새로운 파라미터 추정
    4. [M-step] 반복 및 종료
💡
가능도(Likehood) = 관측된 데이터가 특정 분포를 따를 가능성

BIC 그래프

19Untitled.png

  • 모형 기반 군집분석 시 적절한 확률분포 수를 결정하기 위하여 사용.
  • BIC값이 가장 큰 군집 수가 가장 적절하다. (위에선 3)

자기조직화지도(SOM)

20Untitled.png

  • 정의 : 인공신경망 기반 차원 축소와 군집화를 동시에 수행하는 알고리즘
  • 구성:
    • 입력층
    • 경쟁층 : 표현하고자 하는 n개의 노드로 구성된 레이어
    • BMU(Best-Matching Unit) : 입력층의 표본 벡터에 가장 가까운 프로토타입 벡터
    • 승자노드(winning node) : BMU로부터 가장 가까운 경쟁층 노드
  • 특징
    • 순전파만 이용하여 빠름
    • 시각적 이해용이
    • 데이터 속성 보존
    • 초기 설정 영향도 높음
    • 경쟁층 노드 수 선정 어려움

군집분석 모형 평가

  • 외부 평가
    • 자카드 계수 평가
    • 혼동행렬
    • ROC curve
  • 내부 평가
    • 단순계산법
    • 거리 측도 이용
    • 실루엣 계수
    • 엘보 메소드

3.10. 연관분석

연관분석 정의

데이터의 패턴을 분석하여 의미있는 규칙을 찾아내는 분석 기법

연관분석 특징

  • 계산이 단순하며 분명함
  • 목적변수가 없으므로 데이터 탐색 가능
  • 품목 수가 많을 수록 계산량 증가
  • 거래 발생이 없을 시 분석 불가

연관분석 측도

  • 지지도 : 두 개의 품목이 동시에 포함된 거래의 비율
\[\text{지지도} = P(A\cap{B}) = \frac{\text{A와 B가 동시에 포함된 거래 수}}{\text{전체 거래 수}}\]
  • 신뢰도 : 하나의 품목이 구매되었을 때 다른 품목 하나가 구매될 확률
\[\text{신뢰도(A→B)} = P(B|A) = \frac{P(A\cap{B})}{P(A)}\]
  • 향상도 : 품목 B가 구매될 확률 대비 품목 A가 구매될 때 품목 B가 구매될 확률
\[\text{향상도(A→B)} = \frac{\text{신뢰도(A→B)}}{P(B)} = \frac{P(A\cap{B})}{P(A)P(B)}\]
향상도 < 1 음의 상관관계 A가 구매될 때 B의 구매확률 감소
향상도 = 1 관계 없음 A와 B의 구매 관계 없음
향상도 > 1 양의 상관관계 A가 구매될 때 B의 구매확률 증가

연관분석 알고리즘

Apriori

  • 정의 : 지지도 사용하여 빈발 아이템 집합을 판별, 계산 복잡도를 감소시키는 알고리즘
  • 절차
    1. 최소 지지도 설정
    2. 최소 지지도 보다 큰 지지도를 갖는 품목 선별
    3. 연관 규칙 탐색
    4. 반복

FP-Growth

  • 정의 : 지지도가 낮은 품목부터 집합을 생성하는 상향식 알고리즘
  • 특징
    • Apriori 보다 빠르고 연산 비용이 저렴