통계 기본 이론
예측 분석학
- 대전제는 역사는 반복적이다.
- 과거 데이터에 대한 적합화를 수행하여 이를 테스트
- 결과 성능에 대한 척도가 검증되면
- 동일 모델에 대해서 미래 예측에 활용
독립 변수
- 관측치, 입력 변수, 특징, feature, 설명변수 등
종속 변수
결과 변수, 반응 변수, 응답 변수, 설명된 변수, 측정된 변수, 레이블, 실험 변수 등
변수들로 이루어진 수학식
- 이를 이용하여 계산 후 실제에 적용
- 이를 통해서 추정을 한다 -> 통계 학문
가정
- 항상 모든 변수들이 만족해야하는 기본 가정으로부터 시작한다.
머신러닝
- 의의
- 머신 러닝은 과거 경험에서 학습을 통해 얻은 지식을 미래의 결정에 이용하는 전산학의 한 분야
- 전산학과 공학, 통계학의 교집합으로 볼 수 있다
- 목표
- 관측된 패턴을 일반화 하거나 주어진 예제를 통해 새로운 규칙을 생성하는 것
- 종류
- 지도학습 (Supervised learning)
- 목표 변수와 다른 변수 간의 관계를 기계가 학습하도록 가르치는 것
- 분류 문제 (Classification)
- 회귀 문제 (Regression)
- 비지도 학습(Unsupervised learning)
- 지도나 목표 변수를 설정하는 과정 없이 알고리즘이 스스로 학습
- 주어진 데이터 사이의 숨은 패턴이나 관계를 찾는 것
- 차원 축소 (Dimensionality reduction)
- 군집화 (Clustering)
-강화 학습 (Reinforcement learning)
- 기계나 에이전트가 주변환경의 피드백으로부터 행동을 학습하는 것
- 에이전트는 지도를 받지 않고 스스로 결정을 내린 후 마지막에 그 결과에 따라 보상을 받게 됨
- 보상값에 따라 에이전트는 실행했던 이력을 재평가
쉽게 말하자면 통계모델링은 많은 데이터를 토대로 테스트가 이루어지지만
머신러닝은 당장에 결과가 나오고 컴퓨터가 수천수억 번을 반복해서 학습을 하는 개념이다.
지도 학습과 비지도 학습의 차이는 지도 학습(머신러닝)은 데이터 프레임을 사람이 다 알려준 다음 학습을 하는 개념이다.
그렇기 때문에 위 경우에서 머신러닝은 그림을 학습하는 것이 아니라. RGB 값을 이해한 것이다.
비지도 학습(딥러닝)은 자동으로 그 값을 학습하는 것이다. 즉 생각을 할 수 있는 신경망 체계만 만들어준 것이다.
머신 러닝 모델 개발과 배치를 위한 단계
1. 데이터 수집
- 구조화된 소스, 웹크롤링, API 등을 통해 직접 수집
- 정형 데이터와 비정형 데이터를 모두 처리할 수 있음
2. 데이터 준비, 결측치/이상치 처리
- 선택한 머신 러닝 알고리즘에 맞도록 데이터를 가공
- 결측치나 이상치는 평균값이나 중간값 등으로 대체
3. 데이터 분석과 변수 선택(가장 중요) 여기서 막히면 다시 1번으로 돌아간다.
- 변수들 사이의 숨겨진 패턴 및 관계를 찾아내기 위한 과정
- 올바른 변수 선택과 사업 분야에 관한 충분한 배경 지식을 동원한다면 목표의 70% 정도를 달성할 수 있음
4. 훈련 알고리즘
- 데이터를 훈련, 검증, 테스트로 부닐
- 훈련 데이터에 머신 러닝을 적용하고 과적합을 피하기 위해 검증 데이터를 대상으로 모델의 초매개변수를 튜닝
5. 테스트 데이터를 사용한 알고리즘 테스트
- 훈련에 사용하지 않은 낯선 테스트 데이터를 대상으로 성능 점검을 수행
- 이 단계에서 충분히 성능이 인정되면 마지막 단계로 넘어감
6. 알고리즘 배치
- 비즈니스에 적용
머신 러닝 모델 튜닝을 멈추는 시점
왜 멈춰야 할까?
왼쪽에서 오른쪽으로 훈련이 점차 진행되며 흘러가는 데이터의 흐름을 그래프화 한 것이다. 그래프를 보면 알 수 있듯이 파란색 점을 따라가는 선이 세 번째에 많이 일그러지는데 훈련 데이터가 과도하게 몰입돼버리면 찾고자 하는 바를 못 찾고 과적합 (오버 피팅)이라고 한다. 간단하게 두 번째 그림처럼 됐을 때 학습을 멈추는 것이 베스트라는 것
위와 같은 설명이 그래프화 된 것이다. 최적점을 지나서 훈련 세트가 지나가다 보면 과대 적합되는 것을 그래프로 확인할 ㅅ 수 있다.
정리
- 과소 적합 단계
- 높은 훈련 오류 및 테스트 오류
- 낮은 훈련 정확도 및 테스트 정확도
- 적합 단계 (Good fit)
- 이상적인 시나리오
- 낮은 훈련 오류 및 테스트 오류
- 높은 훈련 정확도 및 테스트 정확도
- 과대 적합 단계 (Overfitting)
- 낮은 훈련 오류와 높은 테스트 오류
- 높은 훈련 정확도와 낮은 테스트 정확도