IT Dictionary
선형 회귀 본문
선형 회귀
지도학습 알고리즘으로 데이터를 통해 최적선을 찾아내는 방법이라고 할 수 있다.
맞추려고 하는 값 - 목표변수(target)
사용하는 값 - 입력변수(input)
가설함수
최적선을 찾기 위해 시도해보는 함수라고 할 수 있고 이 가설함수가 좋은지를 판단하기 위해 MSE가 사용될 수 있다.
MSE(Mean Squared Error)
MSE는 추정회귀선과 실제값과의 차이인 오차의 제곱 평균이다.
제곱을 하는 이유는
오차가 양수 또는 음수로 나타나기 때문에
오차가 클 수록 부각되기 때문에
-> MSE 가 클수록 오차가 크다고 할 수 있다.
손실함수
설정한 가설함수를 평가하는 함수라고 할 수 있고 손실함수의 아웃풋이 작을수록 가설함수의 손실이 적다.
따라서, 더 좋은 가설함수라고 할 수 있게 된다.
보통 문자 J를 이용하고 선형 회귀에서는 MSE 가 손실함수로 작용한다.
J(θ)=∑(h(x(i))−y(i))^2 / 2m
경사하강법
손실함수에서 경사는 가장 가파르게 올라가는 방향을 의미한다. 그렇다면 그 반대가 가장 가파르게 내려가는 방향이라고 할 수 있고 이는 손실함수가 가장 작은 최적을 찾아가는 방향이 된다.
따라서, 손실함수를 편미분하고 학습률 알파를 곱하여 기존값에서 뺀 값을 업데이트 함으로써 최적을 찾아갈 수 있는 것이다.
학습률 알파
경사하강을 하면 손실함수에 학습률 알파를 곱하여 계산한다.
이 학습률은 움직이는 정도를 나타내는 것이라고 할 수 있는데 중요한 점은 너무 크지도 작지도 않아야 한다.
따라서, 여러 실험을 해보면서 적절한 학습률을 찾아야 한다.
모델 평가하기
실제로 머신러닝을 하게 될때 모든 데이터를 가지고 학습을 시키지 않아야 한다.
가설함수마다 평가할 지표도 없고 데이터에 맞게 학습을 시켰으니 오차도 작게 나올 수 밖에 없기 때문이다.
따라서, 학습을 위한 데이터와 평가를 위한 데이터를 나눠야 한다.
학습용은 training set
평가용은 test set
'데이터분석 > 머신러닝' 카테고리의 다른 글
| Decision Tree(의사결정나무) (0) | 2021.05.23 |
|---|---|
| L1, L2정규화 (0) | 2021.04.05 |
| 로지스틱 회귀(분류) (0) | 2021.03.22 |
| 정규방정식(Normal equation) (0) | 2021.03.16 |
| 머신러닝 (0) | 2021.03.08 |