1. 선형 회귀(Linear Regression)란?
회귀분석(Regression Analysis)은 관찰된 연속형 변수들에 대해 두 변수 사이의 모형을 구한 뒤 적합도를 측정해 내는 분석 방법이다. 예를 들어, 공부 시간에 따른 시험 점수를 예측하는 모델은 0~100점 사이의 연속형 변수를 측정하는 회귀분석(Regression Analysis)이다.
2. Hypothesis(가설)
x(공부시간)에 따른 y(시험점수)에 대한 Training Dataset이 있다. 해당 Data의 값들을 그래프에 검정색점으로 표시했다.이 때, 가상의 직선 H(x)=Wx+b를 Hypothesis라고 하며, 가장 적합한 W(weight), b(bias)를 찾는 것이 모델 학습과정이다.
3. Cost Function (=Loss Function)
Hypothesis인 H(x)=Wx+b에서 가장 적합한 W, b를 찾으려면 실제 Training Data들과의 차이를 계산해야하고 이를 Cost Function으로 나타낸다. 즉, H(x)에서 실제값 y^(i)을 빼고 제곱한 것들의 평균을 Cost Function이라 한다.
4. Minimize Cost Function / 경사하강법
결국, Cost Function이 최솟값이 되는 W, b를 찾아 H(x)=Wx+b를 구하는 것이 최종목표이다.
Cost Function의 최솟값을 찾기 위한 방법이 경사하강법(Gradient Descent Algorithm)이다.
Cost(W,b)에서 b=0으로 가정하면, Cost(W)는 W에 대한 2차함수이다.
경사하강법(Gradient Descent)이란, 함수의 기울기(경사)를 구하고 경사의 반대 방향으로 계속 이동시켜 극값에 이를 때까지 반복시키는 것이다. 즉, Cost(W)를 미분하여 Cost'(W)>0 이면 W를 - 방향으로 Learning Rates만큼 이동하고,
Cost'(W)<0 이면 W를 + 방향으로 Learning Rates만큼 이동하며 Minumum Cost Point를 찾는다.
이를 수식으로 나타내면 다음과 같다.
'기타 > ML, DL' 카테고리의 다른 글
BackPropagation scratch coded in C - small letter recognition (0) | 2023.09.18 |
---|---|
ML - 5. 다중 분류(Multi-label Classification)의 개념 (0) | 2023.08.02 |
ML - 4. 이진분류(Binary Classification)의 개념 (0) | 2023.08.01 |
ML - 2. Supervised Learning (지도 학습) ⊃ 회귀,분류 (0) | 2023.07.08 |
ML - 1. 머신러닝이란 (지도/비지도 학습) (0) | 2023.07.08 |