티스토리 뷰

선형회귀(linear regression)는 지도학습 중 관찰된 데이터들을 기반으로 하나의 함수를 구해서

관찰되지 않은 데이터의 값을 예측하는 분석방법입니다.

선형 회귀분석은 설명변수와 반응변수가 연속형 변수일 때 사용합니다.

그래프의 데이터들을 대표하는 가장 적절한 기울기와 절편을 가진 회귀선을 찾는 것이 선형 회귀의 목적입니다.

이때 최적의 회귀선을 찾는 기준은 각 데이터 포인트에서 함수까지의 거리를 제곱한 값을 평균 낸 값인

평균 제곱 오차(MSE, mean squareed error)를 최소로 만드는 것입니다.

Mean Squared Error

두 회귀선을 기준으로 MSE를 비교했을 때, 더 작은 크기를 나타내는 왼쪽의 회귀선이 더 적절한 회귀선이 되겠죠?

목적 함수는 보통 어떤 함수의 최댓값 또는 최솟값을 구하는 함수인데,

회귀에서 목적 함수는 평균 제곱 오차를 최소화하는 것입니다.

여기서 평균 제곱 오차를 최소로 만들 때 사용되는 기법이 경사하강법(Gradient Decent)입니다.

경사 하강법은 어느 한 지점에서의 f(θ)의 미분 값과 반대되는 방향으로 θ를 조금 움직여,

결과적으로 f(θ)의 값이 줄어들게 만드는 방식입니다.

이 경사 하강법을 반복적으로 수행해서 f(θ)를 최소로 하는 θ를 찾아야 합니다.

이다음에, θ - (α*미분값)으로 θ값을 변경해서 변곡점(도함수의 극점)에 더 가까운 값으로 이동합니다. (α : learning rate)

θ값이 0.7로 변경되고  θ값이 변곡점에 가까워지면서 오른쪽 그래프에서 보이는 평균 제곱 오차도 줄어든 게 보입니다.

이렇게 경사 하강법을 반복 시행하면서 최소화된  θ값을 회귀 계수로 선택하게 됩니다.

 

<참고 문헌 및 이미지 출처>
-Minseok-Heo, [나의 첫 머신러닝/딥러닝], Wikibooks, 2019.
-Minseok-Heo, [Youtube] - https://www.youtube.com/watch?v=MwadQ74iE-k
이 글은 저자님과 출판사의 참고 허가를 받고 작성되었습니다.

글 보관함