티스토리 뷰
선형회귀(linear regression)는 지도학습 중 관찰된 데이터들을 기반으로 하나의 함수를 구해서
관찰되지 않은 데이터의 값을 예측하는 분석방법입니다.
선형 회귀분석은 설명변수와 반응변수가 연속형 변수일 때 사용합니다.
그래프의 데이터들을 대표하는 가장 적절한 기울기와 절편을 가진 회귀선을 찾는 것이 선형 회귀의 목적입니다.
이때 최적의 회귀선을 찾는 기준은 각 데이터 포인트에서 함수까지의 거리를 제곱한 값을 평균 낸 값인
평균 제곱 오차(MSE, mean squareed error)를 최소로 만드는 것입니다.
두 회귀선을 기준으로 MSE를 비교했을 때, 더 작은 크기를 나타내는 왼쪽의 회귀선이 더 적절한 회귀선이 되겠죠?
목적 함수는 보통 어떤 함수의 최댓값 또는 최솟값을 구하는 함수인데,
회귀에서 목적 함수는 평균 제곱 오차를 최소화하는 것입니다.
여기서 평균 제곱 오차를 최소로 만들 때 사용되는 기법이 경사하강법(Gradient Decent)입니다.
경사 하강법은 어느 한 지점에서의 f(θ)의 미분 값과 반대되는 방향으로 θ를 조금 움직여,
결과적으로 f(θ)의 값이 줄어들게 만드는 방식입니다.
이 경사 하강법을 반복적으로 수행해서 f(θ)를 최소로 하는 θ를 찾아야 합니다.
이다음에, θ - (α*미분값)으로 θ값을 변경해서 변곡점(도함수의 극점)에 더 가까운 값으로 이동합니다. (α : learning rate)
θ값이 0.7로 변경되고 θ값이 변곡점에 가까워지면서 오른쪽 그래프에서 보이는 평균 제곱 오차도 줄어든 게 보입니다.
이렇게 경사 하강법을 반복 시행하면서 최소화된 θ값을 회귀 계수로 선택하게 됩니다.
<참고 문헌 및 이미지 출처>
-Minseok-Heo, [나의 첫 머신러닝/딥러닝], Wikibooks, 2019.
-Minseok-Heo, [Youtube] - https://www.youtube.com/watch?v=MwadQ74iE-k
이 글은 저자님과 출판사의 참고 허가를 받고 작성되었습니다.
'Data Science > Machine Learning' 카테고리의 다른 글
[Machine Learning] K-최근접 이웃(KNN) 알고리즘 (0) | 2019.04.04 |
---|---|
[Machine Learning] 서포트 벡터 머신 - SVM (0) | 2019.04.03 |
[Machine Learning] 혼동행렬 (0) | 2019.03.29 |
[Machine Learning] 과대적합과 과소적합 (0) | 2019.03.28 |
[Machine Learning] 지도학습과 비지도학습 (0) | 2019.03.27 |