선형회귀(linear regression)는 지도학습 중 관찰된 데이터들을 기반으로 하나의 함수를 구해서 관찰되지 않은 데이터의 값을 예측하는 분석방법입니다. 선형 회귀분석은 설명변수와 반응변수가 연속형 변수일 때 사용합니다. 그래프의 데이터들을 대표하는 가장 적절한 기울기와 절편을 가진 회귀선을 찾는 것이 선형 회귀의 목적입니다. 이때 최적의 회귀선을 찾는 기준은 각 데이터 포인트에서 함수까지의 거리를 제곱한 값을 평균 낸 값인 평균 제곱 오차(MSE, mean squareed error)를 최소로 만드는 것입니다. 두 회귀선을 기준으로 MSE를 비교했을 때, 더 작은 크기를 나타내는 왼쪽의 회귀선이 더 적절한 회귀선이 되겠죠? 목적 함수는 보통 어떤 함수의 최댓값 또는 최솟값을 구하는 함수인데, 회귀..
k-최근접 이웃(k Nearest Neighbors, kNN)알고리즘은 데이터 분류에 사용되는 간단한 지도학습 알고리즘 이에요. 이 알고리즘은 현재 데이터를 특정값으로 분류하기 위해 기존의 데이터 안에서 현재 데이터로부터 가까운 k개의 데이터를 찾아 k개의 레이블 중 가장 많이 분류된 값으로 현재의 데이터를 분류합니다! 위의 그림을 kNN알고리즘 관점으로 본다면 ★이라는 테스트 데이터는 좌표상에서 자기 위치로부터 가까운 3개의 기존 데이터들(●,♥)을 찾아 과반수의 레이블(●)로 자신을 분류했습니다. k는 짝수로 지정할 경우, 2n:2n의 상황이 발생해 분류하기 애매해 질 수 있으므로, k는 홀수로 지정해주는게 관습입니다! 장점 kNN 알고리즘은 다른 머신러닝 알고리즘보다 이해하기가 상당히 쉽습니다. 다..
서포트 벡터 머신(SVM)은 머신러닝의 분류기법 중 하나로 분류 문제 외에 회귀에도 적용이 가능하며 정확도 측면에서 우수한 결과를 가져온다는 이유로 분류기법 중에서도 최상의 기법으로 알려져 있습니다 ! 하지만 의사결정나무처럼 직관적인 해석은 불가능 하기 때문에 이해하는데 어렵다는 단점 또한 가지고 있어요. 그래서 보통 결과해석에는 의사결정나무가 자주 쓰이지만, 높은 정확도를 위해서는 SVM을 주로 사용한다고 합니다. 용어 먼저 알아보고 장단점으로 글을 마무리 하겠습니다! 01 초평면 곡선이 아닌 직선이나 평면으로 데이터를 구별하는 방법을 최대 마진 분류기라고 하고, 최대 마진 분류기가 경계로 사용하는 선이나 면을 초평면(Hyperplane)이라고 합니다. 데이터의 차원에 따라 초평면 차원도 달라집니다. ..
혼동행렬(confusion matrix)은 모델의 성능을 평가할 때 사용되는 지표입니다. 처음에 이해하기가 좀 헷갈렸는데 굉장히 이해가 잘되는 자료를 보고 정리해봤어요! 먼저 모델의 성능을 평가하기 위해 혼동행렬과 함께 필요한 네 가지 개념이 있습니다. TP(True Positive) - 맞는 것을 올바르게 맞다고 예측한 것 TN(True Negative) - 아닌 것을 올바르게 틀리다고 예측한 것 FP(False Positive) - 아닌 것을 올바르지 않게 맞다고 예측한 것 FN(False Negative) - 맞는 것을 올바르지 않게 틀리다고 예측한 것 이건 ADSP공부할 때 나왔던 개념인데 솔직히 이해도 제대로 못하고 무작정 외웠었어요! 이해를 돕기 위해 '질병이 있는 사람(맞는 것)'과 '질병이..
과대적합(Overfitting) 필요 이상의 특징을 발견하여 학습 데이터에선 높은 정확도를 보이지만 테스트 데이터나 새로운 데이터에는 정확도가 낮게 나오는 경우를 과대적합이라고 해요. 공을 분류해내는 머신러닝 모델을 간단한 예로 들어볼게요. 사물 분류값 생김새 크기 줄무늬 야구공 공 원형 중간 있음 농구공 공 원형 큼 있음 테니스공 공 원형 중간 있음 딸기 과일 세모 중간 없음 포도알 과일 원형 작음 없음 위의 학습데이터를 기준으로, 모델에게 '생김새가 원형이고 크기가 작지 않으며, 줄무늬가 있으면 공이야!' 라고 학습을 시킨다면. 학습데이터만 두고 본다면 이 모델은 정확하게 '야구공,농구공,테니스공!'이라고 대답하겠지만, 이 모델에게 아래 데이터를 보여주고 똑같이 질문한다면 사물 분류값 생김새 크기 줄..
지도학습 지도학습(supervised learning)은 레이블(정답)을 알려주면서 진행되는 학습입니다. 때문에 학습 시 데이터와 함께 레이블(정답)이 항상 제공되어야 해요! 지도학습은 테스트할 때 데이터와 함께 레이블을 제공하므로 손쉽게 모델의 성능을 평가할 수 있다는 장점이 있습니다. 하지만 데이터마다 레이블을 달기 위해 많은 시간이 투자돼야 한다는 단점 또한 있어요! 지도학습의 대표적인 예는 분류와 회귀가 있습니다. 분류는 범주형 데이터, 즉 분리된 값을 예측하고 회귀는 연속형 데이터, 연속된 값으로 예측합니다. 이 둘을 날씨로 예를 들면, 분류) 내일은 날씨가 추울 것이다. 회귀) 내일은 온도가 35.0℃일 것이다. 지도학습의 기법들 선형 회귀(Linear Regression) 로지스틱 회귀(Lo..