혼자공부하는머신러닝 3

챕터 03 - 3

이제 다항 회귀로 농어의 무게를 어느정도 예측할 수 있지만, 좀 더 손을 봐서 결정계수와 예측율을 높여보자. 사실 3-2 에서 주어진 데이터는 농어의 길이말고 높이와 두께 데이터도 있는데 이걸 활용하면 더 높은 효과를 낼수 있을거라 한다. 3-2에서 하나의 특성을 사용하여 선형회귀 모델을 훈련시켰는데 그 특성을 여러개로 늘려서 다항회귀를 사용했었고 여러 개의 특성을 사용한 선형회귀를 다중회귀라고 해서 차이가 있다. 이번 챕터에서는 길이, 무게, 높이 뿐 만아니라 3개의 특성을 각각 제곱해서 추가하고 거기다가 각 특성을 서로 곱해서 또 다른 특성을만든다고 함. 이렇게 기존의 특성을 사용해 새로운 특성을 뽑아내는 작업을 특성 공학이라고 한다. 또한 이번에는 넘파이보다 좀 더 데이터 분석기능(주로 행렬)이 강..

챕터 03 - 2

머신러닝의 지도학습을 계속 익히고 있는중이다. 앞의 학습과정을 정리하면 (과정이 점점 늘고있다 ㅡㅡ;;;) 1. 데이터 준비 및 데이터 패턴 파악하기 ( 주로 그래프들을 그려가며 대략적인 추세 파악 ) 2. 만약 스케일이 안맞는 데이터들이라면 스케일 맞추기 3. 훈련세트와 테스트세트 준비하기 4. 특정 알고리즘 (여기선 k-최근접 이웃 알고리즘 ) 으로 훈련하기 5. 과소적합, 과대적합 파악해서 파라미터 조정하기 6. 평가 7. 예측 및 사용하기 앞의 과정을 거친 모델을 사용중에 예측 할 데이터로 다시 예측을 해보는데 실데이터와 예측데이터와 큰 차이가 발생했다면? 그럼 모델 사용에 또 뭔가 수정할 부분이 생겼다는 말이다. 그걸 살펴보자. 1. 데이터 준비 및 패턴 파악하기 ( 주로 그래프들을 그려가며 대..

챕터 03 - 1

미리 결론부터 말하면 이번 챕터도 머신러닝의 학습과정이 익숙해지는 연습이다. 또한 앞의 두 챕터는 무게와 길이로 도미인지 빙어인지 분류하는 작업이었고 이번 챕터는 주어진 데이터로 농어의 무게를 예측하는 문제를 풀어나가는 챕터이다. 즉 이번 챕터는 특정값을 예측하는 문제(회귀 regression)이다. 알고리즘 또한 1,2장에서 썼던 k-최근접 이웃 알고리즘을 여기서도 똑같이 적용해보면서 익혀보자. 전체과정을 아예 외우기 위해 여기까지 학습한 작업 순서대로 나열해보자면 1. 데이터 준비 및 데이터 패턴 파악하기 ( 주로 그래프들을 그려가며 대략적인 추세 파악 ) 2. 만약 스케일이 안맞는 데이터들이라면 스케일 맞추기 3. 훈련세트와 테스트세트 준비하기 4. 특정 알고리즘 (여기선 k-최근접 이웃 알고리즘 ..