💪 Today I Learned
Classification model error
- Noise : 고칠 수 없는 원본 데이터의 결함
- Bias : 데이터 내에 있는 모든 정보를 고려하지 않아 잘못된 것들을 학습하는 경향
Underfitting
유발
- Variance : 데이터의 너무 세세한 부분까지 학습하여 모델 변동성이 커짐
Overfitting
유발
Model development process
- feature selection
- algorithm selection
- hyper parameter tuning
- evaluation
위와 같은 시퀀스로 진행되는데, 평가를 제외한 모든 과정에서 cross-validation
은 필수다. 파라미터 튜닝 전에 train / test 데이터를 넣어 확인한다.
🏃♂️ 한마디
딥러닝/클라우드
교과목 중간고사 대체 과제가 머신러닝 경진대회이다. 아직 열흘 이상 남았지만 미리 해두고 싶어서 feature selection 만 진행해봤다.
연구실에 있을 때 이후로 처음 해보는 경진대회였고 R이 아닌 파이썬으로 하려니 많이 낯설었다. 전처리 과정에서 forward selection
은 특히나 오래 걸렸는데 나중에 다시 돌려봐야겠다.