Post

[KT Aivle 3기 AI] 25일차. 미니프로젝트 2차 (3) Kaggle Competition

KT Aivle School 3기 AI 25일차

  • 강사 : 지병규 강사님
  • 주제 : 악성 사이트 탐지 모델링 Kaggle Competition

👍 미니프로젝트 2차 (3) 3일차 Kaggle Competition

[미니프로젝트 2차 (3) Kaggle Competition 코드]

오늘은 어제와 같은 주제로 Kaggle Competition을 열어 교육생들끼리 경쟁을 했다. 금일 4시까지 submission과 ppt 제출을 완료해야해서 생각보다 시간이 촉박했다. 데이터 탐색이랑 전처리 부분은 어제 진행을 하면서 내일 하게되면 이렇게 저렇게 해야지 했는데.. 막상 모델링을 돌려보면서 시간도 부족해서 원하는 전처리도 다 못해봤고, 오히려 전처리하면 성능이 떨여저서 많이 아쉬웠다. 특히 이번 competition에서는 null 값이 되게 많았는데, 이것을 어떻게 처리하는지가 score에 큰 영향을 줬던 것 같다. 우리 팀은 mean, median, mode 값으로 진행해봤고, 이렇게 했을 때 median의 성능이 제일 좋아서 median으로 결측치를 처리 했다. 그리고 XGBoost가 cross validation score가 가장 좋게나와서 XGBoost 에 대해 Hyperparameter Tunning을 하면서 성능을 증가시켜보았다.

Untitled (4)

우리팀은 0.93363 의 값으로 16등으로 마무리했다. 그러고 나서 고수분들의 발표를 들어보았다..

Untitled (5)

이번 competition 상위권 조 분들.. 의 발표를 들으면서 몇가지를 배웠다.

먼저 결측치를 처리할 때의 알고리즘이다. 일단 이번 competition에서는 상위권에 있는 조들은 대부분 KNN Imputer라는 알고리즘으로 결측치를 처리해준 것 같았다. 결측치를 채우는데에 있어 알고리즘을 사용한다는 것이 신기했고, 다음에 사용해봐야겠다!

그리고, 모델으로는 CatBoost를 많이 사용하셨는데, 나는 아직 접해보지 못한 모델이어서 저 모델이 성능이 잘 나오는 구나.. 하고 찾아봐야겠다는 생각을 했다.

마지막으로는 자동화 툴을 사용하는 것이었다. 어제 배운 ydata-profiling을 통해 데이터 분석을 용이하게 하고, Pycaret이라는 오픈소스 라이브러리로 한 번에 많은 모델들의 성능을 확인할 수 있다. 그리고 Auto ML을 통해서 자동으로 최적의 모델을 찾아 학습시켜주는 툴도 있었다. (요즘 Kaggle에서는 이 Auto ML을 사용하는게 상위권을 차지하고 있다고 한다) [Auto ML 소개해주신 조에서 사용한 Auto ML Github]

역시 이번프로젝트에서도 상당히 잘하시는 분들도 많고, 나는 아직 많이 부족하단 것을 깨달았다. 그래도 내가 한 것도 충분히 잘 했다고 생각하고, 꾸준히 노력하면 능력있는 개발자가 될 것이라고 생각한다!!

This post is licensed under CC BY 4.0 by the author.

[KT Aivle 3기 AI] 24일차. 미니프로젝트 2차 (2)

[KT Aivle 3기 AI] 26일차. AI 모델 해석 및 평가