AI
30 Days of ML with Kaggle [Day 15~30]- Competition Submission(reg_lambda 35.1 ▶ 45.9, reg_alpha 34.9 ▶ 44.9)
30 Days of ML with Kaggle [Day 15~30]- Competition Submission(reg_lambda 35.1 ▶ 45.9, reg_alpha 34.9 ▶ 44.9)
2021.09.01XGBRgressor의 파라미너 ref_lambda, reg_alpha는 해당 파라미터의 값을 증가시키면 모델에 대해 보수적인 성향을 추가하게 된다. 현재 RMSE(Root-mean-square-Error)가 0.71 정도가 되는데, private 평가에서는 좀더 보수적인 모델이 성능이 좋을 것 같아서, 최종 제출은 보수적인 모델 1개와 덜 보수적인 모델 1개 이렇게 총 2개를 제출하려고 생각중이다. 파라미터 값을 변경한 보수적인 모델을 소개한다! reg_lambda 35.1 ▶ 45.9, reg_alpha 34.9 ▶ 44.9 Welcome to the 30 Days of ML competition! Import helpful libraries¶ We begin by importing the libra..
30 Days of ML with Kaggle [Day 15~30]- Competition Submission(XGBRegressor)
30 Days of ML with Kaggle [Day 15~30]- Competition Submission(XGBRegressor)
2021.09.01train 25개의 column과 300000개의 row로 구성된 train data set을 이용하여 동일한 column과 200000개로 구성된 test data set에 대하여 target을 예측하는 competition에 참여했다. 30 Days of ML을 마무리하는 competition을 진행하며 제출한 submission이 꽤 많은데 그중 몇가지를 소개하려고한다. 이 포스팅에는 가장 최적값이라고 생각되어지는 XGBRegressor 파라미터를 적용한 코드를 소개한다. Welcome to the 30 Days of ML competition! Import helpful libraries¶ We begin by importing the libraries we'll need. Some of them..
30 Days of ML with Kaggle [Day 15~30]- Data analysis
30 Days of ML with Kaggle [Day 15~30]- Data analysis
2021.08.28캐글의 타이타닉 데이터를 이용해서 Data analysis의 전체적인 과정을 되짚어 보는 시간을 가졌다. Data analysis는 크게 5가지 과정으로 나눌 수 있다. Data set check EDA(Exploratory Data Analysis) Feature engineering Model development - Machine learning Machine learning prediction - feature importance and prediction on test set 베이직한 Data analysis 과정을 살펴보자. import helpful libraries¶ In [1]: # numpy, pandas, matplot 임포트 import numpy as np import pandas..
30 Days of ML with Kaggle [Day 15~30]- Competition Base Line Code
30 Days of ML with Kaggle [Day 15~30]- Competition Base Line Code
2021.08.2415일차에는 아래와 같은 매일을 받았다. Day15~Day30 까지는 지금까지 배운 것들을 응용해서 해당 competition을 참여한다. 대회의 대략적인 개요는 아래와 같다. 해당 competition은 보험금 청구 금액 target을 예측하는 대회이다. Base Line Code 제작 오늘은, 해당 competition을 위한 기본 baseline 코드를 작성해 보겠다. feature의 정보는 비공개이고, column cat0 ~ cat9 는 범주형, cont0 ~ cont13은 연속형 데이터라는 것만 알 수 있다. 쥬피터 노트북에서 데이터를 로드하고 확인해보면, 저런식으로 구성되어있고, 우리가 예측해야 하는 값은 target이다. train data를 y로 지정해준 다음, target column을..
Intermediate Machine Learning Certificate
Intermediate Machine Learning Certificate
2021.08.21
30 Days of ML with Kaggle [Day 14]-XGBoost, Data Leakage
30 Days of ML with Kaggle [Day 14]-XGBoost, Data Leakage
2021.08.21오늘은 Day14에 대한 내용이다. Today's Assignment - day 14 Read this tutorial (from Lesson 6 of the Intermediate ML course) Complete this exercise (from Lesson 6 of the Intermediate ML course) Read this tutorial (from Lesson 7 of the Intermediate ML course) Complete this exercise (from Lesson 7 of the Intermediate ML course) 이번 튜토리얼에서는 gradient boosting으로 모델을 구축하고 최적화하는 방법에 대해서 배운다. 이 방법은 많은 Kaggle competi..