반응형

Introduction [English 🇺🇸]

" 30 Days of ML with Kaggle" Repository presents a Machine Learning Study Guide using the Kaggle Platform. This course is based on a tutorial provided by Kaggle.I wrote a description of each kernel on my personal development blog. You can access it for free. I hope this study course will help beginners study machine learning. This repository is continuously being updated.

Latest Update Date - [09.06.2021]

Contributor - MINGYO KIM

Introduction [Korean 🇰🇷]

"캐글과 함께하는 30일 머신러닝 스터디" Repository는 Kaggle 플랫폼을 이용한 머신러닝 학습 가이드를 제공합니다. 본 코스는 Kaggle에서 제공하는 튜토리얼을 기반으로 합니다. 개인 개발 블로그에 각 커널에 대한 설명을 작성했습니다. 이 학습과정이 초보자들의 머신러닝 스터디에 도움이 되길 바랍니다. 해당 레포지토리는 지속적으로 업데이트 되고 있습니다.

최근 업데이트일 - [2021.09.06]

제작자 - 김민교

[Day1 Repository] // Day1 BLOG POST

You’ll set up your Kaggle account, move up from Novice to Contributor, and even make your very first submission to a Kaggle competition!

여러분은 Kaggle 계정을 설정하고, Novis에서 Contributor로 승급하며, Kaggle 대회에 처음으로 출품하게 될 것입니다!

[Day2 Repository] // Day2 BLOG POST

Hello Python

You’ll get a feel for Python syntax, and learn how to work with variables and do arithmetic in Python.

파이썬 구문에 대한 느낌을 이해하고, 파이썬에서 변수 및 산술 작업을 수행하는 방법을 배웁니다.

[Day3 Repository] // Day3 BLOG POST

Functions and Getting Help

You’ll learn how to work with functions, which are reusable blocks of code designed to perform a task.

재사용 가능한 코드블록인 함수를 사용하는 방법에 대해 배웁니다.

[Day4 Repository] // Day4 BLOG POST

Booleans and Conditionals

You’ll learn all about the Boolean data type, which allows you to represent “True” and “False” in Python code. This will provide a strong foundation for understanding how to write conditional statements, which are used to modify how code runs based on whether certain conditions hold.

"True"와 "False"를 나타낼 수 있는 Bool데이터 유형에 대한 모든 것을 배웁니다. 이를 통해 특정 조건이 유지되는지 여부에 따라 코드가 실행되는 방식을 사용할수있으며, 조건문을 작성하는 방법을 이해할 수 있게 됩니다.

[Day5 Repository(1)] , [Day5 Repository(2)] // Day5 BLOG POST

Lists

You’ll learn how to use Python lists to store ordered collections of values. Lists are incredibly useful when writing code to manage several related variables.

파이썬 List를 사용하여 정렬된 값 집합을 저장하는 방법에 대해 배웁니다. List는 여러 관련 변수를 관리하기 위한 코드를 작성할 때 매우 유용합니다.

Loops and List Comprehensions

you’ll learn an efficient way to repeatedly execute code. With list comprehensions, you’ll often be able to condense code that would have taken several lines to just a single line!

코드를 반복적으로 실행하는 효율적인 방법을 배울 수 있습니다. List를 이해하면 여러 줄이 필요했던 코드를 한 줄로 요약할 수 있습니다!

[Day6 Repository] // Day6 BLOG POST

Strings and Dictionaries

You’ll learn about strings, which is a data type that is useful for representing human-readable data, such as text. A dictionary is another new data type, that is similar to a list, but with important differences that makes it incredibly useful in its own right.

문자열에 대해 배우게 됩니다. 문자열은 텍스트와 같이 사람이 읽을 수 있는 데이터를 표현하는 데 유용한 데이터 유형입니다. 딕셔너리는 리스트와 유사하지만 중요한 차이점이 있는 또다른 데이터 유형입니다.

[Day7 Repository] // Day7 BLOG POST

Working with External Libraries

One of the best things about Python is the vast number of high-quality custom libraries that have been written for it. You’ll learn how to access this pre-written code and use it in your own work.

파이썬의 가장 좋은 점 중 하나는 파이썬을 위해 제작된 수많은 고품질 사용자 지정 라이브러리가 있다는 것입니다. 사전 작성된 라이브러리에 액세스 하여 작업에 사용하는 방법을 배우게 됩니다.

[Day8 Repository] // Day8 BLOG POST

How Models Work

You will start at the very beginning: what exactly is “machine learning”, and how is it used in the real world? You’ll learn the answers to these questions and explore the basics of decision trees, as you start to build a strong foundation for some of the most cutting-edge techniques in data science.

머신러닝이 정확히 무엇이며, 실제 환경에서 어떻게 사용되는지에 대해 알아보고, 의사결정 나무의 기초에 대해 살펴봅니다. 데이터 사이언스의 최신 기술을 위한 기반을 구축하게 됩니다.

Basic Data Exploration

You’ll learn all about pandas, the primary tool used by data scientists for exploring and manipulating data. Then, you’ll use your new knowledge to examine a dataset of home prices.

데이터 사이언티스트가 데이터를 탐색하고 조작하는데 사용하는 주요 도구인 Pandas에 대해 배웁니다. 그런 다음, 새로운 지식을 사용하여 집값 데이터셋을 검토합니다.

[Day9 Repository(1)] , [Day9 Repository(2)] // Day9 BLOG POST

Your First Machine Learning Model

You’ll create a machine learning model using the scikit-learn library, one of the most popular and efficient tools for data analysis.

Along the way, you’ll learn some basic techniques for working with very large datasets. These skills are especially important for modern data scientists, who often work with “big data” containing millions of variables ― many more than a human can conceivably understand! Thankfully, machines excel at discovering useful patterns in datasets that are too large for humans to wrap their heads around. :)

가장 인기 있고 효율적인 데이터 분석 도구 중 하나인 sikit-learn 라이브러리를 사용하여 머신러닝 모델을 만들 수 있습니다. 이 과정에서 대규모 데이터셋을 사용하기 위한 몇 가지 기술을 배우게 됩니다. 머신러닝은 인간이 머리로 해결하기에 너무 큰 데이터셋에서 유용한 패턴을 발견하는 데 탁월합니다.

Model Validation

Once you have built a model, how good is it? How exactly should you judge how close the model’s predictions are to what actually happened? You’ll use model validation to measure the quality of your model.

모델을 만들고 나면 얼마나 좋은지, 모델의 예측이 실제 일어난 일에 얼마나 가까운지 등은 어떻게 판단해야 할까요? 모델 검증을 사용하여 모델의 품질을 측정합니다.

[Day10 Repository(1)] , [Day10 Repository(2)] // Day10 BLOG POST

Underfitting and Overfitting

You’ll learn about the fundamental concepts of underfitting and overfitting. Then you'll apply these ideas to gain a deep understanding of why some models succeed and others fail. This knowledge will make you much more efficient at discovering highly accurate machine learning models.

과소적합, 과대적합 파트에서는 과적합의 기본 개념에 대해 배울 것입니다. 그런 다음 이러한 아이디어를 적용하여 일부 모델은 성공적인 반면, 다른 모델은 실패하는 이유를 깊게 이해하게 됩니다. 이러한 지식은 더 정확한 머신러닝 학습 모델을 효율적으로 발견하는데에 도움이 됩니다.

Random Forests

You’ll learn all about random forests, another machine learning model you can add to your growing toolkit. Then, put your new knowledge to use immediately by building your own random forest model that exceeds the performance of the models that you’ve built so far!

또 다른 머신러닝 모델인 랜덤포레스트에 대한 모든 것을 배웁니다. 지금까지 구축한 모델의 성능을 능가하는 자신만의 랜덤포레스트 모델을 구축하게 됩니다.

[Day11 Repository(1)] , [Day11 Repository(2)] // Day11 BLOG POST

Machine Learning Competitions

One way to further improve your skills is to participate in machine learning competitions. You’ll create and submit your predictions to a Kaggle competition.

여러분의 능력을 더욱 향상시키는 방법 중 한 가지는 머신러닝 대회에 참여하는 것입니다. 캐글 대회에 예측결과를 제출합니다.

[Day12 Repository(1)] , [Day12 Repository(2)] , [Day12 Repository(3)] // Day12 BLOG POST

Missing Values

Most machine learning libraries (including scikit-learn) give an error if you try to build a model using data with missing values. In "Missing Values", you’ll learn about three different approaches for dealing with missing values in your data.

대부분의 머신러닝 라이브러리(scikit-learn 포함)는 결측값이 있는 데이터를 사용하여 모델을 구축하려고 하면 오류가 발생합니다. "Missing Values" 파트에서는 데이터의 결측값을 처리하는 세 가지 방법에 대해 알아봅니다.

Categorical Variables

A categorical variable is a variable that takes only a limited number of values, and it’s common to encounter them in data. Learn how to work with them in "Categorical Variables".

범주형 변수는 제한된 수의 값만 사용하는 변수이며, 데이터에서 흔히 볼 수 있습니다. "Categorical Variables"파트에서 이러한 변수를 사용하는 방법에 대해 알아봅니다.

[Day13 Repository(1)] , [Day13 Repository(2)] // Day13 BLOG POST

Pipelines

You’ll learn a simple way to keep your data preprocessing and modeling code organized.

데이터 사전 처리 및 모델링 코드를 구성하는 간단한 방법을 배울 수 있습니다.

Cross-Validation

You’ll explore a more advanced validation technique that gives a better measure of model performance.

모델 성능을 더 잘 측정할 수 있는 고급 검증 기법을 살펴봅니다.

[Day14 Repository(1)] , [Day14 Repository(2)] // Day14 BLOG POST

XGBoost

You will learn how to build and optimize models with gradient boosting. This method dominates many Kaggle competitions and achieves state-of-the-art results on a variety of datasets.

그라데이션 부스팅으로 모델을 구추가고 최적화하는 방법에 대해 배울 것입니다. 이 방법은 많은 캐글 대회에서 우위를 차지하며 다양한 데이터셋에서 좋은 결과를 달성합니다.

Data Leakage

You will learn what data leakage is and how to prevent it. If you don't know how to prevent it, leakage will come up frequently, and it will ruin your models in subtle and dangerous ways. So, this is one of the most important concepts for practicing data scientists.

데이터 유출이 무엇이고 이를 방지하는 방법은 무엇인지에 대해 알아봅니다. 예방법을 모르면 데이터 누수가 잦아지고, 미묘하고 위험한 방법으로 모델을 망가뜨릴 수 있습니다. Data Leakage는 데이터 사이언티스트를 위한 가장 중요한 개념 중 하나입니다.

[Day15~30 Repository(1)] , [Day15~30 Repository(2)] , [Day15~30 Repository(3)] , [Day15~30 Repository(4)] // Day15~30 BLOG POST(1) , Day15~30 BLOG POST(2) , Day15~30 BLOG POST(3) , Day15~30 BLOG POST(4)

30 Days of ML Competition

Participate in the 30 Days of ML Competition hosted by Kaggle. Adjust the parameters of the model! Use what you have learned well!

캐글이 주최하는 30 Days of ML 대회에 참가합니다. 모델의 파라미터를 잘 조절해 보세요! 배운것을 잘 활용하세요!

Bonus Course

[Titanic Dataset Analysis] - Titanic Dataset Analysis BLOG POST

 

GitHub - mgkim-developer/30-Days-of-ML-with-Kaggle: 😃Machine Learning Study Course for All😉

😃Machine Learning Study Course for All😉. Contribute to mgkim-developer/30-Days-of-ML-with-Kaggle development by creating an account on GitHub.

github.com

Titanic Dataset Analysis

Data analysis can be largely divided into five processes.

  1. Data set check
  2. EDA(Exploratory Data Analysis)
  3. Feature engineering
  4. Model development
  5. Machine learning prediction

Let's analyze Kaggle's Titanic dataset!

데이터 분석은 5가지로 과정으로 나눌 수 있습니다.

  1. 데이터셋 확인
  2. 탐색적 데이터 분석
  3. 피쳐 엔지니어링
  4. 모델 개발
  5. 머신러닝 예측

캐글의 타이타닉 데이터셋을 분석해봅시다!

캐글 스터디

반응형