본문 바로가기
Daily Review

나를 Kaggle 마스터로 만든 10가지 노트북

by data-analyst-luke 2022. 9. 6.
반응형

EDA, AutoML, 모델 비교, 초매개변수 조정 등…

 

캐글이란?

Kaggle은 데이터 과학 목표를 달성하는 데 도움이 되는 강력한 도구와 리소스를 제공하는 세계 최대 데이터 과학 커뮤니티입니다.

Kaggle은 데이터 과학자와 기계 학습 엔지니어의 온라인 커뮤니티입니다. Kaggle에는 데이터 과학자가 쉽게 작업하고 기술을 향상할 수 있는 많은 실제 데이터 세트가 포함되어 있습니다. 또한 Kaggle에 있는 대회는 기계 학습 모델을 위한 훌륭한 벤치마크 플랫폼입니다. Kaggle의 대회를 보면 강력한 ML 모델을 찾을 수 있습니다.

 

1. 데이터 과학에서 무엇이 바뀌었습니까?

 

2. 베이스라인 모델 CLF, Random-ML-AutoML

이 작업의 목적은 데이터 과학의 기본 모델을 설명하는 것입니다. 여기 에서 데이터 세트 와 아래 작업 기사를 볼 수 있습니다 .

 

https://pub.towardsai.net/what-are-baseline-models-and-benchmarking-for-machine-learning-why-we-need-them-affe0714cd07

 

What Are Baseline Models and Benchmarking For Machine Learning, Why We Need Them?

Random, Machine Learning, Automated ML Baseline Models and Benchmarking For ML…

pub.towardsai.net

 

 

3. TPS-2월 22일, EDA -> Ignore-Important Cols

이 연구의 목적은 탐색적 데이터 분석을 수행하는 것입니다. 이것은 TPS-Feb22 대회의 1부입니다. 

여기 에서 데이터세트 와 전체 코드를 아래에서 찾을 수 있습니다 .

4. Pycaret 모델 비교 [0.97LB]

TPS-Feb22 대회 2부입니다. 이 노트북에서 모델링 작업을 했고 ml 모델의 정확도 점수는 0.97입니다. 

여기 에서 데이터세트 와 전체 코드를 아래에서 찾을 수 있습니다 .

5. 500💲 — 225.000💲 DS 소득의 차이

이 기사는 데이터 과학에서 고소득을 위한 중요한 재능, 도구, 국가의 특징 및 회사의 특징에 관한 것입니다. 

6. EDA + Feature Engineering

이 작업의 목적은 탐색적 데이터 분석 및 기능 엔지니어링을 수행하는 것입니다. 이것은 TPS-Jan22 대회의 1부입니다. 여기 에서 데이터세트 와 전체 코드를 아래에서 찾을 수 있습니다 .

 

https://www.kaggle.com/hasanbasriakcay/playground-jan-22-eda-feature-engineering

 

📊Playground-Jan 22, EDA + Feature Engineering🔥

Explore and run machine learning code with Kaggle Notebooks | Using data from Tabular Playground Series - Jan 2022

www.kaggle.com

7. TSA + FE + 모델링

이것은 TPS-Jan22 대회의 2부입니다. 

이 노트북에서는 피쳐 엔지니어링 및 모델링 작업을 수행했습니다. 

여기 에서 데이터세트 와 전체 코드를 아래에서 찾을 수 있습니다 .

 

8. EDA + Feature Engineering

나는 이 기사에서 TPS-Mar21 경쟁에 대한 나의 작업을 말했다. 

이것은 내가 LB %14에 속한 TPS-Mar21 대회의 1부입니다. 

이 파트에서는 ​​EDA 및 기능 엔지니어링에 대해 작업했습니다. 

여기 에서 데이터 세트를 볼 수 있으며 아래 작업 기사를 찾을 수 있습니다.

 

https://medium.com/databulls/tabular-playground-series-mar-2021-leaderboard-14-eda-feature-engineering-e5827982384e

 

Tabular Playground Series-Mar 2021, Leaderboard %14, EDA + Feature Engineering 🔥

This is part 1 of the TPS-Mar21 competition that I am in LB %14.

medium.com

 

9. EDA + Feature Engineering XGB, CatBoost, LGBM, Optuna LB:%14

이것은 내가 LB %14에 속한 TPS-Mar21 대회의 2부입니다. 

기사의 이 부분에서는 Xgboost, Catboost 및 LGBM의 세 가지 기계 학습 모델을 비교했습니다. 

경쟁 메트릭은 ROC AUC(수신기 작동 특성 곡선 아래 면적)입니다.

여기 에서 데이터 세트를 볼 수 있으며 아래 작업 기사를 찾을 수 있습니다.

10. 전자상거래 예측 Fbprophet + Optuna

이 기사에서는 Optuna와 함께 Fbprophet을 사용하는 방법에 대해 자세히 살펴보았습니다. 

이 문서에서 작업할 때 전자 상거래 데이터 데이터 세트를 사용 했습니다. 작품의 기사는 아래에서 찾을 수 있습니다.

 

반응형

댓글