Skip to content

saajann/data-science

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

92 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Data Science Journey 🚀

Benvenuti nella mia repository dedicata allo studio della Data Science. Qui documenterò il mio percorso di apprendimento, seguendo un piano strutturato per coprire tutti i concetti fondamentali richiesti da un data scientist.

Obiettivo 🎯

  • Imparare la Data Science in 180 giorni, concentrandomi inizialmente sulla teoria.
  • Documentare ogni argomento in file Markdown per mostrare i progressi, favorire la revisione personale e rendere le informazioni disponibili anche ad altri.
  • Costruire una solida base teorica prima di iniziare progetti pratici.

Struttura della repository 📂

Ogni argomento è organizzato in cartelle specifiche con file Markdown che contengono spiegazioni, esempi e note utili.

Contenuto attuale

  • data/
    • Vari dataset usati durante lo studio
  • numpy/
  • pandas/
    • pandas.md: Introduzione a Pandas, una libreria fondamentale per la manipolazione e l'analisi dei dati.
  • matplotlib/
    • matplotlib.md: Introduzione a Matplotlib, una libreria fondamentale per la visualizzazione dei dati.
  • seaborn/
    • seaborn.md: Introduzione a Seaborn, una libreria fondamentale per la visualizzazione avanzata dei dati.
  • SQL/
  • EDA/
    • eda.md: Introduzione all'Analisi Esplorativa dei Dati.
    • 01_iris_EDA.ipynb: Notebook contenente un'analisi esplorativa dei dati sul dataset Iris.
    • 02_titanic_EDA.ipynb: Notebook contenente un'analisi esplorativa dei dati sul dataset Titanic.
    • 03_football_EDA.ipynb: Notebook contenente un'analisi esplorativa dei dati su un dataset di calciatori.
  • feature-engineering/
  • preprocessing/

Prossimi argomenti

  • Machine Learning: Teoria di base sul ML, algoritmi supervisionati e non supervisionati.
  • Deep Learning: Fondamenti di reti neurali e apprendimento profondo.
  • Preprocessing dei dati:
    • Exploratory Data Analysis (EDA): Analisi esplorativa dei dati.
    • Feature Engineering: Creazione di nuove caratteristiche dai dati.
    • Feature Selection: Selezione delle caratteristiche più rilevanti per il modello.

Perché questa repository? 🤔

  • Tracciamento personale: Ogni commit riflette un progresso specifico.
  • Condivisione: Altri studenti o professionisti possono utilizzare questa repository per studiare.
  • Portfolio GitHub: Mostro la mia attività e competenze agli eventuali datori di lavoro.

Tracciamento progressi 📆

  • Day 1: Introduzione a Pandas
  • Day 2: Introduzione a Matplotlib
  • Day 3: EDA sul dataset Iris per consolidare Pandas e Matplotlib
  • Day 4: EDA sul dataset Titanic e aggiunta una scaletta da seguire quando si fa analisi esplorativa sui dati
  • Day 5: Introduzione a Seaborn
  • Day 6: EDA su un dataset di calciatori per consolidare Seaborn
  • Day 7: EDA su un dataset di ordini per ripassare Pandas, Matplolib e Seaborn, introduzione alla Feature Engineering, Feature Engineering sul dataset Housing
  • Day 9: Ripasso Pandas, Matplotlib, Seaborn, EDA e Feature Engineering
  • Day 10: Numpy, Preprocessing dei dati, SQL
  • Day 11: Kaggle Spaceship-Titanic challenge
  • Day 12: Completato la Kaggle Spaceship-Titanic challenge con un punteggio di 0.78279
  • Day 14: Iniziata Kaggle House-Prices challenge
  • Day 16: Introduzione a Scikit-Learn
  • Day 17: Inizio "Introduction to Statistical Learning"
  • Day 19: "Introduction to Statistical Learning" 2.2, 2.3
  • Day 20: "ITSL" 2.4, 3.1, 3.2
  • Day 21: "ITSL" 3.3, 3.4, 3.5
  • Day 22: "ITSL" 4.1
  • Day 23: "ITSL" 4.2, 4.3, 4.4
  • Day 32: Ripasso librerie, Linear Regression
  • Day 33: Logistic Regression con esempio
  • Day 34: esempio Linear Regression, K-Nearest Neighbors con esempio
  • Day 35: Decision Trees con esempio
  • Day 36: Random Forest con esempio
  • Day 38: SVM con esempio, Naive Bayes con esempio, progetto di Sentiment Analysis
  • Day 40: inizio progetto Football Match Predictor

Releases

No releases published

Packages

No packages published