Benvenuti nella mia repository dedicata allo studio della Data Science. Qui documenterò il mio percorso di apprendimento, seguendo un piano strutturato per coprire tutti i concetti fondamentali richiesti da un data scientist.
- Imparare la Data Science in 180 giorni, concentrandomi inizialmente sulla teoria.
- Documentare ogni argomento in file Markdown per mostrare i progressi, favorire la revisione personale e rendere le informazioni disponibili anche ad altri.
- Costruire una solida base teorica prima di iniziare progetti pratici.
Ogni argomento è organizzato in cartelle specifiche con file Markdown che contengono spiegazioni, esempi e note utili.
data/
- Vari dataset usati durante lo studio
numpy/
- numpy.md: Introduzione a Numpy.
pandas/
- pandas.md: Introduzione a Pandas, una libreria fondamentale per la manipolazione e l'analisi dei dati.
matplotlib/
- matplotlib.md: Introduzione a Matplotlib, una libreria fondamentale per la visualizzazione dei dati.
seaborn/
- seaborn.md: Introduzione a Seaborn, una libreria fondamentale per la visualizzazione avanzata dei dati.
SQL/
- sql.md: Introduzione a SQL.
EDA/
- eda.md: Introduzione all'Analisi Esplorativa dei Dati.
- 01_iris_EDA.ipynb: Notebook contenente un'analisi esplorativa dei dati sul dataset Iris.
- 02_titanic_EDA.ipynb: Notebook contenente un'analisi esplorativa dei dati sul dataset Titanic.
- 03_football_EDA.ipynb: Notebook contenente un'analisi esplorativa dei dati su un dataset di calciatori.
feature-engineering/
- feature-engineering.md: Introduzione alla Feature Engineering.
- 01_housing.ipynb: Notebook contenente semplice feature engineering sul dataset Housing.
preprocessing/
- preprocessing.md: Introduzione al Preprocessing dei dati.
- Machine Learning: Teoria di base sul ML, algoritmi supervisionati e non supervisionati.
- Deep Learning: Fondamenti di reti neurali e apprendimento profondo.
- Preprocessing dei dati:
- Exploratory Data Analysis (EDA): Analisi esplorativa dei dati.
- Feature Engineering: Creazione di nuove caratteristiche dai dati.
- Feature Selection: Selezione delle caratteristiche più rilevanti per il modello.
- Tracciamento personale: Ogni commit riflette un progresso specifico.
- Condivisione: Altri studenti o professionisti possono utilizzare questa repository per studiare.
- Portfolio GitHub: Mostro la mia attività e competenze agli eventuali datori di lavoro.
- Day 1: Introduzione a Pandas
- Day 2: Introduzione a Matplotlib
- Day 3: EDA sul dataset Iris per consolidare Pandas e Matplotlib
- Day 4: EDA sul dataset Titanic e aggiunta una scaletta da seguire quando si fa analisi esplorativa sui dati
- Day 5: Introduzione a Seaborn
- Day 6: EDA su un dataset di calciatori per consolidare Seaborn
- Day 7: EDA su un dataset di ordini per ripassare Pandas, Matplolib e Seaborn, introduzione alla Feature Engineering, Feature Engineering sul dataset Housing
- Day 9: Ripasso Pandas, Matplotlib, Seaborn, EDA e Feature Engineering
- Day 10: Numpy, Preprocessing dei dati, SQL
- Day 11: Kaggle Spaceship-Titanic challenge
- Day 12: Completato la Kaggle Spaceship-Titanic challenge con un punteggio di 0.78279
- Day 14: Iniziata Kaggle House-Prices challenge
- Day 16: Introduzione a Scikit-Learn
- Day 17: Inizio "Introduction to Statistical Learning"
- Day 19: "Introduction to Statistical Learning" 2.2, 2.3
- Day 20: "ITSL" 2.4, 3.1, 3.2
- Day 21: "ITSL" 3.3, 3.4, 3.5
- Day 22: "ITSL" 4.1
- Day 23: "ITSL" 4.2, 4.3, 4.4
- Day 32: Ripasso librerie, Linear Regression
- Day 33: Logistic Regression con esempio
- Day 34: esempio Linear Regression, K-Nearest Neighbors con esempio
- Day 35: Decision Trees con esempio
- Day 36: Random Forest con esempio
- Day 38: SVM con esempio, Naive Bayes con esempio, progetto di Sentiment Analysis
- Day 40: inizio progetto Football Match Predictor