report q3

NicoleMp2 · NicoleMp2 · commit 5c7d90cdc5ec · 2024-02-02T20:28:19.000+02:00
diff --git a/el18604.pdf b/el18604.pdf
diff --git a/el18604.tex b/el18604.tex
@@ -13,6 +13,20 @@
 \usepackage{wrapfig}
 \usepackage[]{hyperref}
 \usepackage{verbatim}
+\usepackage{listings}
+
+
+
+\makeatletter
+\newread\file@read
+\newcommand{\readfirstline}[1]{%
+  \openin\file@read=#1\relax
+  \read\file@read to\@tempa
+  \closein\file@read
+  \@tempa
+}
+\makeatother
+
 
 \begin{document}
 
@@ -51,14 +65,25 @@ \section*{Ζητούμενο 2}
   \item \texten{LON} : \texten{double} $\rightarrow$ \texten{double}
 \end{itemize}
 \par Επίσης, στο αρχειο \texten{IncomeData2015.csv} η στήλη  \texten{"Estimated Median Income"} έχει τύπο \texten{string} της μορφής: "\$\texten{number}", οπότε αφαιρέθηκε το '\$' και έγινε μετατροπή σε \texten{integer}.
-\par Τέλος, ενώθηκαν τα \texten{DataFrame} που περιέχουν τα δεδομένα καταγραφής εγκλημάτων για το \texten{Los Angeles} από το 2010 μέχρι το 2019 και από το 2020 μέχρι σήμερα, τα δεδομένα με \texten{reverse geocoding} πληροφορία και τα δεδομένα σχετικά με το μέσο εισόδημα ανά νοικοκυριό και ταχυδρομικό κώδικα δημιουργώντας ένα νέο \texten{DataFrame}, το οποίο αποθηκέυτηκε, με την εξής μορφή:
+\par Τέλος, ενώθηκαν τα \texten{DataFrame} που περιέχουν τα δεδομένα καταγραφής εγκλημάτων για το \texten{Los Angeles} από το 2010 μέχρι το 2019 και από το 2020 μέχρι σήμερα, τα δεδομένα με \texten{reverse geocoding} πληροφορία και τα δεδομένα σχετικά με το μέσο εισόδημα ανά νοικοκυριό και ταχυδρομικό κώδικα δημιουργώντας ένα νέο \texten{DataFrame}, το οποίο στην συνέχεια αποθηκέυτηκε.
+\newpage Ο συνολικός αριθμός γραμμών και ο τύπος κάθε στήλής φαίνονται παρακάτω:
 \texten{\verbatiminput{outputs/ConfigData.txt}}
 
 \section*{Ζητούμενο 3}
-
+Το \texten{Query 1} υλοποιήθηκε χρησιμοποιώντας τα \texten{DataFrame} και \texten{SQL API} με 4 \texten{Spark Executors}. Οι δύο υλοποιήσεις βρίσκονται σε δύο διαφορετικά αρχεία και προφανώς δίνουν το ίδιο αποτέλεσμα αλλα σε διαφορετικούς χρόνους εκτέλεσης\footnote[1]{Να σημειωθεί ότι οι χρόνοι εκτέλεσεις αφορούν αποκλειστικά την διάρκεια εκτέλεσεις των ερωτημάτων και δεν προσμετράται το φόρτωμα και η εκτύπωση των στοιχείων}. Γεγονός ελαφρώς αναμενόμενο αφού η βιβλιογραφία αναφέρει ότι το \texten{DataFrame API} έχει καλύτερη επίδοση για πιο περίπλοκα ερωτήματα. Σε κάθε περίπτωση,όμως, οι χρόνοι εκτέλεσης δεν διαφέρουν πολύ, καθώς και τα δύο \texten{APIs} χρησιμοποιούν το ίδιο \texten{execution plan} και το ίδιο \texten{query optimizer}. Συνεπώς, παίζει ρόλο και η εξοικείωση του προγραμματιστή με το κάθε \texten{API},σημείο που υπερτερεί το \texten{DataFrame API} διότι προσφέρει μεγαλύτερη ευκολία και έλεγχο στον προγραμματιστή. 
+Οι χρόνοι εκτέλεσης και τα αποτελέσματα φαίνονται παρακάτω: \break \break
+\texten{\texttt{\readfirstline{outputs/Query1DF.txt}}}
+\texten{\verbatiminput{outputs/Query1SQL.txt}}
 
 \section*{Ζητούμενο 4}
+Αντίστοιχα με παραπάνω το \texten{Query 2} υλοποιήθηκε χρησιμοποιώντας τα \texten{DataFrame}, \texten{SQL} και \texten{RDD API} με 4 \texten{Spark Executors}. Οι τρεις υλοποιήσεις βρίσκονται σε τρία διαφορετικά αρχεία. Παρατηρούμε ότι ο χρόνος εκτέλεσης του \texten{RDD API} είναι πολύ μεγαλύτερος από τους άλλους δύο. Αυτό οφείλεται στο γεγονός ότι το \texten{RDD API} είναι πιο χαμηλού επιπέδου και απαιτεί περισσότερη "χειρωνακτική" επεξεργασία από τον προγραμματιστή. Αντίθετα, το \texten{DataFrame API} και το \texten{SQL API} προσφέρουν υψηλότερου επιπέδου εργαλεία και εκτελούν μια σειρά από βελτιστοποιήσεις στον κώδικα προτού εκτελεστούν, δίνοντας έτσι την βέλτιστη δομή σε αυτόν. Ακόμα, από την στιγμή που θέλουμε να παραλληλοποιήσομε την εκτέλεση του ερωτήματος(\texten{4 Spark Executors}), η καταλληλότερη δομή είναι το \texten{DataFrame API} αφού είναι πολύ αποδοτικό στην διαχείριση πόρων.Οι χρόνοι εκτέλεσης και τα αποτελέσματα φαίνονται παρακάτω: \break \break
+\texten{\texttt{\readfirstline{outputs/Query2DF.txt}}} \break
+\texten{\texttt{\readfirstline{outputs/Query2SQL.txt}}}
+\texten{\verbatiminput{outputs/Query2RDD.txt}}
 
+\section*{Ζητούμενο 5}
+Το \texten{Query 3} υλοποιήθηκε χρησιμοποιώντας τα \texten{DataFrame} και \texten{SQL API} με 2,3 και \texten{Spark Executors}. Οι χρόνοι εκτέλεσης και τα αποτελέσματα φαίνονται παρακάτω: \break \break
+\texten{\texttt{\readlines{outputs/Query3DF.txt}{6}}} \break
 
 
 \end{document}
diff --git a/outputs/Query1DF.txt b/outputs/Query1DF.txt
@@ -0,0 +1,51 @@
+Query 1 Dataframe Execution Time: 0.0834348201751709
+
+===== Query 1 Dataframe Result =====
++----+-----+-----+----+
+|Year|Month|count|Rank|
++----+-----+-----+----+
+|2010|1    |19517|1   |
+|2010|3    |18131|2   |
+|2010|7    |17856|3   |
+|2011|1    |18138|1   |
+|2011|7    |17283|2   |
+|2011|10   |17034|3   |
+|2012|1    |17946|1   |
+|2012|8    |17661|2   |
+|2012|5    |17502|3   |
+|2013|8    |17441|1   |
+|2013|1    |16822|2   |
+|2013|7    |16644|3   |
+|2014|10   |17329|1   |
+|2014|7    |17258|2   |
+|2014|12   |17198|3   |
+|2015|10   |19220|1   |
+|2015|8    |19011|2   |
+|2015|7    |18709|3   |
+|2016|10   |19659|1   |
+|2016|8    |19491|2   |
+|2016|7    |19448|3   |
+|2017|10   |20433|1   |
+|2017|7    |20193|2   |
+|2017|1    |19835|3   |
+|2018|5    |19974|1   |
+|2018|7    |19876|2   |
+|2018|8    |19762|3   |
+|2019|7    |19123|1   |
+|2019|8    |18980|2   |
+|2019|3    |18859|3   |
+|2020|1    |18510|1   |
+|2020|2    |17257|2   |
+|2020|5    |17211|3   |
+|2021|10   |19311|1   |
+|2021|7    |18663|2   |
+|2021|8    |18379|3   |
+|2022|5    |20428|1   |
+|2022|10   |20285|2   |
+|2022|6    |20221|3   |
+|2023|8    |19842|1   |
+|2023|1    |19789|2   |
+|2023|7    |19777|3   |
+|2024|1    |6709 |1   |
++----+-----+-----+----+
+
diff --git a/outputs/Query1SQL.txt b/outputs/Query1SQL.txt
@@ -1,51 +1,51 @@
-Query 1 SQL Execution Time: 0.12349104881286621
+Query 1 SQL Execution Time: 0.11646175384521484
 
 ===== Query 1 SQL Result =====
-+----+-----+----------+
-|Year|Month|CrimeCount|
-+----+-----+----------+
-|2010|1    |19517     |
-|2010|3    |18131     |
-|2010|7    |17856     |
-|2011|1    |18138     |
-|2011|7    |17283     |
-|2011|10   |17034     |
-|2012|1    |17946     |
-|2012|8    |17661     |
-|2012|5    |17502     |
-|2013|8    |17441     |
-|2013|1    |16822     |
-|2013|7    |16644     |
-|2014|10   |17329     |
-|2014|7    |17258     |
-|2014|12   |17198     |
-|2015|10   |19220     |
-|2015|8    |19011     |
-|2015|7    |18709     |
-|2016|10   |19659     |
-|2016|8    |19491     |
-|2016|7    |19448     |
-|2017|10   |20433     |
-|2017|7    |20193     |
-|2017|1    |19835     |
-|2018|5    |19974     |
-|2018|7    |19876     |
-|2018|8    |19762     |
-|2019|7    |19123     |
-|2019|8    |18980     |
-|2019|3    |18859     |
-|2020|1    |18510     |
-|2020|2    |17257     |
-|2020|5    |17211     |
-|2021|10   |19311     |
-|2021|7    |18663     |
-|2021|8    |18379     |
-|2022|5    |20428     |
-|2022|10   |20285     |
-|2022|6    |20221     |
-|2023|8    |19842     |
-|2023|1    |19789     |
-|2023|7    |19777     |
-|2024|1    |6709      |
-+----+-----+----------+
++----+-----+----------+----+
+|Year|Month|CrimeCount|Rank|
++----+-----+----------+----+
+|2010|1    |19517     |1   |
+|2010|3    |18131     |2   |
+|2010|7    |17856     |3   |
+|2011|1    |18138     |1   |
+|2011|7    |17283     |2   |
+|2011|10   |17034     |3   |
+|2012|1    |17946     |1   |
+|2012|8    |17661     |2   |
+|2012|5    |17502     |3   |
+|2013|8    |17441     |1   |
+|2013|1    |16822     |2   |
+|2013|7    |16644     |3   |
+|2014|10   |17329     |1   |
+|2014|7    |17258     |2   |
+|2014|12   |17198     |3   |
+|2015|10   |19220     |1   |
+|2015|8    |19011     |2   |
+|2015|7    |18709     |3   |
+|2016|10   |19659     |1   |
+|2016|8    |19491     |2   |
+|2016|7    |19448     |3   |
+|2017|10   |20433     |1   |
+|2017|7    |20193     |2   |
+|2017|1    |19835     |3   |
+|2018|5    |19974     |1   |
+|2018|7    |19876     |2   |
+|2018|8    |19762     |3   |
+|2019|7    |19123     |1   |
+|2019|8    |18980     |2   |
+|2019|3    |18859     |3   |
+|2020|1    |18510     |1   |
+|2020|2    |17257     |2   |
+|2020|5    |17211     |3   |
+|2021|10   |19311     |1   |
+|2021|7    |18663     |2   |
+|2021|8    |18379     |3   |
+|2022|5    |20428     |1   |
+|2022|10   |20285     |2   |
+|2022|6    |20221     |3   |
+|2023|8    |19842     |1   |
+|2023|1    |19789     |2   |
+|2023|7    |19777     |3   |
+|2024|1    |6709      |1   |
++----+-----+----------+----+
 
diff --git a/q1_sql.py b/q1_sql.py
@@ -30,7 +30,7 @@
 
 # Filter the top 3 months for each year
 ResultSQL = """
-SELECT Year, Month, CrimeCount
+SELECT Year, Month, CrimeCount, Rank
 FROM ({}) Top3Months
 WHERE Rank <= 3
 ORDER BY Year, Rank