🔗 DAG Airflow pour crawler les URLs #1301

maxcorbeau · 2025-01-30T13:29:24Z

🔗 DAG Airflow pour crawler les URLs

Carte Notion : Vérification & corrections des URLs: DAG Airflow

🗺️ contexte: 12K URLs uniques pour le champ acteur.url, bcp d'erreurs constatées, trop de travail de vérifier à la main

💡 quoi: un DAG airflow

🎯 pourquoi: automatiser les vérfications & suggestions d'URL

🤔 comment:

crawl_urls_read_urls_from_db_task = récupère URLs de la DB, en groupant par URL et concaténant les acteurs
crawl_urls_check_syntax_task = éssaye de détecter/résoudre les problèmes de syntax (ex: nourl -> erreur, monsite.com -> essayer https://monsite.com)
crawl_urls_check_dns_task = éssaye de résoudre le nom de domaine des URLs
crawl_urls_check_crawl_task = éssaye de crawler les URLs. 🔴 Bcp faux positifs ici, on garde que les cohortes fiables, voir plus d'infos ici
crawl_urls_suggest_syntax_fail_task = cohorte de suggestions 🔴 Syntaxe invalide -> mise à vide
crawl_urls_suggest_dns_fail_task = cohorte de suggestions 🔴 Domaine inaccessible -> mise à vide
crawl_urls_suggest_crawl_diff_https_task = cohorte de suggestions 🟡 URL différente HTTPs dispo -> HTTPs proposée
crawl_urls_suggest_crawl_diff_other_task = cohorte de suggestions 🟡 URL différente (et pas juste HTTPs) -> nouvelle proposée

🆕 Nouveautés techniques

🧱 constantes via dataclasses

Voir dags/crawl/config/*: pour avoir autocompletion IDE, 1 seul import par type de constantes (au lieu de 1 par constante)

💬 XCOM helper

Voir dags/crawl/config/xcoms.py avec un utilitaire pour faire des pulls plus fiables avec du debug automatique

🖼️ Exemple

crawl_urls_read_from_db_task

crawl_urls_check_syntax_task

On voit des URLs qu'on arrive à nettoyer (ex: thttps://www.ressourceriemalakoff.org/ -> la même sans le t au début) et d'autres totallement irrécupérables (ex: NA, https://-/)

Django: cohorte

⚠️ Django: suggestions

Dev

⚠️ Preprod

Là pour une raison que j'ignore, ayant bien fait le déploiement en prepod, Django n'arrive pas à récupérer le template de suggestions

📆 A faire dans une prochaine PR

Ping avant le crawling: on pourrait essayer de pinger les domaines pour s'arrurer qu'ils répondent, ceci devrait être bcp moins coûteux que le crawling pour identifier les sites qui ne répondent même plus (ex: serveur down, peut être que le problème est uniquement temporaire, ceci pourrait servir à notifier Christian sans faire de suggestions de changement)
Amélioration du crawling avant de réintroduire crawl_urls_check_urls_task, voir discussion

fabienheureux · 2025-02-20T16:22:21Z

J'ai parcouru rapidement la PR mais il est tard et mon cerveau embrumé.
Question cependant : est-ce qu'on conserve les URLs pour de futurs crawl ?

J'imagine une situation où un site down au moment du crawl occasionnera un écrasement de la valeur, ce qui serait dommage.
Peut-on imaginer par exemple :

conserver l'url originale
stocker le nombre d'échecs
après n run du dag occasionnant autant d'échecs, on la remplace par une valeur vide ?

En fait la question c'est : est-ce qu'on reprend la valeur de la dernière révision ou l'url originale lors des crawls successifs ?

maxcorbeau · 2025-02-24T06:18:53Z

Question cependant : est-ce qu'on conserve les URLs pour de futurs crawl ?

Oui à terme on devrait. Beaucoup de limitations actuellement:

Pas de navigateur digne de se nom (requests au lieu de playwright, puppeteer ou autre)
Pas de proxy pour éviter de se faire banner quand on crawl plusieurs pages d'un même site (ex: Leroy Merlin)
Pas de résolution des chaines de certificats SSL
Pas d'historique de crawl pour gérer les false positives

Gérer une infrastructure de crawling peut devenir très complexe, et donc il faudra qu'on se pose la question de savoir si on veut créer ou louer (il y a bcp de SaaS qui offrent ce genre de services).

On a commencé à tester avec @chrischarousset et on pense que pour la v1 on va même pas faire de crawling et plutôt s'orienter vers la résolution DNS pour identifier les sites qui sont à priori complètement mort.

maxcorbeau force-pushed the airflow_dag_crawl_urls branch 2 times, most recently from fda8ad2 to a1ab720 Compare February 20, 2025 15:58

maxcorbeau marked this pull request as ready for review February 20, 2025 15:59

maxcorbeau requested a review from a team as a code owner February 20, 2025 15:59

maxcorbeau requested review from kolok and fabienheureux and removed request for a team February 20, 2025 15:59

maxcorbeau added the enhancement New feature or request label Feb 26, 2025

maxcorbeau mentioned this pull request Feb 27, 2025

✅ Airflow tests e2e: utilitaires & preuve de concept #1396

Open

maxcorbeau added 9 commits March 5, 2025 11:52

dag airflow pour crawl urls: initial commit

04d9ea5

crawl urls fonctionnel en local

531146c

crawl urls: suppression limite nombre urls

d21ca33

crawl urls: refactos & cleanups, focus syntaxe & dns

7b9be30

crawl urls: - constante morte et meilleurs explications

f0b1e65

Renomme write_to_db -> to_db (suffisant)

5987856

Renomme write_to_db -> to_db (tests)

03af808

refacto des constants & split en 4 cohortes séparées

4197a38

nettoyage template car redondant avec cohortes

17e01fc

maxcorbeau force-pushed the airflow_dag_crawl_urls branch from a0f8c07 to 17e01fc Compare March 5, 2025 11:10

maxcorbeau mentioned this pull request Mar 5, 2025

📦 CLUSTERING: fix intra source + rendre fuzzy optionnel #1405

Merged

maxcorbeau added 4 commits March 5, 2025 16:45

refacto tâches parallèles, fix+test sur split cohorts

edc80c1

test plus robuste cohortes tailles différentes

d7da7c0

bug fix syntax: continuer car ok et fail tous les 2 pertinents

e9ace01

tests pour acteur_update_data

9cadf67

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

🔗 DAG Airflow pour crawler les URLs #1301

🔗 DAG Airflow pour crawler les URLs #1301

maxcorbeau commented Jan 30, 2025 •

edited

Loading

fabienheureux commented Feb 20, 2025 •

edited

Loading

maxcorbeau commented Feb 24, 2025

🔗 DAG Airflow pour crawler les URLs #1301

Are you sure you want to change the base?

🔗 DAG Airflow pour crawler les URLs #1301

Conversation

maxcorbeau commented Jan 30, 2025 • edited Loading

🔗 DAG Airflow pour crawler les URLs

🆕 Nouveautés techniques

🧱 constantes via dataclasses

💬 XCOM helper

🖼️ Exemple

crawl_urls_read_from_db_task

crawl_urls_check_syntax_task

Django: cohorte

⚠️ Django: suggestions

Dev

⚠️ Preprod

📆 A faire dans une prochaine PR

fabienheureux commented Feb 20, 2025 • edited Loading

maxcorbeau commented Feb 24, 2025

maxcorbeau commented Jan 30, 2025 •

edited

Loading

fabienheureux commented Feb 20, 2025 •

edited

Loading