-
-
Notifications
You must be signed in to change notification settings - Fork 417
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
cria spider Barra Do Pirai #1362
base: main
Are you sure you want to change the base?
Conversation
Código revisado. Sem sugestões de melhorias. |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Boa @JP0ttoni! Identifiquei uma pequena correção que pode ser feita na captura da edição.
De resto, tudo ótimo!
- O Layout é novo mesmo
- atributos
- name
- TERRITORY_ID
- allowed_domains
- start_urls/start_requests()
- start_date
- a página aparenta ter um link para itens de 2008 mas não é um link real :shrug
- não precisa de end_date
- código ok?
- Gazette criado corretamente?
- date
- edition_number
- is_extra_edition
- power
- Notei que os PDFs indicam explicitamente o poder como executivo somente, até 21/10/2021.
- Depois, executivo e legislativo.
- O quão importante é este atributo? Devemos colocar uma condição para setá-lo corretamente?
- Gazette criado corretamente?
- roda?
- uma data
- um intervalo
- todos
- evidências
- ultima
- intervalo
- completo
if date_tmp < self.start_date: | ||
return | ||
|
||
match = re.search(r"\b(\d+)\b", raw_edition) |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Gostei do word boundary 🆒 mas ele quebra em algumas datas de 2009 quando a edição tem uma letra junta: 123a
. Resultando no número de edição errado.
Consegue ajustar para evitar isso?
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
mas eu devo deixar o edition_number 123 ou 123a? não ficou muito claro para mim.
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Eu deixaria 123 porque é o que está no PDF. Isso significa que teríamos múltiplos documentos com número de edição igual mas isso não é permitido um problema.
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Oops. Eu disse que múltiplas edições iguais seriam um problema, mas não são. Corrigido
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
ja atualizei o log e o csv da raspagem completa e atualizei o código com as modificações exigidas.
aplicando alterações okfn-brasil#1362
aplicando alterações okfn-brasil#1362
bec23d1
to
c63e561
Compare
AO ABRIR uma Pull Request de um novo raspador (spider), marque com um
X
cada um dos items da checklist abaixo. Caso algum item não seja marcado, JUSTIFIQUE o motivo.Layout do site publicador de diários oficiais
Marque apenas um dos itens a seguir:
Código da(s) spider(s)
custom_settings
em meu raspador.Testes
.log
deste teste está anexado na PR..log
e.csv
deste teste estão anexados na PR..log
e.csv
deste teste estão anexados na PR.ultima.log
ultima.csv
intervalo.log
intervalo.csv
completa.csv
completa.log
Verificações
.csv
gerados pela minha coleta conforme a documentação não encontrando problemas..log
gerados pela minha coleta conforme a documentação não encontrando problemas.Descrição
Resolve #1192 criando spider pra Barra Do pirai