-
-
Notifications
You must be signed in to change notification settings - Fork 417
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
cria spider RjItatiaia #1365
base: main
Are you sure you want to change the base?
cria spider RjItatiaia #1365
Conversation
Código revisado. Não tenho sugestões de melhorias. |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Valeu @JP0ttoni
Bom PR!
Só quero esclarecer duas questãozinhas
Uma é o comentário sobre o poder, a outra é o erro que aparece na linha 7088 do log completo.
Parece que houve uma falha ao pegar o DO do dia 19/12/2022.
Não consegui identificar o motivo desta falha porque não vi nada de errado no código ou na página para gerar este erro.
O erro causou o DO desta data a não ser pego.
Tem alguma ideia do que aconteceu?
- O Layout é novo mesmo
- atributos
- name
- TERRITORY_ID
- allowed_domains
- start_urls/start_requests()
- start_date
- não precisa de end_date
- [] código ok?
- [] Gazette criado corretamente?
- date
- edition_number
- is_extra_edition
- [] power
- [] Gazette criado corretamente?
- roda?
- uma data
- um intervalo
- todos
- evidências
- ultima
- intervalo
- completo
edition_number=edition_match, | ||
is_extra_edition=extra, | ||
file_urls=[url_match], | ||
power="executive_legislative", |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Não consegui identificar evidências mostrando que estes DOs são do poder legislativo também.
A amostra de DOs que olhei indicam lista funcionários do poder executivo apenas.
Como chegou à esta conclusão?
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
o link de 19/12/2022 está quebrado no site da prefeitura, conforme indicado na descrição do PR, quando procura pela data e clica para visualizar o boletim oficial, retorna para a mesma página.
em relação a ser legislativo, verifiquei que nos diários oficiais tem atos da câmara, como por exemplo no diário oficial do dia 14/12/2022, na página 3.
https://itatiaia.rj.gov.br/wp-content/uploads/2022/12/BO_202_2022-ASSINADO.pdf
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Blz. Está correto nas duas colocações.
AO ABRIR uma Pull Request de um novo raspador (spider), marque com um
X
cada um dos items da checklist abaixo. Caso algum item não seja marcado, JUSTIFIQUE o motivo.Layout do site publicador de diários oficiais
Marque apenas um dos itens a seguir:
Código da(s) spider(s)
custom_settings
em meu raspador.Testes
.log
deste teste está anexado na PR..log
e.csv
deste teste estão anexados na PR..log
e.csv
deste teste estão anexados na PR.completa.csv
completa.log
intervalo.csv
intervalo.log
ultima.log
ultima.csv
Verificações
.csv
gerados pela minha coleta conforme a documentação não encontrando problemas..log
gerados pela minha coleta conforme a documentação não encontrando problemas.Descrição
cria spider RjItatiaia, resolve #1198
há um erro no coleta completa, pois a edição da data 2022-12-19 está com o link quebrado (https://itatiaia.rj.gov.br/boletim-oficial/?jsf=jet-engine&date=-2022.12.19) no site da prefeitura