resumosanpuh
é uma interface de linha de comando (CLI) escrita em Python com objetivo de raspar e organizar os Resumos dos Simpósios Anuais da História da Associação Nacional de História - Anpuh.
O programa raspa todos os resumos dos SNH 27, 28, 29, 30, 31 e 32, respectivamente dos anos de 2013, 2015, 2017, 2019, 2021 e 2023 e organiza em um arquivo CSV.
Foi construído a partir do script Anpuh Scraper, DOI 10.5281/zenodo.5168720, dsiponível aqui.
Desenvolvido no âmbito do Laboratório de Humanidades Digitais da UFBA e parte do Repositório Digital das Humanidades (PT-BR) - REDHBR.
A ferramenta foi desenvolvida apenas para pesquisas acadêmicas, sem fins lucrativos.
O resumosanpuh
foi pensado como uma ferramenta metodológica da pesquisa em humanidades digitais. Sua criação é fruto das reflexões e experiências empíricas de historiadores e sociológos que têm enfrentado o desafio de fazer ciências humanas no mundo digital.
Defendemos a importância da apropriação, uso, desenvolvimento e aprimoramento de ferramentas digitais para as humanidades, assim como a urgência na sofisticação teórica, metodológica e epistemológica sobre as chamadas Humanidades Digitais.
É crescente o número de repositórios de fontes e dados on-line, assim como o acesso, busca, pesquisa e, muitas vezes, dependência de pesquisadores/as a eles.
Os Simpósios Nacionais da Anpuh, que acontecem bienalmente, têm reunido importantes reflexões sobre as mais variadas perspectivas historiográficas.
Por conseguinte, os anais de cada evento constituem um importante repositório para pesquisas nos mais variados campos de estudo.
Para executar o anpuh-scraper, vc precisa clonar ou fazer download do repositório e salvar na pasta em que deseja que os resultados e seus respectivos arquivos sejam armazenados.
A ferramenta consiste em uma interface de linha de comando (CLI) escrita em Python 3.
Para informações de como instalar o Python em seu sistema operacional, veja a lição Introdução e instalação do Python no Programming Historian.
Abra o terminal e mude seu caminho até a pasta resumos-anpuh-cli
e execute o comando:
sudo pip3 install -e .
OBS: Se você não possui o pip instalado basta executar no terminal sudo apt install python3-pip
em sistemas operacionais baseados no Ubuntu. Para instruções de instalação no Windows ver essa lição do Programming Historian.
As bibliotecas e módulos, assim como o pacote, serão instalados automaticamente.
- urllib.requests: módulo do Python que ajuda a acessar urls. Saiba mais.
- bs4: Beautiful Soup é uma biblioteca Python para extrair dados de arquivos HTML e XML.
- pandas: Pandas é uma biblioteca escrita em Python para manipulação e análise de dados.
Após a instalação, para executar a ferramenta basta abrir o terminal e digitar resumosanpuh
seguido de -y
ou --years
e passar os anos que deseja raspar como parâmetro 2013 2015 2017 2019 2021
.
Opcionalmente é possível definir o nome do arquivo csv final acrescentando -o
ou --output
seguido de <nome_do_arquivo>.csv
. Caso essa opção não seja definida o título do arquivo será <AAAA-MM-DD_HH-MM-SS>.csv
resumosanpuh -y 2013 2019 -o resumos_2013-2019.csv
Também é possível utilizar a opção -h
ou --help
para ver a ajuda completa.
resumosanpuh -h
usage: resumosanpuh [-h] -y [...] [-o] [-v] [-q]
Raspador dos resumos dos Simpósios Nacionais de História da Associação
Nacional de História - Anpuh. O programa raspa todos os resumos dos SNH 27,
28, 29, 30, 31 e 32, respectivamente dos anos de 2013, 2015, 2017, 2019, 2021
e 2023. Desenvolvido no âmbito do Laboratório de Humanidades Digitais da UFBA
e parte do Repositório Digital das Humanidades (PT-BR) - REDHBR.
options:
-h, --help show this help message and exit
-y [ ...], --years [ ...]
Lista de anos a serem raspados. Exemplo: 2013 2015
2017 2019 2021 2023. Essa opção é obrigatória.
-o , --output Nome do arquivo de saída no formato .csv. Se essa
opção não for definida, o título do arquivo será
`<AAAA-MM-DD_HH-MM-SS>.csv
-v, --verbose Ativar saída detalhada
-q, --quiet Ativar saída silenciosa
A ferramente retorna para o usuário um CSV (comma-separated values) com os dados de todos os trabalhos aceitos nos Simpósio Temáticos dos SNH 27, 28, 29, 30, 31 e 32.
O CSV contém as seguintes variáveis para cada resumo:
Ano, Evento, Cidade, ST, Coordenadores, Autor(es)/Instituições, Título, Resumo
Esse arquivo pode ser aberto como uma planilha e trabalhado em banco de dados.
Contando o número de linhas e de linhas por ano, com pandas, temos o seguinte resultado:
A ferramenta está funcionando perfeitamente. Qualquer alteração no site ou nos resultados percebida pelos usuários ou sugestões de aprimoramento são bem vindas.
Autor: Eric Brasil (IHLM-UNILAB e LABHD-UFBA)