Este projeto é um crawler automatizado que extrai todos os links visíveis da página https://www.gov.br/ds/home, renderizada via JavaScript, utilizando o Playwright. O objetivo é facilitar auditorias de conteúdo e verificação de integridade dos links relacionados ao Design System do governo brasileiro.
- ✅ Renderização de páginas com JavaScript usando o Playwright
- ✅ Extração de todos os links
<a href="">presentes no DOM final - ✅ Conversão de URLs relativas em absolutas
- ✅ Exportação para arquivo
links_extraidos.json - ✅ Automatização com Makefile ou script
setup.sh
- Python 3.9+
- pip
- Playwright
make install
make runchmod +x setup.sh
./setup.sh.
├── robots-crawler-links.py # Script principal do crawler
├── links_extraidos.json # Arquivo gerado com os links extraídos
├── requirements.txt # Dependências Python
├── .gitignore # Arquivos ignorados no versionamento
├── Makefile # Automação de tarefas
├── setup.sh # Script de instalação alternativa
└── README.md # Este arquivo
Ao final da execução, será gerado um arquivo:
links_extraidos.jsonCom todos os links encontrados em formato JSON.
Natanael Leite
Analista de Sistemas Sênior | Desenvolvedor de Software
🚀 Projeto técnico para inspeção automatizada do site oficial do GOV.BR Design System
Este projeto é livre para uso, sem fins lucrativos, e pode ser adaptado conforme as diretrizes da administração pública e normas técnicas de acessibilidade e transparência.