Проект включает в себя 4 парсинга. Каждый запускается отдельным режимом работы с помощью позиционированного аргумента mode.
Перейдя на страницу What’s New in Python, парсер собирает для каждой версии Python информацию о заголовке, авторе или редакторе, а также ссылки на каждую статью.
На главной странице Документации из боковой панели парсер для каждой версии Python берет ссылку на документацию, номер версии и статус путем применения регулярного выражения.
Со страницы скачивания документации парсер в директорию downloads скачивает архив с форматом PDF (A4 paper size).
На странице всех документов PEP из таблицы парсер берет статус и ссылку на страницу каждого документа. Сравнивает статусы, предоставленные в таблице и в карточке на отдельной странице документа. Подсчитывает количество документов в каждом статусе и общее количество PEP.
При добавлении -c, --clear-cache как аргумент к вызову одного из парсеров, произойдет очистка кеша.
При добавлении -o {pretty|file}, --output {pretty|file} будет изменен вывод данных с простого построчного вывода результата парсинга в консоль на дополнительный способ вывода данных (таблицей pretty в консоль|построчно в csv-файл)
tg: @Berg1005
Проек реализован на языке python c использованием следующих библиотек:
- beautifulsoup4 (v 4.9.3)
- requests-cache (v 1.0.0)
- tqdm (v 4.61.0)
- и др.
Клонировать репозиторий:
git clone git@github.com:berg96/bs4_parser_pep.git
Перейти в папку с проектом:
cd bs4_parser_pep
Перейти в папку src:
cd src
Запустить парсер с обязательным аргументом mode (whats-new|latest-versions|download|pep)
python main.py {mode}
Необязательные аргументы:
-c, --clear-cache Очистка кеша
-o {pretty,file}, --output {pretty,file} Дополнительные способы вывода данных (таблицей pretty в консоль|построчно в csv-файл)