Skip to content

berg96/bs4_parser_pep

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

18 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Проект парсинга документации и pep

Описание проекта

Проект включает в себя 4 парсинга. Каждый запускается отдельным режимом работы с помощью позиционированного аргумента mode.

Whats-new

Перейдя на страницу What’s New in Python, парсер собирает для каждой версии Python информацию о заголовке, авторе или редакторе, а также ссылки на каждую статью.

Latest-versions

На главной странице Документации из боковой панели парсер для каждой версии Python берет ссылку на документацию, номер версии и статус путем применения регулярного выражения.

Download

Со страницы скачивания документации парсер в директорию downloads скачивает архив с форматом PDF (A4 paper size).

Pep

На странице всех документов PEP из таблицы парсер берет статус и ссылку на страницу каждого документа. Сравнивает статусы, предоставленные в таблице и в карточке на отдельной странице документа. Подсчитывает количество документов в каждом статусе и общее количество PEP.

Опциональные аргументы:

При добавлении -c, --clear-cache как аргумент к вызову одного из парсеров, произойдет очистка кеша.

При добавлении -o {pretty|file}, --output {pretty|file} будет изменен вывод данных с простого построчного вывода результата парсинга в консоль на дополнительный способ вывода данных (таблицей pretty в консоль|построчно в csv-файл)

Автор Артём Куликов

tg: @Berg1005

GitHub

Используемые технологии

Проек реализован на языке python c использованием следующих библиотек:

  • beautifulsoup4 (v 4.9.3)
  • requests-cache (v 1.0.0)
  • tqdm (v 4.61.0)
  • и др.

Как запустить проект

Клонировать репозиторий:

git clone git@github.com:berg96/bs4_parser_pep.git

Перейти в папку с проектом:

cd bs4_parser_pep

Перейти в папку src:

cd src

Запустить парсер с обязательным аргументом mode (whats-new|latest-versions|download|pep)

python main.py {mode}

Необязательные аргументы:

-c, --clear-cache                          Очистка кеша
-o {pretty,file}, --output {pretty,file}   Дополнительные способы вывода данных (таблицей pretty в консоль|построчно в csv-файл)

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages