Проект парсинга документации и pep

Описание проекта

Проект включает в себя 4 парсинга. Каждый запускается отдельным режимом работы с помощью позиционированного аргумента mode.

Whats-new

Перейдя на страницу What’s New in Python, парсер собирает для каждой версии Python информацию о заголовке, авторе или редакторе, а также ссылки на каждую статью.

Latest-versions

На главной странице Документации из боковой панели парсер для каждой версии Python берет ссылку на документацию, номер версии и статус путем применения регулярного выражения.

Download

Со страницы скачивания документации парсер в директорию downloads скачивает архив с форматом PDF (A4 paper size).

Pep

На странице всех документов PEP из таблицы парсер берет статус и ссылку на страницу каждого документа. Сравнивает статусы, предоставленные в таблице и в карточке на отдельной странице документа. Подсчитывает количество документов в каждом статусе и общее количество PEP.

Опциональные аргументы:

При добавлении -c, --clear-cache как аргумент к вызову одного из парсеров, произойдет очистка кеша.

При добавлении -o {pretty|file}, --output {pretty|file} будет изменен вывод данных с простого построчного вывода результата парсинга в консоль на дополнительный способ вывода данных (таблицей pretty в консоль|построчно в csv-файл)

Автор Артём Куликов

tg: @Berg1005

GitHub

Используемые технологии

Проек реализован на языке python c использованием следующих библиотек:

beautifulsoup4 (v 4.9.3)
requests-cache (v 1.0.0)
tqdm (v 4.61.0)
и др.

Как запустить проект

Клонировать репозиторий:

git clone git@github.com:berg96/bs4_parser_pep.git

Перейти в папку с проектом:

cd bs4_parser_pep

Перейти в папку src:

cd src

Запустить парсер с обязательным аргументом mode (whats-new|latest-versions|download|pep)

python main.py {mode}

Необязательные аргументы:

-c, --clear-cache                          Очистка кеша
-o {pretty,file}, --output {pretty,file}   Дополнительные способы вывода данных (таблицей pretty в консоль|построчно в csv-файл)

Name		Name	Last commit message	Last commit date
Latest commit History 18 Commits
src		src
tests		tests
.flake8		.flake8
.gitignore		.gitignore
README.md		README.md
pytest.ini		pytest.ini
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Проект парсинга документации и pep

Описание проекта

Whats-new

Latest-versions

Download

Pep

Опциональные аргументы:

Автор Артём Куликов

Используемые технологии

Как запустить проект

About

Uh oh!

Releases

Packages

Uh oh!

Languages

berg96/bs4_parser_pep

Folders and files

Latest commit

History

Repository files navigation

Проект парсинга документации и pep

Описание проекта

Whats-new

Latest-versions

Download

Pep

Опциональные аргументы:

Автор Артём Куликов

Используемые технологии

Как запустить проект

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Languages

Packages