Data Engineering Stack Demo

This repo contains a modular and extensible demo stack for Data Engineering workflows, using open-source tools.

Source datasets

Drink distribution company Case study from PwC. Download here
Taxi industry TLC Trip Record Data from NYC. Download here

Stack components

1. PySpark + Jupyter = ETL

To automatically download, unzip, normalize tables and save them into a postgreSQL database. Requires Docker

docker-compose build
docker-compose up -d
docker-compose logs pyspark-notebook --follow

Run jupyter notebooks files from notebooks/ via VSCode or by using http://localhost:8888/ + token
Use Ctrl+C to Stop or docker-compose down

2. Metabase = Data Visualization

docker-compose up -d
docker-compose logs metabase --follow

Access Metabase dashboard from http://localhost:3000/
Use Ctrl+C to Stop or docker-compose down

3. Airflow (Astro CLI) = Workflow Orchestration

Requires Astronomer

cd airflow
astro dev start
docker exec -it da-spark-master chmod 777 storage

Access via http://localhost:8080/

TODO List

Drink distribution company: ERD

Name		Name	Last commit message	Last commit date
Latest commit History 48 Commits
.jupyter		.jupyter
.vscode		.vscode
airflow		airflow
dags		dags
docs		docs
include		include
storage		storage
.gitignore		.gitignore
CHANGELOG.md		CHANGELOG.md
Dockerfile.pyspark		Dockerfile.pyspark
README.md		README.md
docker-compose.yml		docker-compose.yml
renovate.json		renovate.json

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Data Engineering Stack Demo

Source datasets

Stack components

1. PySpark + Jupyter = ETL

2. Metabase = Data Visualization

3. Airflow (Astro CLI) = Workflow Orchestration

TODO List

Drink distribution company: ERD

Stack Screenshots

About

Uh oh!

Languages

fideldalmasso/data_engineering_stack_demo

Folders and files

Latest commit

History

Repository files navigation

Data Engineering Stack Demo

Source datasets

Stack components

1. PySpark + Jupyter = ETL

2. Metabase = Data Visualization

3. Airflow (Astro CLI) = Workflow Orchestration

TODO List

Drink distribution company: ERD

Stack Screenshots

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Languages