End-to-End ETL Using Python

Overview

This repository demonstrates a complete ETL (Extract, Transform, Load) pipeline using Python. It covers the workflow from raw data extraction to building a data mart, performing data quality checks, and generating insights with visualizations.

Project Structure

DB_Connection/       # Database connection scripts
DataLake/            # Raw data storage
Information_Mart/    # Final processed data
Visualizations/      # Generated charts
extracted/           # Extracted datasets
staging_1/           # First staging layer
staging_2/           # Second staging layer
schema_model.db      # Database schema
data_mart.db         # Final data mart
Schema_Diagram.png   # ER diagram of the database
requirements.txt     # Python dependencies
Extraction.py        # Data extraction script
Transformation.py    # Data cleaning and transformation script
Modeling.py          # Aggregation / modeling script
Quality_check.py     # Data quality validation
Visualization.py     # Generate charts & visualizations
main.py              # Main pipeline execution

Steps Taken

1. Extract

Raw data collected from different sources and stored in DataLake/ and extracted/.
Extraction.py automates the extraction process.

2. Transform

Transformation.py performs data cleaning and preparation:
- Remove duplicates and invalid records
- Handle missing values
- Convert datatypes
- Create staging tables in staging_1/ & staging_2/

3. Load

Modeling.py loads transformed data into the data mart (Information_Mart/).
Database schema stored in schema_model.db and visualized in Schema_Diagram.png.

4. Data Quality Checks

Quality_check.py validates:
- No missing or inconsistent data
- Correct data types and formats

5. Visualization & Insights

Visualization.py generates charts saved in Visualizations/.

Sample Charts:

Database Schema:

Challenges Encountered

Handling inconsistent/missing data across multiple sources.
Designing multiple staging layers for better transformations.
Ensuring ETL scripts are modular and reusable.
Optimizing queries and transformations for performance.

How to Run

Option 1: Run Full Pipeline (Recommended)

Clone the repository:

git clone https://github.com/keroloshany47/End_To_End_ETL_Using_Python.git

Install dependencies:

pip install -r requirements.txt

Configure database connection in DB_Connection/ if needed (SQLite databases are included).
Run the full pipeline:

python main.py

Check Visualizations/ for generated charts.

Option 2: Run Each Step Individually

Run the scripts in the following order:

Extraction

python Extraction.py

Transformation

python Transformation.py

Modeling / Load to Data Mart

python Modeling.py

Data Quality Check

python Quality_check.py

Visualization

python Visualization.py

After each step, outputs and processed data will be saved in their respective folders (staging_1/, staging_2/, Information_Mart/, Visualizations/).

Conclusion

This project demonstrates a complete ETL workflow with Python, from raw data extraction to building a data mart and generating meaningful insights. The pipeline is modular, reusable, and scalable for new datasets.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

End-to-End ETL Using Python

Overview

Project Structure

Steps Taken

1. Extract

2. Transform

3. Load

4. Data Quality Checks

5. Visualization & Insights

Challenges Encountered

How to Run

Option 1: Run Full Pipeline (Recommended)

Option 2: Run Each Step Individually

Conclusion

About

Uh oh!

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 12 Commits
DB_Connection		DB_Connection
DataLake		DataLake
Information_Mart		Information_Mart
Visualizations		Visualizations
extracted		extracted
quality_reports		quality_reports
staging_1		staging_1
staging_2		staging_2
Extraction.py		Extraction.py
Modeling.py		Modeling.py
Quality_check.py		Quality_check.py
README.md		README.md
Schema_Diagram.png		Schema_Diagram.png
Transformation.py		Transformation.py
Visualization.py		Visualization.py
data_mart.db		data_mart.db
main.py		main.py
requirements.txt		requirements.txt
schema_model.db		schema_model.db

keroloshany47/End_To_End_ETL_Using_Python

Folders and files

Latest commit

History

Repository files navigation

End-to-End ETL Using Python

Overview

Project Structure

Steps Taken

1. Extract

2. Transform

3. Load

4. Data Quality Checks

5. Visualization & Insights

Challenges Encountered

How to Run

Option 1: Run Full Pipeline (Recommended)

Option 2: Run Each Step Individually

Conclusion

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages