stack_pop

A collection of four fine-tuned transformer models (BERT, RoBERTa, ALBERT, DistilBERT) trained on 60,000 Stack Overflow questions from Kaggle. This repository provides preprocessed data, model training and evaluation notebooks, and guidance for reproducibility and further research.

📌 Overview

stack_pop aims to provide robust, fine-tuned transformer models for question understanding and related NLP tasks in the programming Q&A domain. The models are trained and evaluated on a large, real-world dataset of Stack Overflow questions, making them suitable for academic, research, and practical applications.

📋 Contents

df_preprocessed: Preprocessed version of the original Stack Overflow dataset, ready for model training and easier retraining.
finetuning.ipynb: Jupyter notebook for preprocessing, model loading, fine-tuning, and saving models to Hugging Face.
model_eval.ipynb: Jupyter notebook for evaluating all fine-tuned models and comparing their performance.

🧠 Models

The following transformer models are fine-tuned and included:

BERT-base
RoBERTa
ALBERT
DistilBERT

All models are fine-tuned on the same dataset for consistent benchmarking and comparison.

📚Dataset

Source: 60,000 Stack Overflow questions from Kaggle
Preprocessing: Cleaning, normalization, and formatting performed in finetuning.ipynb
Saved File: Preprocessed data is stored as df_preprocessed for reproducibility and faster retraining

🛠️ Getting Started

Requirements:

Python 3.8+
Jupyter Notebook
PyTorch
transformers, datasets, pandas, scikit-learn, and other standard ML/NLP libraries

Setup:

Clone the repository.
Install dependencies:

pip install requirements.txt

Open finetuning.ipynb to preprocess data and fine-tune models.
Use model_eval.ipynb to evaluate and compare model performance.

⚙️ Usage

Retraining: Use df_preprocessed as your starting dataset for further fine-tuning or experimentation.
Model Evaluation: Run model_eval.ipynb to assess model accuracy, F1, and other relevant metrics.
Hugging Face Integration: Models can be uploaded and shared via Hugging Face Model Hub.

📂 File Structure

File/Folder	Description
df_preprocessed	Preprocessed Stack Overflow dataset (post-cleaning)
finetuning.ipynb	Data preprocessing, model loading, fine-tuning, and saving
model_eval.ipynb	Evaluation and comparison of all fine-tuned models

📊 Results

Comparative evaluation of all four models is available in model_eval.ipynb, including accuracy, F1-score, and other relevant metrics.

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
README.md		README.md
df_preprocessed.csv		df_preprocessed.csv
finetuning.ipynb		finetuning.ipynb
model_eval.ipynb		model_eval.ipynb
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

stack_pop

📌 Overview

📋 Contents

🧠 Models

📚Dataset

🛠️ Getting Started

⚙️ Usage

📂 File Structure

📊 Results

About

Uh oh!

Releases

Packages

Languages

Kr1mson/Stack_pop

Folders and files

Latest commit

History

Repository files navigation

stack_pop

📌 Overview

📋 Contents

🧠 Models

📚Dataset

🛠️ Getting Started

⚙️ Usage

📂 File Structure

📊 Results

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages