Quantization Recipes for NLP Models

This repository contains a series of Jupyter notebooks demonstrating various quantization and optimization techniques for NLP models. These notebooks provide practical implementations of state-of-the-art methods for model compression and efficient inference.

Notebooks

01_large_language_model_optimization.ipynb: Optimizing a large language model for low-latency inference.
02_vision_transformer_edge_optimization.ipynb: Fine-tuning and quantizing a Vision Transformer for edge devices.
03_bert_question_answering_quantization.ipynb: Quantizing a BERT-based model for question answering tasks.
04_multitask_nlp_quantization.ipynb: Transfer learning and quantization for multi-task NLP.

Key Features

Mixed precision training
Post-training quantization (PTQ)
Quantization-aware fine-tuning (QAF)
Dynamic quantization
Pruning techniques
Layer fusion
Efficient attention mechanisms
Knowledge distillation

Cheatsheet

Check out my cheatsheet called "Quantization and Precision Tuning for Optimization" for some more info! Feel free to share :)

Getting Started

Clone this repository

git clone https://github.com/ethanshebley/quantization-recipes.git cd quantization-recipes

Install the required packages

pip install -r requirements.txt

Open the Jupyter notebooks and run!

Contributing

I would welcome contributions! Please feel free to submit a Pull Request.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Quantization Recipes for NLP Models

Notebooks

Key Features

Cheatsheet

Getting Started

Contributing

About

Uh oh!

Releases

Packages

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
01_large_language_model_optimization.ipynb		01_large_language_model_optimization.ipynb
02_vision_transformer_edge_optimization.ipynb		02_vision_transformer_edge_optimization.ipynb
03_bert_question_answering_quantization.ipynb		03_bert_question_answering_quantization.ipynb
04_multitask_nlp_quantization.ipynb		04_multitask_nlp_quantization.ipynb
Quantization and Precision Tuning for Optimal Inference.pdf		Quantization and Precision Tuning for Optimal Inference.pdf
README.md		README.md
requirements.txt		requirements.txt

ethanshenley/Quantization-Cookbook

Folders and files

Latest commit

History

Repository files navigation

Quantization Recipes for NLP Models

Notebooks

Key Features

Cheatsheet

Getting Started

Contributing

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Packages