You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Квантизированные веса Whisper доступны из репозитория oxide-lab/whisper-large-v3-turbo-GGUF.
В отличие от Qwen3, квантизируется вся модель (encoder + decoder).
Доступные квантизации
Квантизация
Размер GGUF
Размер safetensors (baseline)
Экономия
Q8_0
825 МБ
1.5 ГБ
–46%
Q4_0
442 МБ
1.5 ГБ
–71%
Производительность (Metal GPU)
Квантиз.
Cold Start
Transcribe
Total (wall)
RTF
safetensors
4.03 с
6.60 с
10.67 с
0.110
Q8_0
1.38 с
16.12 с
17.51 с
0.269
Q4_0
0.23 с
13.99 с
14.22 с
0.233
Потребление памяти (Metal GPU)
Квантиз.
Peak RSS
Peak Footprint
Page Faults
safetensors
1 711 МБ
6 984 МБ
98 552
Q8_0
1 437 МБ
9 284 МБ
1 441
Q4_0
1 459 МБ
8 900 МБ
994
CPU-нагрузка (Metal GPU)
Квантиз.
User time
Sys time
Instructions
Cycles
safetensors
0.33 с
2.52 с
23.3B
10.9B
Q8_0
0.86 с
2.12 с
33.0B
11.5B
Q4_0
0.84 с
1.64 с
32.0B
9.6B
Оценка качества (русский)
Квантиз.
Ключевые отличия от safetensors
Качество
safetensors
Эталон: «блокирующих», «на вашей стороне», «детальный»
★★★★★
Q8_0
Идентично safetensors! Тот же текст, confidence 95%/93%
★★★★★
Q4_0
«облокирующих», «на вашей сцене», «институтальный»; confidence 92%/91%
★★★★☆
Ключевые выводы (Whisper GGUF)
Cold Start: загрузка GGUF в 3–17× быстрее safetensors (0.23–1.38 с vs 4.03 с)
RTF: GGUF в 2–2.4× медленнее safetensors (0.233–0.269 vs 0.110) — candle quantized inference менее оптимизирован для Metal
Качество Q8_0: идентично safetensors — нулевая потеря
Качество Q4_0: минимальная деградация, некоторые слова искажаются, но текст полностью понятен
Рекомендация: Q8_0 для сценариев частого запуска (сервер) из-за быстрого cold start; safetensors для максимального throughput
На данный момент квантизированные модели GigaAM и Parakeet не поддерживаются в RustASR:
GigaAM v3 CTC: engine возвращает ошибку "GigaAM: квантизированные модели пока не поддерживаются". Архитектура (Conformer CTC) не имеет реализации quantized_model в candle-transformers.
Parakeet TDT v3: engine возвращает ошибку "Parakeet: квантизированные модели пока не поддерживаются". Архитектура (FastConformer TDT) также не имеет квантизированного варианта.
Для обеих моделей квантизация потребует написания собственной quantized_model реализации (аналогично whisper::quantized_model), конвертации весов safetensors → GGUF и адаптации engine. Это возможная задача, но на данный момент эти модели работают только с safetensors весами.