Розуміння різних форматів розповсюдження та виконання моделей.
Моделі ШІ потрібно серіалізувати у файли для розповсюдження та завантаження. Різні формати оптимізують різні цілі: GGUF пріоритизує запуск на споживчому обладнанні з розподілом CPU+GPU, GPTQ та AWQ оптимізовані для GPU з максимальною пропускною здатністю, SafeTensors забезпечує безпечне завантаження без ризиків виконання коду, ONNX надає кросплатформну сумісність.
Розуміння форматів моделей необхідне для локального деплою ШІ. Формат визначає який движок інференсу ви можете використати (llama.cpp, vLLM, TensorRT), на якому обладнанні він працює, скільки пам'яті потрібно та наскільки швидко генеруються токени. Більшість моделей на Hugging Face доступні у кількох форматах.
GGUF (llama.cpp)
Найуніверсальніший формат для локального інференсу. Підтримує CPU, GPU та змішане виконання CPU+GPU. Розповсюдження одним файлом з вбудованими метаданими. Основний формат для споживчого обладнання.
GPTQ
Оптимізований для GPU формат пост-тренувальної квантизації. Моделі квантизуються до 4-біт або 8-біт з калібраційними даними. Швидший за GGUF на чистому GPU, але вимагає повного вміщення в VRAM.
AWQ (Activation-Aware Quantization)
Просунута GPU-квантизація, що зберігає важливі ваги на основі патернів активації. Зазвичай краща якість ніж GPTQ при однаковій бітності. Підтримується vLLM та TensorRT-LLM.
SafeTensors
Безпечний формат серіалізації від Hugging Face, що запобігає виконанню довільного коду при завантаженні, підтримує memory-mapping та є стандартом на Hugging Face Hub.
ONNX (Open Neural Network Exchange)
Кросплатформний формат від Microsoft, Google та інших. Дозволяє запускати моделі на різному обладнанні (CPU, GPU, NPU) через ONNX Runtime. Для edge-деплою та мобільного інференсу.
ExLlamaV2 та EXL2
Високооптимізований GPU-інференс зі змінною квантизацією — різні шари можуть мати різну бітність. Найкраща якість на біт серед квантизованих форматів. Популярний серед ентузіастів.
TensorRT-LLM
Високопродуктивний движок інференсу від NVIDIA. Компілює моделі в оптимізовані плани виконання для GPU NVIDIA. Максимальна пропускна здатність для продакшн-серверів, але вимагає обладнання NVIDIA.
Рівні квантизації
Від Q2 (найменший, найнижча якість) до Q8 (найбільший, найвища якість). Q4_K_M — оптимальний баланс для GGUF. Q5+ рекомендується для задач з інтенсивним міркуванням.
Розповсюдження моделей
Hugging Face — основний хаб. Моделі завантажуються у кількох форматах спеціалістами з квантизації (TheBloke, bartowski). Ollama та LM Studio завантажують GGUF моделі в один клік.
Вибір правильного формату
Споживчий GPU: GGUF або EXL2. Продакшн GPU-сервер: AWQ або TensorRT-LLM. Тільки CPU: GGUF. Кросплатформа: ONNX. Мобільний/edge: ONNX або CoreML. Якщо сумніваєтесь: GGUF Q4_K_M.
GGUFФормат моделей llama.cpp для інференсу CPU+GPU — найпопулярніший формат для запуску моделей на споживчому обладнанні.
SafeTensorsБезпечний формат серіалізації моделей, що запобігає атакам виконання коду при завантаженні.
Рівень квантизаціїБітна точність ваг моделі (Q2-Q8) — менше біт означає менші файли, але знижену якість.
VRAMВідеопам'ять GPU — основне обмеження, що визначає які розміри та формати моделей можуть працювати на вашому обладнанні.