Формати моделей

🚀 Рівень 4 — Майстер

Розуміння різних форматів розповсюдження та виконання моделей.

Моделі ШІ потрібно серіалізувати у файли для розповсюдження та завантаження. Різні формати оптимізують різні цілі: GGUF пріоритизує запуск на споживчому обладнанні з розподілом CPU+GPU, GPTQ та AWQ оптимізовані для GPU з максимальною пропускною здатністю, SafeTensors забезпечує безпечне завантаження без ризиків виконання коду, ONNX надає кросплатформну сумісність.

Розуміння форматів моделей необхідне для локального деплою ШІ. Формат визначає який движок інференсу ви можете використати (llama.cpp, vLLM, TensorRT), на якому обладнанні він працює, скільки пам'яті потрібно та наскільки швидко генеруються токени. Більшість моделей на Hugging Face доступні у кількох форматах.

Основні теми

GGUF (llama.cpp)

Найуніверсальніший формат для локального інференсу. Підтримує CPU, GPU та змішане виконання CPU+GPU. Розповсюдження одним файлом з вбудованими метаданими. Основний формат для споживчого обладнання.

Основи обладнання

GPTQ

Оптимізований для GPU формат пост-тренувальної квантизації. Моделі квантизуються до 4-біт або 8-біт з калібраційними даними. Швидший за GGUF на чистому GPU, але вимагає повного вміщення в VRAM.

Оптимізація моделей

AWQ (Activation-Aware Quantization)

Просунута GPU-квантизація, що зберігає важливі ваги на основі патернів активації. Зазвичай краща якість ніж GPTQ при однаковій бітності. Підтримується vLLM та TensorRT-LLM.

SafeTensors

Безпечний формат серіалізації від Hugging Face, що запобігає виконанню довільного коду при завантаженні, підтримує memory-mapping та є стандартом на Hugging Face Hub.

ONNX (Open Neural Network Exchange)

Кросплатформний формат від Microsoft, Google та інших. Дозволяє запускати моделі на різному обладнанні (CPU, GPU, NPU) через ONNX Runtime. Для edge-деплою та мобільного інференсу.

ExLlamaV2 та EXL2

Високооптимізований GPU-інференс зі змінною квантизацією — різні шари можуть мати різну бітність. Найкраща якість на біт серед квантизованих форматів. Популярний серед ентузіастів.

TensorRT-LLM

Високопродуктивний движок інференсу від NVIDIA. Компілює моделі в оптимізовані плани виконання для GPU NVIDIA. Максимальна пропускна здатність для продакшн-серверів, але вимагає обладнання NVIDIA.

Основи обладнання

Рівні квантизації

Від Q2 (найменший, найнижча якість) до Q8 (найбільший, найвища якість). Q4_K_M — оптимальний баланс для GGUF. Q5+ рекомендується для задач з інтенсивним міркуванням.

Оптимізація моделей

Розповсюдження моделей

Hugging Face — основний хаб. Моделі завантажуються у кількох форматах спеціалістами з квантизації (TheBloke, bartowski). Ollama та LM Studio завантажують GGUF моделі в один клік.

Вибір правильного формату

Споживчий GPU: GGUF або EXL2. Продакшн GPU-сервер: AWQ або TensorRT-LLM. Тільки CPU: GGUF. Кросплатформа: ONNX. Мобільний/edge: ONNX або CoreML. Якщо сумніваєтесь: GGUF Q4_K_M.

Ключові терміни

GGUFФормат моделей llama.cpp для інференсу CPU+GPU — найпопулярніший формат для запуску моделей на споживчому обладнанні.

SafeTensorsБезпечний формат серіалізації моделей, що запобігає атакам виконання коду при завантаженні.

Рівень квантизаціїБітна точність ваг моделі (Q2-Q8) — менше біт означає менші файли, але знижену якість.

VRAMВідеопам'ять GPU — основне обмеження, що визначає які розміри та формати моделей можуть працювати на вашому обладнанні.

Практичні поради

Почніть з GGUF Q4_K_M для будь-якої нової моделі — це найкращий баланс якості та розміру для більшості споживчих конфігурацій
Якщо маєте виділений GPU NVIDIA з достатньою VRAM, спробуйте AWQ або EXL2 для помітно швидшого інференсу ніж GGUF
Завжди використовуйте SafeTensors коли доступно — ніколи не завантажуйте ненадійні серіалізовані файли моделей, що можуть виконати довільний код

Пов'язані обговорення спільноти

← Прикладні фреймворки ШІ-протоколи →