← Назад до курсу

Базова теорія

🇬🇧 English
🚀 Рівень 4 — Майстер

Основи обладнання

Вимоги до обладнання для локального запуску моделей ШІ.

Запуск моделей ШІ локально вимагає розуміння апаратних обмежень. Ключове вузьке місце — пам'ять, зокрема VRAM GPU для швидкого інференсу. Модель на 7B параметрів потребує близько 4-6GB VRAM (квантизована), а 70B — 35-48GB. Ваше обладнання визначає які моделі ви можете запускати та наскільки швидко вони генерують токени.

Ландшафт обладнання значно демократизувався. Apple Silicon Mac з unified memory може запускати напрочуд великі моделі. Споживчі GPU NVIDIA (RTX 4090 з 24GB VRAM) добре працюють з 13B-34B моделями. Для більших моделей хмарні GPU-провайдери пропонують погодинний доступ. Розуміння цих опцій допомагає обрати правильний баланс вартості, швидкості та можливостей.

Основні теми
GPU проти CPU інференсу
GPU у 10-50 разів швидше CPU для інференсу ШІ завдяки масивному паралелізму. CPU працює для малих моделей або з GGUF CPU offloading. Для серйозної локальної роботи з ШІ GPU необхідний.
Вимоги до VRAM
7B модель: ~4GB (Q4), ~8GB (FP16). 13B: ~8GB (Q4). 34B: ~20GB (Q4). 70B: ~40GB (Q4). Правило: розмір моделі в GB при Q4 приблизно половина кількості параметрів у мільярдах.
Споживчі GPU NVIDIA
RTX 4090 (24GB, $1600) — король локальних LLM. RTX 4080 (16GB). RTX 3090 (24GB, б/у ~$800) — найкраща цінність. RTX 4060 Ti 16GB — бюджетний варіант. VRAM важливіша за швидкість для LLM.
Apple Silicon
M1/M2/M3/M4 Mac з unified memory можуть запускати великі моделі. M2 Ultra (192GB) може запускати 70B+. M3 Max (128GB) добре працює з 34B. Повільніший за NVIDIA, але пропускна здатність пам'яті відмінна.
GPU серверного класу
A100 (80GB), H100 (80GB), H200 (141GB) — обладнання ШІ-лабораторій. У 10-20 разів дорожчі за споживчі GPU. Доступні через хмарних провайдерів для погодинної оренди.
Хмарні GPU-провайдери
RunPod, Vast.ai, Lambda Labs — оренда GPU погодинно ($0.50-$4/год за A100). Добре для нечастого використання або моделей занадто великих для локального обладнання. Без початкових інвестицій.
Мульти-GPU конфігурації
Розподіл великих моделей між кількома GPU. NVLink забезпечує швидку GPU-GPU комунікацію. Споживчі GPU можуть використовувати PCIe з повільнішим, але функціональним шардингом моделей.
Движки інференсу
llama.cpp (CPU+GPU, універсальний), vLLM (високопропускний GPU-сервінг), Ollama (простий локальний запуск), LM Studio (GUI), TGI (сервінг HuggingFace). Кожен оптимізований під різні випадки.
RAM та сховище
Системна RAM важлива для CPU-інференсу та завантаження моделей. Мінімум 32GB, рекомендовано 64GB+. NVMe SSD драматично прискорює завантаження моделей (30-70B моделі — файли 20-40GB).
Конфігурації за бюджетом
Базова ($500): б/у RTX 3060 12GB — запуск 7B моделей. Середня ($1500): RTX 4090 24GB — до 34B. Висока ($3000+): Mac Studio M2 Ultra або dual GPU. Бюджет: хмарні API замість локального обладнання.
Ключові терміни
VRAMВідеопам'ять GPU — основне обмеження для того, які моделі ШІ можуть працювати локально.
Unified MemoryАрхітектура Apple Silicon, де CPU та GPU використовують спільний пул пам'яті, дозволяючи більші моделі на Mac.
Шардинг моделіРозподіл моделі між кількома GPU, коли вона занадто велика для VRAM одного GPU.
Движок інференсуПЗ для завантаження та запуску моделей ШІ — llama.cpp, vLLM, Ollama, TensorRT-LLM оптимізовані під різні сценарії.
Практичні поради
Пов'язані обговорення спільноти