← Назад до курсу

Базова теорія

🇬🇧 English
⚡ Рівень 3 — Професіонал

Типи та структури моделей

Різні архітектури моделей та їх компроміси.

Не всі нейромережі мають однакову структуру. Різні архітектури мають різні переваги. Декодер-only трансформери (GPT, Llama) відмінні у генерації тексту. Моделі енкодер-декодер (T5) чудові для перекладу. MoE архітектури дозволяють значно більші моделі, активуючи лише підмножину параметрів, а нові моделі простору станів (Mamba) пропонують альтернативи квадратичній вартості уваги.

Вибір архітектури має масивні практичні наслідки. MoE моделі як Mixtral пропонують фронтирну якість за частку витрат інференсу, бо лише мала частина параметрів активується на токен. Моделі простору станів обіцяють ефективну обробку надзвичайно довгих послідовностей. Розуміння цих компромісів допомагає обрати правильну модель для ваших вимог до продуктивності, вартості та затримки.

Основні теми
Варіанти Transformer
Encoder-only (BERT — класифікація, ембедінги), decoder-only (GPT, Llama — генерація тексту), encoder-decoder (T5, BART — переклад, сумаризація). Кожен варіант обробляє текст по-різному завдяки патерну маски уваги.
Домінування Decoder-Only
GPT, Claude, Gemini, Llama — всі decoder-only. Перемогла, бо ефективно масштабується, навчається простим передбаченням наступного токена і обробляє розуміння та генерацію в одній моделі.
Mixture of Experts (MoE)
Кожен токен маршрутизується лише до 2 з 8+ спеціалізованих експертних підмереж. Модель з 46B загальних параметрів може використовувати лише 12B на прямий прохід, що робить її драматично швидшою за щільну модель рівної якості.
MoE на практиці
Mixtral 8x7B (46B загальних, 12B активних), DeepSeek-V3 та ймовірно GPT-4. MoE потребують більше пам'яті (всі експерти завантажені), але обчислюють менше на токен. Ідеальні де пам'ять дешева, а обчислення/затримка важливі.
Щільні vs розріджені моделі
Щільні (Llama, Claude) активують усі параметри — передбачувані, легші в оптимізації. Розріджені (MoE) активують частку — ефективніші, але складніші в навчанні та балансуванні між експертами.
Багатоголова увага
Кілька паралельних голів уваги захоплюють різні зв'язки — синтаксис, семантику, далекосяжні залежності. Сучасні моделі мають 32-128 голів. Grouped Query Attention (GQA) зменшує пам'ять спільним використанням голів ключ/значення.
Моделі простору станів
Mamba та S4 обробляють послідовності за O(n) час vs O(n^2) для уваги. Вони зберігають стиснутий стан, що еволюціонує з кожним токеном. Перспективні для надзвичайно довгих послідовностей (100K+ токенів).
Гібридні архітектури
Комбінування шарів уваги з шарами простору станів. Jamba (AI21) змішує шари Mamba та Transformer. Гібриди прагнуть поєднати переваги: глобальну увагу для міркування, ефективну обробку для довгих контекстів.
Глибина vs ширина моделі
Більше шарів (глибша) vs ширші шари (більше параметрів на шар). Глибші моделі краще міркують, але повільніші. Ширші обробляють швидше, але міркують менш глибоко. Закони масштабування допомагають знайти оптимум.
Архітектури для зору та мультимодальності
Vision Transformers (ViT) застосовують увагу до патчів зображень. Мультимодальні моделі поєднують текстові трансформери з візуальними енкодерами (CLIP, SigLIP). Дифузійні моделі використовують зовсім іншу архітектуру для генерації зображень.
Ключові терміни
MoEMixture of Experts — архітектура, що маршрутизує кожен токен до спеціалізованих підмереж, використовуючи лише частку параметрів на прохід.
Decoder-OnlyВаріант Transformer для авторегресивної генерації тексту по одному токену — домінуюча архітектура сучасних LLM.
Модель простору станівАльтернатива увазі (Mamba, S4), що обробляє послідовності за лінійний O(n) час замість квадратичного O(n^2).
Grouped Query AttentionОптимізація пам'яті де кілька голів уваги спільно використовують проєкції ключ/значення, зменшуючи KV кеш у 4-8 разів.
Практичні поради
Пов'язані обговорення спільноти