Типи та структури моделей

⚡ Рівень 3 — Професіонал

Типи та структури моделей

Різні архітектури моделей та їх компроміси.

Не всі нейромережі мають однакову структуру. Різні архітектури мають різні переваги. Декодер-only трансформери (GPT, Llama) відмінні у генерації тексту. Моделі енкодер-декодер (T5) чудові для перекладу. MoE архітектури дозволяють значно більші моделі, активуючи лише підмножину параметрів, а нові моделі простору станів (Mamba) пропонують альтернативи квадратичній вартості уваги.

Вибір архітектури має масивні практичні наслідки. MoE моделі як Mixtral пропонують фронтирну якість за частку витрат інференсу, бо лише мала частина параметрів активується на токен. Моделі простору станів обіцяють ефективну обробку надзвичайно довгих послідовностей. Розуміння цих компромісів допомагає обрати правильну модель для ваших вимог до продуктивності, вартості та затримки.

Основні теми

Варіанти Transformer

Encoder-only (BERT — класифікація, ембедінги), decoder-only (GPT, Llama — генерація тексту), encoder-decoder (T5, BART — переклад, сумаризація). Кожен варіант обробляє текст по-різному завдяки патерну маски уваги.

Основи нейромереж

Домінування Decoder-Only

GPT, Claude, Gemini, Llama — всі decoder-only. Перемогла, бо ефективно масштабується, навчається простим передбаченням наступного токена і обробляє розуміння та генерацію в одній моделі.

LLM

Mixture of Experts (MoE)

Кожен токен маршрутизується лише до 2 з 8+ спеціалізованих експертних підмереж. Модель з 46B загальних параметрів може використовувати лише 12B на прямий прохід, що робить її драматично швидшою за щільну модель рівної якості.

Фундаментальні моделі

MoE на практиці

Mixtral 8x7B (46B загальних, 12B активних), DeepSeek-V3 та ймовірно GPT-4. MoE потребують більше пам'яті (всі експерти завантажені), але обчислюють менше на токен. Ідеальні де пам'ять дешева, а обчислення/затримка важливі.

Оптимізація моделей

Щільні vs розріджені моделі

Щільні (Llama, Claude) активують усі параметри — передбачувані, легші в оптимізації. Розріджені (MoE) активують частку — ефективніші, але складніші в навчанні та балансуванні між експертами.

Багатоголова увага

Кілька паралельних голів уваги захоплюють різні зв'язки — синтаксис, семантику, далекосяжні залежності. Сучасні моделі мають 32-128 голів. Grouped Query Attention (GQA) зменшує пам'ять спільним використанням голів ключ/значення.

Контекст

Моделі простору станів

Mamba та S4 обробляють послідовності за O(n) час vs O(n^2) для уваги. Вони зберігають стиснутий стан, що еволюціонує з кожним токеном. Перспективні для надзвичайно довгих послідовностей (100K+ токенів).

Гібридні архітектури

Комбінування шарів уваги з шарами простору станів. Jamba (AI21) змішує шари Mamba та Transformer. Гібриди прагнуть поєднати переваги: глобальну увагу для міркування, ефективну обробку для довгих контекстів.

Глибина vs ширина моделі

Більше шарів (глибша) vs ширші шари (більше параметрів на шар). Глибші моделі краще міркують, але повільніші. Ширші обробляють швидше, але міркують менш глибоко. Закони масштабування допомагають знайти оптимум.

Від даних до моделі

Архітектури для зору та мультимодальності

Vision Transformers (ViT) застосовують увагу до патчів зображень. Мультимодальні моделі поєднують текстові трансформери з візуальними енкодерами (CLIP, SigLIP). Дифузійні моделі використовують зовсім іншу архітектуру для генерації зображень.

Мультимодальний ШІ

Ключові терміни

MoEMixture of Experts — архітектура, що маршрутизує кожен токен до спеціалізованих підмереж, використовуючи лише частку параметрів на прохід.

Decoder-OnlyВаріант Transformer для авторегресивної генерації тексту по одному токену — домінуюча архітектура сучасних LLM.

Модель простору станівАльтернатива увазі (Mamba, S4), що обробляє послідовності за лінійний O(n) час замість квадратичного O(n^2).

Grouped Query AttentionОптимізація пам'яті де кілька голів уваги спільно використовують проєкції ключ/значення, зменшуючи KV кеш у 4-8 разів.

Практичні поради

При виборі моделі перевірте чи вона щільна чи MoE — MoE потребують більше RAM, але працюють швидше на токен, що важливо для реал-тайм застосунків
Для ембедінгів та класифікації encoder моделі (варіанти BERT) все ще кращі та значно дешевші ніж використання LLM через API
Слідкуйте за моделями простору станів (Mamba, RWKV) — якщо вони закриють розрив якості з трансформерами, вони дозволять значно дешевший інференс на довгих документах

Пов'язані обговорення спільноти

← Оптимізація моделей →

Базова теорія

Типи та структури моделей