← Назад до курсу

Базова теорія

🇬🇧 English
⚡ Рівень 3 — Професіонал

Навчання та файн-тюнінг

Як моделі навчаються з нуля та адаптуються для конкретних задач.

Навчання моделі відбувається етапами. Попереднє навчання вчить модель загальному розумінню мови через передбачення наступних токенів на інтернет-масштабних даних — це коштує мільйони доларів та вимагає тисячі GPU. Файн-тюнінг потім адаптує цю загальну модель для конкретних задач на значно менших кураторських датасетах. Нарешті, навчання вирівнювання (RLHF або DPO) вчить модель бути корисною, чесною та безпечною.

Поява параметрично-ефективних методів як LoRA демократизувала файн-тюнінг — тепер можна адаптувати модель з 70B параметрів на одному споживчому GPU. Це створило живу екосистему спільнотних файн-тюнів для специфічних доменів, мов та випадків використання. Розуміння коли файн-тюнити vs коли просто краще промптити — ключова навичка для практиків ШІ.

Основні теми
Попереднє навчання
Масивні обчислення (тисячі GPU протягом місяців) на трильйонах токенів. Модель вивчає мовну структуру, знання про світ та міркування через передбачення наступного токена. Коштує $10M-$100M+ для фронтирних моделей.
Кероване файн-тюнінг (SFT)
Навчання на кураторських парах інструкція-відповідь для вчення моделі слідувати інструкціям. Тисячі до мільйонів прикладів, зазвичай від годин до днів на кількох GPU.
RLHF
Навчання з підкріпленням за зворотним зв'язком від людей — люди порівнюють виходи моделі, модель нагороди вивчає їх переваги, потім LLM оптимізується для максимізації цієї нагороди. Техніка, що зробила ChatGPT робочим.
DPO
Пряма оптимізація переваг — простіша альтернатива RLHF без окремої моделі нагороди. Напряму оптимізує LLM на парах переваг. Дедалі популярніша за стабільність та простоту.
LoRA
Low-Rank Adaptation — файн-тюнінг лише малих додаткових матриць (1-5% параметрів) при замороженій оригінальній моделі. Створює крихітні файли адаптерів (10-100МБ), які можна підміняти.
QLoRA
Квантизований LoRA — поєднує квантизацію моделі (4-біт) з LoRA адаптерами, дозволяючи файн-тюнінг 70B моделей на одному 24ГБ GPU. Прорив для доступної кастомізації ШІ.
Повний файн-тюнінг vs PEFT
Повний файн-тюнінг оновлює всі параметри — максимальна якість, але вимагає мульти-GPU та ризикує катастрофічним забуванням. PEFT методи як LoRA дешевші та зберігають знання базової моделі.
Коли файн-тюнити vs промптити
Файн-тюнити для: стабільного стилю/формату, доменних знань, специфічних структур виходу. Промптити для: гнучких задач, швидкої ітерації, відсутності навчальних даних. Файн-тюнінг — зобов'язання; промптинг — експеримент.
Спектр витрат навчання
Попереднє навчання ($10M+) vs файн-тюнінг ($100-10K) vs промптинг (безкоштовно). API файн-тюнінг (OpenAI, Anthropic) коштує копійки за приклад. Власний файн-тюнінг вимагає оренди GPU ($1-5/год за A100).
Оцінка та ітерація
Вимірювання якості файн-тюнінгу тестовими наборами, автоматичними метриками (перплексія, BLEU, ROUGE) та людською оцінкою. Завжди порівнюйте з базовою моделлю для кількісної оцінки покращення.
Ключові терміни
RLHFНавчання з підкріпленням за зворотним зв'язком від людей — навчання моделей відповідно до людських переваг через модель нагороди.
LoRALow-Rank Adaptation — ефективний файн-тюнінг з навчанням лише малих додаткових матриць при замороженій базовій моделі.
SFTКероване файн-тюнінг — навчання на кураторських парах інструкція-відповідь для вчення моделі слідувати інструкціям.
DPOПряма оптимізація переваг — простіша альтернатива RLHF без моделі нагороди, що напряму оптимізує на парах переваг.
Практичні поради
Пов'язані обговорення спільноти