Навчання та файн-тюнінг

⚡ Рівень 3 — Професіонал

Навчання та файн-тюнінг

Як моделі навчаються з нуля та адаптуються для конкретних задач.

Навчання моделі відбувається етапами. Попереднє навчання вчить модель загальному розумінню мови через передбачення наступних токенів на інтернет-масштабних даних — це коштує мільйони доларів та вимагає тисячі GPU. Файн-тюнінг потім адаптує цю загальну модель для конкретних задач на значно менших кураторських датасетах. Нарешті, навчання вирівнювання (RLHF або DPO) вчить модель бути корисною, чесною та безпечною.

Поява параметрично-ефективних методів як LoRA демократизувала файн-тюнінг — тепер можна адаптувати модель з 70B параметрів на одному споживчому GPU. Це створило живу екосистему спільнотних файн-тюнів для специфічних доменів, мов та випадків використання. Розуміння коли файн-тюнити vs коли просто краще промптити — ключова навичка для практиків ШІ.

Основні теми

Попереднє навчання

Масивні обчислення (тисячі GPU протягом місяців) на трильйонах токенів. Модель вивчає мовну структуру, знання про світ та міркування через передбачення наступного токена. Коштує $10M-$100M+ для фронтирних моделей.

Від даних до моделі Обладнання

Кероване файн-тюнінг (SFT)

Навчання на кураторських парах інструкція-відповідь для вчення моделі слідувати інструкціям. Тисячі до мільйонів прикладів, зазвичай від годин до днів на кількох GPU.

Промпт

RLHF

Навчання з підкріпленням за зворотним зв'язком від людей — люди порівнюють виходи моделі, модель нагороди вивчає їх переваги, потім LLM оптимізується для максимізації цієї нагороди. Техніка, що зробила ChatGPT робочим.

Вирівнювання

DPO

Пряма оптимізація переваг — простіша альтернатива RLHF без окремої моделі нагороди. Напряму оптимізує LLM на парах переваг. Дедалі популярніша за стабільність та простоту.

Вирівнювання

LoRA

Low-Rank Adaptation — файн-тюнінг лише малих додаткових матриць (1-5% параметрів) при замороженій оригінальній моделі. Створює крихітні файли адаптерів (10-100МБ), які можна підміняти.

Оптимізація моделей

QLoRA

Квантизований LoRA — поєднує квантизацію моделі (4-біт) з LoRA адаптерами, дозволяючи файн-тюнінг 70B моделей на одному 24ГБ GPU. Прорив для доступної кастомізації ШІ.

Оптимізація моделей

Повний файн-тюнінг vs PEFT

Повний файн-тюнінг оновлює всі параметри — максимальна якість, але вимагає мульти-GPU та ризикує катастрофічним забуванням. PEFT методи як LoRA дешевші та зберігають знання базової моделі.

Основи нейромереж

Коли файн-тюнити vs промптити

Файн-тюнити для: стабільного стилю/формату, доменних знань, специфічних структур виходу. Промптити для: гнучких задач, швидкої ітерації, відсутності навчальних даних. Файн-тюнінг — зобов'язання; промптинг — експеримент.

Техніки промптингу

Спектр витрат навчання

Попереднє навчання ($10M+) vs файн-тюнінг ($100-10K) vs промптинг (безкоштовно). API файн-тюнінг (OpenAI, Anthropic) коштує копійки за приклад. Власний файн-тюнінг вимагає оренди GPU ($1-5/год за A100).

API-провайдери

Оцінка та ітерація

Вимірювання якості файн-тюнінгу тестовими наборами, автоматичними метриками (перплексія, BLEU, ROUGE) та людською оцінкою. Завжди порівнюйте з базовою моделлю для кількісної оцінки покращення.

SOTA

Ключові терміни

RLHFНавчання з підкріпленням за зворотним зв'язком від людей — навчання моделей відповідно до людських переваг через модель нагороди.

LoRALow-Rank Adaptation — ефективний файн-тюнінг з навчанням лише малих додаткових матриць при замороженій базовій моделі.

SFTКероване файн-тюнінг — навчання на кураторських парах інструкція-відповідь для вчення моделі слідувати інструкціям.

DPOПряма оптимізація переваг — простіша альтернатива RLHF без моделі нагороди, що напряму оптимізує на парах переваг.

Практичні поради

Спробуйте промптинг та few-shot приклади спочатку — файн-тюнінг варто лише коли промптинг досягає стелі якості
Почніть з LoRA/QLoRA перед повним файн-тюнінгом — отримаєте 90% якості за 5% витрат та обчислень
Завжди залишайте 10-20% даних для оцінки — без тестового набору ви не зможете визначити чи файн-тюнінг покращив модель

Пов'язані обговорення спільноти

← Від даних до моделі Оптимізація моделей →

Базова теорія

Навчання та файн-тюнінг