Як моделі навчаються з нуля та адаптуються для конкретних задач.
Навчання моделі відбувається етапами. Попереднє навчання вчить модель загальному розумінню мови через передбачення наступних токенів на інтернет-масштабних даних — це коштує мільйони доларів та вимагає тисячі GPU. Файн-тюнінг потім адаптує цю загальну модель для конкретних задач на значно менших кураторських датасетах. Нарешті, навчання вирівнювання (RLHF або DPO) вчить модель бути корисною, чесною та безпечною.
Поява параметрично-ефективних методів як LoRA демократизувала файн-тюнінг — тепер можна адаптувати модель з 70B параметрів на одному споживчому GPU. Це створило живу екосистему спільнотних файн-тюнів для специфічних доменів, мов та випадків використання. Розуміння коли файн-тюнити vs коли просто краще промптити — ключова навичка для практиків ШІ.
Попереднє навчання
Масивні обчислення (тисячі GPU протягом місяців) на трильйонах токенів. Модель вивчає мовну структуру, знання про світ та міркування через передбачення наступного токена. Коштує $10M-$100M+ для фронтирних моделей.
Кероване файн-тюнінг (SFT)
Навчання на кураторських парах інструкція-відповідь для вчення моделі слідувати інструкціям. Тисячі до мільйонів прикладів, зазвичай від годин до днів на кількох GPU.
RLHF
Навчання з підкріпленням за зворотним зв'язком від людей — люди порівнюють виходи моделі, модель нагороди вивчає їх переваги, потім LLM оптимізується для максимізації цієї нагороди. Техніка, що зробила ChatGPT робочим.
DPO
Пряма оптимізація переваг — простіша альтернатива RLHF без окремої моделі нагороди. Напряму оптимізує LLM на парах переваг. Дедалі популярніша за стабільність та простоту.
LoRA
Low-Rank Adaptation — файн-тюнінг лише малих додаткових матриць (1-5% параметрів) при замороженій оригінальній моделі. Створює крихітні файли адаптерів (10-100МБ), які можна підміняти.
QLoRA
Квантизований LoRA — поєднує квантизацію моделі (4-біт) з LoRA адаптерами, дозволяючи файн-тюнінг 70B моделей на одному 24ГБ GPU. Прорив для доступної кастомізації ШІ.
Повний файн-тюнінг vs PEFT
Повний файн-тюнінг оновлює всі параметри — максимальна якість, але вимагає мульти-GPU та ризикує катастрофічним забуванням. PEFT методи як LoRA дешевші та зберігають знання базової моделі.
Коли файн-тюнити vs промптити
Файн-тюнити для: стабільного стилю/формату, доменних знань, специфічних структур виходу. Промптити для: гнучких задач, швидкої ітерації, відсутності навчальних даних. Файн-тюнінг — зобов'язання; промптинг — експеримент.
Спектр витрат навчання
Попереднє навчання ($10M+) vs файн-тюнінг ($100-10K) vs промптинг (безкоштовно). API файн-тюнінг (OpenAI, Anthropic) коштує копійки за приклад. Власний файн-тюнінг вимагає оренди GPU ($1-5/год за A100).
Оцінка та ітерація
Вимірювання якості файн-тюнінгу тестовими наборами, автоматичними метриками (перплексія, BLEU, ROUGE) та людською оцінкою. Завжди порівнюйте з базовою моделлю для кількісної оцінки покращення.
RLHFНавчання з підкріпленням за зворотним зв'язком від людей — навчання моделей відповідно до людських переваг через модель нагороди.
LoRALow-Rank Adaptation — ефективний файн-тюнінг з навчанням лише малих додаткових матриць при замороженій базовій моделі.
SFTКероване файн-тюнінг — навчання на кураторських парах інструкція-відповідь для вчення моделі слідувати інструкціям.
DPOПряма оптимізація переваг — простіша альтернатива RLHF без моделі нагороди, що напряму оптимізує на парах переваг.