← Назад до курсу

Базова теорія

🇬🇧 English
🌱 Рівень 1 — Новачок

Фундаментальні моделі

Концепція фундаментальних моделей — великих попередньо навчених моделей для різних задач.

Фундаментальні моделі — це великі моделі ШІ, попередньо навчені на широких, різноманітних наборах даних, що можуть бути адаптовані для широкого спектру задач. Термін був запропонований центром HAI Стенфорду для опису парадигмального зсуву: замість навчання нової моделі для кожної задачі, ви навчаєте одну масивну модель і потім адаптуєте її через файн-тюнінг, промптинг або навчання з кількох прикладів.

GPT-4, Claude, Gemini та Llama — усі є фундаментальними моделями. Їх сила походить від масштабу — як у параметрах, так і в навчальних даних — що дає їм загальні можливості, які можуть бути спрямовані на конкретні застосування без початку з нуля кожного разу.

Основні теми
Що робить модель "фундаментальною"
Широке попереднє навчання на різноманітних даних дозволяє адаптацію до практично будь-якої задачі — перекладу, кодування, аналізу, творчого написання — без навчання нової моделі кожного разу.
Попереднє навчання у масштабі
Фундаментальні моделі навчаються на трильйонах токенів з книг, веб-сторінок, репозиторіїв коду та наукових статей. Це масивне занурення створює загальні знання та розуміння мови.
Трансферне навчання
Знання, отримані під час попереднього навчання, переносяться на конкретні задачі. Модель, навчена на загальному тексті, може бути адаптована для медичної діагностики, юридичного аналізу чи генерації коду.
Генераліст vs Спеціаліст
Фундаментальні моделі — генералісти: добрі у багатьох речах, але не найкращі в жодній конкретній. Задачно-специфічний файн-тюнінг створює спеціалістів за рахунок універсальності.
Екосистема моделей
Базові моделі → файн-тюни → дистильовані версії → API-сервіси. Кожен крок у ланцюгу обмінює загальність на специфічність або розмір на швидкість.
Відкриті фундаментальні моделі
Llama 3, Qwen 2.5, Mistral, OLMo — будь-хто може завантажити, запустити локально, файн-тюнити та досліджувати ці моделі. Відкриті ваги забезпечують дослідження та кастомізацію.
Закриті фундаментальні моделі
GPT-4, Claude, Gemini — доступ лише через API. Зазвичай пропонують найвищу продуктивність, але з меншою прозорістю та контролем. Ви платите за токен.
Файн-тюнінг для доменів
Адаптація фундаментальної моделі для конкретних доменів (медицина, юриспруденція, кодування) за допомогою кураторських датасетів. Зберігає загальні можливості, покращуючи доменну продуктивність.
Навчання з кількох прикладів
Надання прикладів у промпті для керування моделлю без перенавчання. Фундаментальні моделі можуть вивчити нові задачі на льоту з лише 2-5 прикладів.
Вартість навчання
Фронтирні моделі коштують $100M+ для попереднього навчання. Але файн-тюнінг коштує $100-$10K, а промптинг майже безкоштовний — екосистема робить можливості доступними на кожному бюджеті.
Ключові терміни
Фундаментальна модельВелика модель, попередньо навчена на широких даних, адаптована для багатьох задач через файн-тюнінг або промптинг.
Трансферне навчанняЗастосування знань, отриманих з однієї задачі/набору даних до іншої, але пов'язаної задачі.
Навчання з кількох прикладівНадання кількох прикладів у промпті для керування поведінкою моделі без перенавчання.
Файн-тюнінгПодальше навчання попередньо навченої моделі на задачно-специфічних даних.
Практичні поради
Пов'язані обговорення спільноти