← Назад до курсу

Базова теорія

🇬🇧 English
💡 Рівень 2 — Користувач

Контекст

Контекстні вікна, як моделі використовують контекст та ефективне управління контекстом.

Контекстне вікно — це загальний обсяг тексту (виміряний у токенах), який модель може обробити в одному запиті — включаючи як ваш вхід, так і вихід моделі. Думайте про це як про "робочу пам'ять" моделі. Все, що поза контекстним вікном, просто не існує для моделі.

Контекстні вікна драматично зросли: від 4K токенів у ранньому GPT-3.5 до 200K (Claude) та 1M+ (Gemini). Але більше — не завжди краще — моделі часто мають проблеми з ефективним використанням інформації у середині дуже довгих контекстів. Розуміння цієї динаміки є ключем до побудови ефективних ШІ-додатків.

Основні теми
Що таке контекстне вікно
Загальні токени (вхід + вихід), що модель обробляє в одному запиті — її робоча пам'ять. Все поза контекстним вікном просто не існує для моделі.
Розміри контекстних вікон
GPT-4 (128K), Claude (200K), Gemini (1M+), відкриті моделі (8K-128K). Більший контекст — більше доступної інформації, але зростають витрати та латентність.
Як працює увага
Кожен токен "звертає увагу" на кожен інший — обчислювальна вартість зростає квадратично (O(n^2)). Тому дуже довгі контексти дорогі і ефективні методи уваги важливі.
Проблема загубленості у середині
Моделі краще звертають увагу на початок та кінець контексту ніж на середину. Важлива інформація у середині довгого контексту може бути пропущена або отримати менше ваги.
Стратегії управління контекстом
Резюмування (стиснення старих повідомлень), чанкінг (обробка документів частинами), пріоритизація (найважливіше на початок/кінець). Необхідні навички для продакшн ШІ-додатків.
RAG (Генерація з пошуковим доповненням)
Витягування релевантних документів у контекст за запитом замість заповнення всього. Пошук знаходить найрелевантніші чанки, що додаються у промпт перед генерацією.
Пам'ять розмови
Чатботи імітують довгострокову пам'ять через управління контекстом: резюмування старих повідомлень, збереження ключових фактів та вибіркове включення релевантної історії.
Контекст-інженерія
Навмисне структурування того, що потрапляє в контекстне вікно — що включити, що резюмувати, що пропустити. Можливо, важливіше за промпт-інженерію для складних додатків.
Обробка ковзним вікном
Для документів довших за контекстне вікно — обробка частинами, що "ковзають" через контент з перетинами для збереження безперервності.
Витрати багатокрокових розмов
Кожне повідомлення в розмові споживає контекст. По мірі зростання розмови старі повідомлення обрізаються чи резюмуються. Розуміння цього допомагає проєктувати когерентних чатботів.
Ключові терміни
Контекстне вікноМаксимум токенів, що модель обробляє за раз — її робоча пам'ять для одного запиту.
Загубленість у серединіМоделі краще звертають увагу на початок та кінець контексту, часто пропускаючи середину.
RAGГенерація з пошуковим доповненням — динамічне витягування релевантних документів для додавання в контекст.
Контекст-інженеріяПрактика навмисного структурування та управління інформацією, що потрапляє в контекст моделі.
Практичні поради
Пов'язані обговорення спільноти