Контекст

💡 Рівень 2 — Користувач

Контекстні вікна, як моделі використовують контекст та ефективне управління контекстом.

Контекстне вікно — це загальний обсяг тексту (виміряний у токенах), який модель може обробити в одному запиті — включаючи як ваш вхід, так і вихід моделі. Думайте про це як про "робочу пам'ять" моделі. Все, що поза контекстним вікном, просто не існує для моделі.

Контекстні вікна драматично зросли: від 4K токенів у ранньому GPT-3.5 до 200K (Claude) та 1M+ (Gemini). Але більше — не завжди краще — моделі часто мають проблеми з ефективним використанням інформації у середині дуже довгих контекстів. Розуміння цієї динаміки є ключем до побудови ефективних ШІ-додатків.

Основні теми

Що таке контекстне вікно

Загальні токени (вхід + вихід), що модель обробляє в одному запиті — її робоча пам'ять. Все поза контекстним вікном просто не існує для моделі.

Токен

Розміри контекстних вікон

GPT-4 (128K), Claude (200K), Gemini (1M+), відкриті моделі (8K-128K). Більший контекст — більше доступної інформації, але зростають витрати та латентність.

Великі гравці

Як працює увага

Кожен токен "звертає увагу" на кожен інший — обчислювальна вартість зростає квадратично (O(n^2)). Тому дуже довгі контексти дорогі і ефективні методи уваги важливі.

Основи нейромереж

Проблема загубленості у середині

Моделі краще звертають увагу на початок та кінець контексту ніж на середину. Важлива інформація у середині довгого контексту може бути пропущена або отримати менше ваги.

Стратегії управління контекстом

Резюмування (стиснення старих повідомлень), чанкінг (обробка документів частинами), пріоритизація (найважливіше на початок/кінець). Необхідні навички для продакшн ШІ-додатків.

RAG (Генерація з пошуковим доповненням)

Витягування релевантних документів у контекст за запитом замість заповнення всього. Пошук знаходить найрелевантніші чанки, що додаються у промпт перед генерацією.

RAG

Пам'ять розмови

Чатботи імітують довгострокову пам'ять через управління контекстом: резюмування старих повідомлень, збереження ключових фактів та вибіркове включення релевантної історії.

Контекст-інженерія

Навмисне структурування того, що потрапляє в контекстне вікно — що включити, що резюмувати, що пропустити. Можливо, важливіше за промпт-інженерію для складних додатків.

Промпт

Обробка ковзним вікном

Для документів довших за контекстне вікно — обробка частинами, що "ковзають" через контент з перетинами для збереження безперервності.

Витрати багатокрокових розмов

Кожне повідомлення в розмові споживає контекст. По мірі зростання розмови старі повідомлення обрізаються чи резюмуються. Розуміння цього допомагає проєктувати когерентних чатботів.

Токен

Ключові терміни

Контекстне вікноМаксимум токенів, що модель обробляє за раз — її робоча пам'ять для одного запиту.

Загубленість у серединіМоделі краще звертають увагу на початок та кінець контексту, часто пропускаючи середину.

RAGГенерація з пошуковим доповненням — динамічне витягування релевантних документів для додавання в контекст.

Контекст-інженеріяПрактика навмисного структурування та управління інформацією, що потрапляє в контекст моделі.

Практичні поради

Розміщуйте найважливішу інформацію на початку та в кінці промпту — моделі менше уваги приділяють середині (ефект "загубленості в середині")
Для задач з довгим контекстом чанкуйте вхід та сумаризуйте нерелевантні секції — фокусований контекст дає кращі результати ніж вичерпний
Використовуйте RAG замість заповнення всього в контекст — витягуйте лише релевантне для конкретного запиту, навіть якщо модель має величезне контекстне вікно

Пов'язані обговорення спільноти

← Токен Галюцинації →