RAG (Генерація з пошуковим доповненням)

🚀 Рівень 4 — Майстер

RAG (Генерація з пошуковим доповненням)

Заземлення відповідей ШІ на ваших власних даних за допомогою пошукових технік.

RAG — це найпрактичніша техніка для роботи ШІ з вашими власними даними. Замість файн-тюнінгу моделі на ваших документах (дорого та негнучко), RAG витягує релевантну інформацію під час запиту та включає в промпт. Модель потім генерує відповіді, заземлені на ваших реальних даних.

Типовий RAG-пайплайн: ембедінг документів у вектори, зберігання у векторній базі, та витягування найрелевантніших чанків під час запиту для включення в контекст. Цей патерн живить бази знань, бот підтримки, асистенти коду та ентерпрайз-пошук. Правильний пошук — це 80% виклику.

Основні теми

Архітектура RAG

Три фази: Retrieve (знайти релевантні документи), Augment (додати в промпт), Generate (LLM видає заземлену відповідь). Просто в концепції, нюансовано у виконанні.

Контекст

Ембедінги

Щільні векторні представлення тексту, що захоплюють семантичне значення. Подібні тексти мають подібні вектори. Моделі: OpenAI text-embedding-3, Cohere embed-v3, open-source BGE та E5.

Фундаментальні моделі

Векторні бази даних

Спеціалізовані бази для зберігання та запитів ембедінгів. Pinecone (керований), Qdrant (open-source), Weaviate, ChromaDB (легкий). Кожна оптимізована під різний масштаб.

Стратегії чанкінгу

Спосіб розбиття документів на чанки драматично впливає на якість пошуку. Фіксований, по реченнях, семантичний, рекурсивний та структурно-обізнаний чанкінг для різних типів контенту.

Гібридний пошук

Поєднання семантичного пошуку (ембедінги) з ключовим (BM25). Гібрид ловить і концептуально схожі, і точні ключові збіги. Більшість продакшн RAG використовують гібридний пошук.

Перерейтинг

Після первинного пошуку крос-енкодер перерейтер оцінює кожен чанк точніше. Cohere Rerank, BGE reranker. Драматично покращує точність пошуку.

Просунуті патерни RAG

CRAG (Corrective RAG): перевірка якості пошуку перед генерацією. Self-RAG: модель вирішує коли потрібен пошук. Graph RAG: векторний пошук + граф знань для багатшого контексту.

Мультимодальний RAG

RAG за межами тексту — витягування зображень, таблиць та фрагментів коду. Моделі візії обробляють отримані зображення. Витягування таблиць та коду вимагає спеціалізованого чанкінгу.

Мультимодальність

Оцінка

Вимірювання якості RAG: метрики пошуку (точність, повнота, MRR) та генерації (вірність, релевантність, повнота). Фреймворк RAGAS автоматизує оцінку RAG.

Типові пастки

Занадто малі чанки втрачають контекст, занадто великі витрачають токени. Погані ембедінги дають нерелевантний пошук. Без перерейтингу — шум у топ-результатах. Завжди оцінюйте пошук окремо від генерації.

Галюцинації

Ключові терміни

ЕмбедінгЩільне векторне представлення тексту, що захоплює семантичне значення для пошуку подібності.

Векторна база данихБаза даних оптимізована для зберігання ембедінгів та швидкого пошуку подібності (Pinecone, Qdrant, Weaviate).

ЧанкінгПроцес розбиття документів на менші частини для ембедінгу та пошуку.

ПеререйтингДруга стадія оцінки знайдених результатів крос-енкодером для покращення точності.

Практичні поради

Почніть з простої стратегії чанкінгу (500 токенів з 50 перетином), оптимізуйте лише після вимірювання якості пошуку
Завжди додавайте крок перерейтингу — це найвпливовіше покращення для RAG-системи
Оцінюйте пошук та генерацію окремо: поганий пошук не можна виправити кращою LLM

Пов'язані обговорення спільноти

← Використання інструментів Прикладні фреймворки →

Базова теорія

RAG (Генерація з пошуковим доповненням)