Заземлення відповідей ШІ на ваших власних даних за допомогою пошукових технік.
RAG — це найпрактичніша техніка для роботи ШІ з вашими власними даними. Замість файн-тюнінгу моделі на ваших документах (дорого та негнучко), RAG витягує релевантну інформацію під час запиту та включає в промпт. Модель потім генерує відповіді, заземлені на ваших реальних даних.
Типовий RAG-пайплайн: ембедінг документів у вектори, зберігання у векторній базі, та витягування найрелевантніших чанків під час запиту для включення в контекст. Цей патерн живить бази знань, бот підтримки, асистенти коду та ентерпрайз-пошук. Правильний пошук — це 80% виклику.
Архітектура RAG
Три фази: Retrieve (знайти релевантні документи), Augment (додати в промпт), Generate (LLM видає заземлену відповідь). Просто в концепції, нюансовано у виконанні.
Ембедінги
Щільні векторні представлення тексту, що захоплюють семантичне значення. Подібні тексти мають подібні вектори. Моделі: OpenAI text-embedding-3, Cohere embed-v3, open-source BGE та E5.
Векторні бази даних
Спеціалізовані бази для зберігання та запитів ембедінгів. Pinecone (керований), Qdrant (open-source), Weaviate, ChromaDB (легкий). Кожна оптимізована під різний масштаб.
Стратегії чанкінгу
Спосіб розбиття документів на чанки драматично впливає на якість пошуку. Фіксований, по реченнях, семантичний, рекурсивний та структурно-обізнаний чанкінг для різних типів контенту.
Гібридний пошук
Поєднання семантичного пошуку (ембедінги) з ключовим (BM25). Гібрид ловить і концептуально схожі, і точні ключові збіги. Більшість продакшн RAG використовують гібридний пошук.
Перерейтинг
Після первинного пошуку крос-енкодер перерейтер оцінює кожен чанк точніше. Cohere Rerank, BGE reranker. Драматично покращує точність пошуку.
Просунуті патерни RAG
CRAG (Corrective RAG): перевірка якості пошуку перед генерацією. Self-RAG: модель вирішує коли потрібен пошук. Graph RAG: векторний пошук + граф знань для багатшого контексту.
Мультимодальний RAG
RAG за межами тексту — витягування зображень, таблиць та фрагментів коду. Моделі візії обробляють отримані зображення. Витягування таблиць та коду вимагає спеціалізованого чанкінгу.
Оцінка
Вимірювання якості RAG: метрики пошуку (точність, повнота, MRR) та генерації (вірність, релевантність, повнота). Фреймворк RAGAS автоматизує оцінку RAG.
Типові пастки
Занадто малі чанки втрачають контекст, занадто великі витрачають токени. Погані ембедінги дають нерелевантний пошук. Без перерейтингу — шум у топ-результатах. Завжди оцінюйте пошук окремо від генерації.
ЕмбедінгЩільне векторне представлення тексту, що захоплює семантичне значення для пошуку подібності.
Векторна база данихБаза даних оптимізована для зберігання ембедінгів та швидкого пошуку подібності (Pinecone, Qdrant, Weaviate).
ЧанкінгПроцес розбиття документів на менші частини для ембедінгу та пошуку.
ПеререйтингДруга стадія оцінки знайдених результатів крос-енкодером для покращення точності.