← Назад до курсу

Базова теорія

🇬🇧 English
🌱 Рівень 1 — Новачок

Мультимодальність

Моделі ШІ, що працюють з кількома типами даних одночасно.

Мультимодальний ШІ стосується моделей, що можуть обробляти та генерувати кілька типів даних — текст, зображення, аудіо, відео — в одній системі. Замість окремих моделей для кожного типу даних, сучасні мультимодальні моделі розуміють зв'язки між модальностями, забезпечуючи потужні можливості як опис зображень, відповіді на запитання про документи або генерація зображень з тексту.

Тренд до мультимодальності прискорюється. GPT-4V, Claude Vision та Gemini можуть аналізувати зображення разом з текстом. Gemini обробляє аудіо та відео нативно. Ця конвергенція означає, що одна модель може все більше обробляти задачі, що раніше вимагали спеціалізованих пайплайнів.

Основні теми
Що таке мультимодальність
Одна модель обробляє та генерує кілька типів даних — текст, зображення, аудіо, відео — в одній уніфікованій системі. Вихід за межі лише текстового ШІ.
Візуально-мовні моделі
GPT-4V, Claude Vision (Sonnet/Opus), Gemini Pro Vision. Ці моделі "бачать" зображення та міркують про них природною мовою — описуючи сцени, читаючи текст, аналізуючи графіки.
Розуміння зображень
Опис сцен, OCR (читання тексту з зображень), аналіз графіків/діаграм, візуальне QA. Моделі можуть аналізувати скріншоти, фотографії, документи та діаграми.
Розуміння та генерація аудіо
Whisper (OpenAI) транскрибує мову в текст. TTS моделі синтезують природний голос. Клонування голосу відтворює голос конкретної людини із зразків.
Розуміння документів
Парсинг складних макетів — PDF, рахунків, рукописного тексту, багатоколонних документів. Поєднує OCR з мовним розумінням для інтелектуальної екстракції даних.
Кросмодальна генерація
Текст-у-зображення (DALL-E, Midjourney), зображення-в-текст (підписи), текст-в-аудіо (TTS), аудіо-в-текст (транскрипція). Безшовна конвертація між типами даних.
Розуміння відео
Часовий аналіз, розпізнавання дій, відео QA — розуміння що відбувається через кадри протягом часу. Складніше за аналіз одного зображення.
Нативна vs Адаптерна мультимодальність
Деякі моделі (Gemini) нативно мультимодальні з попереднього навчання. Інші прикручують адаптери зору до текстових моделей. Нативні зазвичай більш здатні та ефективні.
Підхід Gemini
Gemini від Google попередньо навчений нативно на тексті + зображеннях + аудіо + відео одночасно. Це дає глибше кросмодальне розуміння порівняно з адаптерними підходами.
Реальні застосування
Інструменти доступності (опис зображень для незрячих), модерація контенту (виявлення шкідливих зображень), медична візуалізація, автономне водіння, пайплайни обробки документів.
Ключові терміни
МодальністьТип вхідних/вихідних даних: текст, зображення, аудіо, відео або код.
Візуально-мовна модельМодель, що може розуміти та міркувати про зображення разом з текстом.
OCRОптичне розпізнавання символів — витягування тексту із зображень документів або екранів.
КросмодальнийКонвертація між типами даних, напр., генерація зображення з текстового опису.
Практичні поради
Пов'язані обговорення спільноти