← Назад до курсу

Базова теорія

🇬🇧 English
🌱 Рівень 1 — Новачок

Класифікація за типом даних

Категоризація моделей ШІ за типами даних, які вони обробляють.

Моделі ШІ можна категоризувати за типами даних, які вони обробляють як входи та видають як виходи. Розуміння цієї класифікації допомагає обрати правильну модель для кожної задачі. Текст-в-текст модель (LLM) обробляє інші задачі ніж зображення-в-текст модель (підписи) або текст-в-зображення модель (дифузія).

Сучасні моделі все більше розмивають ці межі — мультимодальні фундаментальні моделі можуть обробляти кілька типів даних в одній розмові. Але розуміння базової класифікації допомагає проєктувати ефективні ШІ-пайплайни та обирати відповідні API.

Основні теми
Текст → Текст (LLM)
Чат, написання, аналіз, переклад, резюмування. Моделі: GPT-4, Claude, Gemini, Llama. Найбільш зріла та широко використовувана категорія генеративного ШІ.
Текст → Зображення (Дифузія)
Генерація зображень з текстових описів. Моделі: DALL-E 3, Midjourney, Stable Diffusion, Flux. Якість зросла від абстрактного мистецтва до фотореалістичних результатів за 2 роки.
Зображення → Текст (Зір)
Підписи, OCR, візуальні запитання-відповіді. Моделі: GPT-4V, Claude Vision, Gemini Pro Vision. Дозволяє ШІ "бачити" та міркувати про зображення, скріншоти, документи.
Текст → Аудіо (TTS)
Синтез голосу з тексту. Моделі: ElevenLabs, OpenAI TTS, Bark. Сучасний TTS створює мову майже людської якості з емоціями, акцентами та різними мовами.
Аудіо → Текст (Розпізнавання мови)
Транскрипція та перетворення мови в текст. Моделі: Whisper, AssemblyAI, Deepgram. Забезпечує голосові інтерфейси, транскрипцію зустрічей та доступність.
Текст → Відео
Генерація відеокліпів з текстових описів. Моделі: Sora, Runway Gen-3, Kling, Pika. Найновіший фронтір — якість швидко покращується, але поки обмежена короткими кліпами.
Текст → Код
Генерація та доповнення коду з природної мови. Моделі: GPT-4, Claude, Codex, StarCoder. Живить інструменти як GitHub Copilot, Cursor та Claude Code.
Код → Текст
Пояснення коду, генерація документації та ревю. Усі основні LLM відмінно читають та пояснюють код, роблячи це одним з найцінніших застосувань ШІ.
Зображення → Зображення
Редагування, перенос стилю, суперроздільність, інпейнтинг. Моделі: ControlNet, Instruct-Pix2Pix. Трансформація існуючих зображень замість генерації з нуля.
Аудіо → Аудіо
Конвертація голосу, ремікс музики, видалення шуму, покращення аудіо. Спеціалізовані моделі, що трансформують аудіо входи без проміжного текстового етапу.
Ключові терміни
МодальністьТип даних, з яким працює модель: текст, зображення, аудіо, відео або код.
ПайплайнЛанцюг моделей, що обробляють дані, напр., аудіо→текст→текст→аудіо для голосового чатбота.
ЕмбедінгЧислове представлення даних (тексту, зображення) у векторному просторі для семантичного пошуку.
Практичні поради
Пов'язані обговорення спільноти