Класифікація за типом даних

🌱 Рівень 1 — Новачок

Класифікація за типом даних

Категоризація моделей ШІ за типами даних, які вони обробляють.

Моделі ШІ можна категоризувати за типами даних, які вони обробляють як входи та видають як виходи. Розуміння цієї класифікації допомагає обрати правильну модель для кожної задачі. Текст-в-текст модель (LLM) обробляє інші задачі ніж зображення-в-текст модель (підписи) або текст-в-зображення модель (дифузія).

Сучасні моделі все більше розмивають ці межі — мультимодальні фундаментальні моделі можуть обробляти кілька типів даних в одній розмові. Але розуміння базової класифікації допомагає проєктувати ефективні ШІ-пайплайни та обирати відповідні API.

Основні теми

Текст → Текст (LLM)

Чат, написання, аналіз, переклад, резюмування. Моделі: GPT-4, Claude, Gemini, Llama. Найбільш зріла та широко використовувана категорія генеративного ШІ.

LLM та GPT

Текст → Зображення (Дифузія)

Генерація зображень з текстових описів. Моделі: DALL-E 3, Midjourney, Stable Diffusion, Flux. Якість зросла від абстрактного мистецтва до фотореалістичних результатів за 2 роки.

Дифузійні моделі

Зображення → Текст (Зір)

Підписи, OCR, візуальні запитання-відповіді. Моделі: GPT-4V, Claude Vision, Gemini Pro Vision. Дозволяє ШІ "бачити" та міркувати про зображення, скріншоти, документи.

Мультимодальність

Текст → Аудіо (TTS)

Синтез голосу з тексту. Моделі: ElevenLabs, OpenAI TTS, Bark. Сучасний TTS створює мову майже людської якості з емоціями, акцентами та різними мовами.

Аудіо → Текст (Розпізнавання мови)

Транскрипція та перетворення мови в текст. Моделі: Whisper, AssemblyAI, Deepgram. Забезпечує голосові інтерфейси, транскрипцію зустрічей та доступність.

Текст → Відео

Генерація відеокліпів з текстових описів. Моделі: Sora, Runway Gen-3, Kling, Pika. Найновіший фронтір — якість швидко покращується, але поки обмежена короткими кліпами.

Текст → Код

Генерація та доповнення коду з природної мови. Моделі: GPT-4, Claude, Codex, StarCoder. Живить інструменти як GitHub Copilot, Cursor та Claude Code.

Вайбкодинг

Код → Текст

Пояснення коду, генерація документації та ревю. Усі основні LLM відмінно читають та пояснюють код, роблячи це одним з найцінніших застосувань ШІ.

Зображення → Зображення

Редагування, перенос стилю, суперроздільність, інпейнтинг. Моделі: ControlNet, Instruct-Pix2Pix. Трансформація існуючих зображень замість генерації з нуля.

Дифузійні моделі

Аудіо → Аудіо

Конвертація голосу, ремікс музики, видалення шуму, покращення аудіо. Спеціалізовані моделі, що трансформують аудіо входи без проміжного текстового етапу.

Ключові терміни

МодальністьТип даних, з яким працює модель: текст, зображення, аудіо, відео або код.

ПайплайнЛанцюг моделей, що обробляють дані, напр., аудіо→текст→текст→аудіо для голосового чатбота.

ЕмбедінгЧислове представлення даних (тексту, зображення) у векторному просторі для семантичного пошуку.

Практичні поради

При виборі моделі спочатку визначте основну модальність — модель текст-в-зображення відрізняється від моделі розуміння тексту+зображення, навіть якщо обидві працюють із зображеннями
Будуйте пайплайни спеціалізованих моделей (мова-в-текст → LLM → текст-в-мову) замість однієї моделі для всього — спеціалізовані зазвичай кращі та дешевші
Моделі ембедінгів — це недооцінені інструменти: вони дозволяють семантичний пошук, рекомендаційні системи та кластеризацію за частку вартості LLM-викликів

Пов'язані обговорення спільноти

← Фундаментальні моделі Стан мистецтва (SOTA) →

Базова теорія

Класифікація за типом даних