← Назад до курсу

Базова теорія

🇬🇧 English
🌱 Рівень 1 — Новачок

Стан мистецтва (SOTA)

Розуміння найкращих бенчмарків, рейтингів та як стежити за останніми досягненнями.

State of the Art (SOTA) стосується найвищого рівня продуктивності, досягнутого на конкретній задачі або бенчмарку в будь-який момент часу. У швидкорухомій галузі ШІ SOTA змінюється часто — іноді щотижня. Розуміння бенчмарків та лідербордів допомагає оцінювати заяви про моделі та обирати правильні інструменти.

Однак бенчмарки мають значні обмеження. Моделі можуть бути оптимізовані спеціально під бенчмарки (перенавчання), результати можуть не відображати реальне використання, а різні бенчмарки вимірюють різні речі. Навчитися критично оцінювати SOTA-заяви — це необхідний навик.

Основні теми
Що означає SOTA
Найкращий опублікований результат на стандартній бенчмарковій задачі в даний момент. У ШІ SOTA змінюється часто — іноді щотижня — коли випускаються нові моделі та техніки.
Текстові та знаннєві бенчмарки
MMLU (масивне мультизадачне знання), HellaSwag (здоровий глузд), ARC (наукові питання), TruthfulQA (фактична точність). Вимірюють розуміння та міркування моделей про мову.
Кодові бенчмарки
HumanEval, MBPP (базове програмування), SWE-bench (реальні задачі інженерії ПЗ), LiveCodeBench (свіжі задачі). Тестують практичну здатність програмування.
Математичні бенчмарки
MATH (олімпіадна математика), GSM8K (математика початкової школи), задачі олімпіадного рівня. Математичне міркування — одна з найскладніших здібностей LLM.
Бенчмарки міркувань
ARC-AGI (абстрактне міркування), Big-Bench Hard (складні різноманітні задачі), GPQA (запитання аспірантського рівня). Підштовхують межі того, що моделі можуть зрозуміти.
Лідерборди людських переваг
Chatbot Arena (LMSYS) — реальні користувачі голосують між анонімними результатами моделей. Вважається найнадійнішим рейтингом, бо відображає реальне задоволення користувачів.
Open LLM Leaderboard
Автоматизований набір бенчмарків Hugging Face для моделей з відкритими вагами. Корисний для порівняння відкритих моделей, але оцінки можуть бути завищені оптимізацією під бенчмарки.
Оцінка заяв про моделі
Дивіться за заголовкові числа: перевіряйте методологію, порівнюйте через кілька бенчмарків, тестуйте на власних задачах. Маркетинг обирає найкращі оцінки.
Контамінація бенчмарків
Коли тестові дані потрапляють у навчальні (випадково чи навмисно), оцінки штучно завищуються. Зростаюча проблема по мірі розширення навчальних датасетів.
Де слідкувати за прогресом ШІ
AI Twitter/X для новин, Papers With Code для відстеження SOTA, Hugging Face для моделей, arXiv для статей, ШІ-розсилки (The Batch, Import AI) для кураторських резюме.
Ключові терміни
SOTAState of the Art — найкраща продуктивність на бенчмарку в даний момент часу.
БенчмаркСтандартизований тест для вимірювання та порівняння продуктивності моделей.
ЛідербордРейтинг моделей за продуктивністю на одному або кількох бенчмарках.
КонтамінаціяКоли тестові дані бенчмарку з'являються у навчальних даних, роблячи оцінки ненадійними.
Chatbot ArenaЛідерборд людських переваг, де реальні користувачі сліпо порівнюють результати моделей.
Практичні поради
Пов'язані обговорення спільноти