Стан мистецтва (SOTA)

🌱 Рівень 1 — Новачок

Розуміння найкращих бенчмарків, рейтингів та як стежити за останніми досягненнями.

State of the Art (SOTA) стосується найвищого рівня продуктивності, досягнутого на конкретній задачі або бенчмарку в будь-який момент часу. У швидкорухомій галузі ШІ SOTA змінюється часто — іноді щотижня. Розуміння бенчмарків та лідербордів допомагає оцінювати заяви про моделі та обирати правильні інструменти.

Однак бенчмарки мають значні обмеження. Моделі можуть бути оптимізовані спеціально під бенчмарки (перенавчання), результати можуть не відображати реальне використання, а різні бенчмарки вимірюють різні речі. Навчитися критично оцінювати SOTA-заяви — це необхідний навик.

Основні теми

Що означає SOTA

Найкращий опублікований результат на стандартній бенчмарковій задачі в даний момент. У ШІ SOTA змінюється часто — іноді щотижня — коли випускаються нові моделі та техніки.

Текстові та знаннєві бенчмарки

MMLU (масивне мультизадачне знання), HellaSwag (здоровий глузд), ARC (наукові питання), TruthfulQA (фактична точність). Вимірюють розуміння та міркування моделей про мову.

Кодові бенчмарки

HumanEval, MBPP (базове програмування), SWE-bench (реальні задачі інженерії ПЗ), LiveCodeBench (свіжі задачі). Тестують практичну здатність програмування.

Вайбкодинг

Математичні бенчмарки

MATH (олімпіадна математика), GSM8K (математика початкової школи), задачі олімпіадного рівня. Математичне міркування — одна з найскладніших здібностей LLM.

Міркування

Бенчмарки міркувань

ARC-AGI (абстрактне міркування), Big-Bench Hard (складні різноманітні задачі), GPQA (запитання аспірантського рівня). Підштовхують межі того, що моделі можуть зрозуміти.

Міркування

Лідерборди людських переваг

Chatbot Arena (LMSYS) — реальні користувачі голосують між анонімними результатами моделей. Вважається найнадійнішим рейтингом, бо відображає реальне задоволення користувачів.

Open LLM Leaderboard

Автоматизований набір бенчмарків Hugging Face для моделей з відкритими вагами. Корисний для порівняння відкритих моделей, але оцінки можуть бути завищені оптимізацією під бенчмарки.

Великі гравці

Оцінка заяв про моделі

Дивіться за заголовкові числа: перевіряйте методологію, порівнюйте через кілька бенчмарків, тестуйте на власних задачах. Маркетинг обирає найкращі оцінки.

Контамінація бенчмарків

Коли тестові дані потрапляють у навчальні (випадково чи навмисно), оцінки штучно завищуються. Зростаюча проблема по мірі розширення навчальних датасетів.

Від даних до моделі

Де слідкувати за прогресом ШІ

AI Twitter/X для новин, Papers With Code для відстеження SOTA, Hugging Face для моделей, arXiv для статей, ШІ-розсилки (The Batch, Import AI) для кураторських резюме.

Ключові терміни

SOTAState of the Art — найкраща продуктивність на бенчмарку в даний момент часу.

БенчмаркСтандартизований тест для вимірювання та порівняння продуктивності моделей.

ЛідербордРейтинг моделей за продуктивністю на одному або кількох бенчмарках.

КонтамінаціяКоли тестові дані бенчмарку з'являються у навчальних даних, роблячи оцінки ненадійними.

Chatbot ArenaЛідерборд людських переваг, де реальні користувачі сліпо порівнюють результати моделей.

Практичні поради

Завжди перевіряйте Chatbot Arena для найнадійніших рейтингів моделей — він використовує реальні людські переваги
Не довіряйте одному бенчмарковому балу. Дивіться на продуктивність через множинні різноманітні бенчмарки
Найкраща модель на бенчмарках може не бути найкращою для вашого конкретного випадку — завжди тестуйте самі

Пов'язані обговорення спільноти

← Класифікація за типом даних →