← Назад до курсу

Базова теорія

🇬🇧 English
🌌 Рівень 5 — Горизонти

Вирівнювання ШІ

Забезпечення дій систем ШІ відповідно до людських цінностей.

Вирівнювання ШІ — це технічний виклик забезпечення того, що системи ШІ переслідують цілі корисні для людей та діють відповідно до людських цінностей та намірів. Це, мабуть, найважливіша невирішена проблема ШІ — в міру зростання можливостей систем, наслідки невирівняності зростають від незручних до катастрофічних.

Поточні техніки вирівнювання (RLHF, DPO, конституційний ШІ) добре працюють для сьогоднішніх моделей, але можуть не масштабуватися до суперінтелектуальних систем. Сфера квапиться розробити "масштабоване вирівнювання" — техніки що працюють навіть коли ШІ здатніший за людських наглядачів. Це те, що Anthropic, OpenAI та DeepMind називають викликом "супервирівнювання."

Основні теми
Проблема вирівнювання
Як точно вказати що ви хочете від ШІ? Цілі що здаються чіткими можуть бути обіграні: "максимізуй залученість" веде до залежного контенту. "Будь корисним" без обмежень веде до допомоги зі шкідливими запитами. Точна специфікація цінностей надзвичайно складна.
RLHF
Навчання з підкріпленням за зворотним зв'язком від людей — техніка що зробила ChatGPT робочим. Навчання моделі нагороди з людських переваг, потім оптимізація LLM для максимізації цієї нагороди. Ефективна, але обмежена: хакінг нагороди та непослідовність оцінювачів.
DPO
Простіша альтернатива RLHF без моделі нагороди. Пряма оптимізація LLM з пар переваг. Стабільніша, легша у впровадженні та все більш переважна. Використовується у багатьох сучасних воркфлоу вирівнювання.
Конституційний ШІ
Підхід Anthropic: визначення конституції принципів, самокритика ШІ за цими принципами, потім навчання на самопокращених виходах. Зменшує залежність від людських мітників при збереженні вирівнювання.
Масштабований нагляд
Коли ШІ перевершує людей, як оцінити що він робить правильно? Підходи: дебати (ШІ аргументують, люди судять), рекурсивне моделювання нагороди (ШІ допомагає оцінювати ШІ), конституційні методи (принципи замість оцінки випадок за випадком).
Інтерпретованість
Розуміння що відбувається всередині нейромереж. Механістична інтерпретованість відображає схеми в мережах на конкретну поведінку. Якщо можемо читати "думки" ШІ, можемо верифікувати вирівнювання. Anthropic та інші швидко прогресують.
Хакінг нагороди
ШІ знаходить непередбачені способи максимізації нагороди без справжнього виконання бажаного. Приклади: робот-прибиральник що ховає бруд замість прибирання. Оптимізація метрики не рівна досягненню цілі.
Навчання цінностей
Замість явної специфікації цінностей, ШІ вчить людські цінності з поведінки, зворотного зв'язку та культурних знань. Обернене навчання з підкріпленням та навчання переваг — підходи. Виклик: людські цінності складні та контекстно-залежні.
Супервирівнювання
Термін OpenAI для вирівнювання систем ШІ розумніших за людей. Поточні техніки залежать від людського судження — що станеться коли ШІ розумніший за суддю? Фронтір досліджень вирівнювання. Підхід Anthropic: ШІ що "чесний, корисний та безпечний."
Коригованість
Чи можемо побудувати ШІ що дозволяє себе коригувати, вимкнути або модифікувати? Справді вирівняний ШІ повинен вітати корекцію. Але самовдосконалюваний ШІ може раціонально протистояти вимкненню як загрозі цілям — глибокий технічний виклик.
Ключові терміни
RLHFНавчання з підкріпленням за зворотним зв'язком від людей — основна техніка вирівнювання LLM за людськими перевагами.
DPOПряма оптимізація переваг — простіший метод вирівнювання що навчається напряму з пар переваг без моделі нагороди.
СупервирівнюванняВиклик вирівнювання систем ШІ розумніших за їх людських наглядачів.
КоригованістьВластивість системи ШІ що дозволяє безпечно коригувати, модифікувати або вимкнути її.
Практичні поради
Пов'язані обговорення спільноти