← Назад до курсу

Базова теорія

🇬🇧 English
🌌 Рівень 5 — Горизонти

Пояснюваний та конституційний ШІ

Прозорість та принциповість рішень ШІ.

Пояснюваний ШІ (XAI) — сфера, присвячена тому, щоб рішення ШІ були зрозумілими людям. Оскільки системи ШІ приймають все більш важливі рішення (медичні діагнози, схвалення кредитів, юридичні рекомендації), здатність пояснити "чому" стає критичною для довіри, відладки, підзвітності та відповідності регуляціям.

Сфера простягається від пост-хок методів пояснення (LIME, SHAP) що пояснюють окремі передбачення, до архітектур з вбудованою інтерпретованістю, до фронтіру механістичної інтерпретованості — зворотної інженерії того, що відбувається всередині нейромереж на рівні схем. EU AI Act та подібні регуляції тепер вимагають пояснюваності для високоризикових систем ШІ.

Основні теми
Чому пояснюваність важлива
Довіра (чи прийняли б діагноз раку від чорної скриньки?), відладка (пошук помилок моделі), підзвітність (хто відповідальний коли ШІ помиляється?), регуляція (EU AI Act вимагає пояснень), справедливість (виявлення упередженості).
LIME
Local Interpretable Model-agnostic Explanations — пояснює окремі передбачення апроксимацією моделі локально простішою, інтерпретованою моделлю. Працює з будь-якою моделлю. "Для цього пацієнта вік та тиск були ключовими факторами."
SHAP
SHapley Additive exPlanations — використовує теорію ігор (значення Шеплі) для призначення кожній ознаці її справедливого внеску в передбачення. Математично строгий. Надає локальні та глобальні пояснення.
Візуалізація уваги
Візуалізація на яких вхідних токенах/регіонах фокусується модель трансформера. Інформативно, але може вводити в оману — патерни уваги не завжди розкривають справжній процес міркування.
Механістична інтерпретованість
Фронтір: зворотна інженерія нейромереж для розуміння реальних алгоритмів. Дослідження Anthropic ідентифікували конкретні схеми для математики, мови та фактичного пригадування всередині Claude. Найглибша форма пояснюваності.
Конституційний ШІ та принципи
Зробити поведінку ШІ принциповою та прозорою навчанням з явними ціннісними твердженнями. Модель може пояснити чому відмовляє або коригує відповіді. Принципи — людино-читабельний "вихідний код" поведінки ШІ.
Вбудовано інтерпретовані моделі
Дерева рішень, лінійні моделі та системи правил інтерпретовані за дизайном. Для критичних застосувань деякі аргументують переваги інтерпретованих моделей навіть ціною точності. Компроміс між можливостями та прозорістю.
Ланцюг думок як пояснення
LLM можуть пояснювати міркування покроково. Але чи ці пояснення вірно відображають внутрішній процес, чи це пост-хок раціоналізації? Дослідження вказують що частково вірні, але не повністю надійні.
Регуляторний ландшафт
EU AI Act вимагає пояснюваності для високоризикових систем ШІ (охорона здоров'я, правоохоронні органи, кредитування). США розробляють секторальні вказівки. "Право на пояснення" може стати фундаментальним правом.
Виклики та обмеження
Деякі моделі можуть бути занадто складними для вірного пояснення. Пояснення можуть бути сфальсифіковані (правдоподібні, але невірні причини). Баланс точності з інтерпретованістю залишається відкритим викликом.
Ключові терміни
XAIПояснюваний ШІ — сфера присвячена тому, щоб рішення ШІ були зрозумілими та прозорими для людей.
SHAPShapley Additive Explanations — метод на основі теорії ігор для пояснення окремих передбачень моделі.
Механістична інтерпретованістьЗворотна інженерія нейромереж для розуміння реальних алгоритмів та схем що вони реалізують.
Право на поясненняЮридичний концепт, що формується: люди під впливом рішень ШІ мають право розуміти як ці рішення прийняті.
Практичні поради
Пов'язані обговорення спільноти